Perfil
Propostas
Processamento de linguagem natural para análise semântica: um estudo de caso para a clusterização automática de projetos do Ministério da Cultura do Brasil
Nome: Kátia Kelvis Cassiano e Douglas Farias Cordeiro
Contato: katiakelvis@ufg.br; cordeiro@ufg.br
Instituição: Universidade Federal de Goiás
Tipo de proposta: Apresentação
Título da apresentação: Processamento de linguagem natural para análise semântica: um estudo de caso para a clusterização automática de projetos do Ministério da Cultura do Brasil
Foco principal da apresentação: Técnico
Fase do trabalho apresentado: Estudo de caso com resultados práticos
Descrição da apresentação
Definição do problema: os projetos culturais do Ministério da Cultura do Brasil (MinC) são classificados em oito áreas temáticas, a saber: Artes Cênicas, Audiovisual, Música, Artes Visuais, Patrimônio Cultural, Humanidades, Artes Integradas e Museu e Memória. Uma determinada área temática (por exemplo, Artes Cênicas) pode, ainda, possuir subáreas (Dança, Circo, Ópera, Teatro) dado certas peculiaridades da área no contexto cultural.
Diante disso, existe uma problemática que reside na subjetividade do processo de classificação dos projetos. Falta consenso na identificação das áreas temáticas, uma vez que esta tarefa é realizada pelo próprio proponente quando realiza o cadastramento do projeto no MinC, sendo portanto totalmente dependente da interpretação semântica dada pelo mesmo à descrição do projeto. Além da subjetividade, tal ação incorre também em polissemia - multiplicidade de sentidos na definição de áreas e subáreas temáticas.
Objetivo da Solução Implementada: visando eliminar a subjetividade da classificação de projetos culturais, a solução apresentada neste trabalho resulta em uma separação dos projetos em grupos, com base na similaridade semântica dos mesmos, possibilitando identificar áreas temáticas de forma automatizada.
Nesse sentido, o trabalho contempla operações de Descoberta de Conhecimento em Bases de Dados (KDD) pertencentes à etapa de Mineração de Dados - seleção de dados, limpeza de dados, codificação, clusterização do conjunto de dados e possibilidade de classificação dos registros com base nos clusters/ agrupamentos gerados. A clusterização pode, então, ser utilizada como subsídio para a classificação dos projetos culturais em áreas temáticas – cada área representada por um cluster. O trabalho tem como base métodos de Processamento de Linguagem Natural (PLN) para análise semântica de textos com vistas à melhor representação dos dados referentes aos projetos.
Serão apresentados os resultados referentes à clusterização dos projetos e a distribuição dos mesmos segundo a similaridade semântica. De uma forma geral, o trabalho apresentado é significativamente relevante do ponto de vista de aplicação de técnicas e métodos de Processamento de Linguagem Natural para análise de conteúdo, sendo potencial para tarefas de classificação com vistas à organização automatizada e analítica de dados.
Detalhes técnicos: métodos estatísticos ou modelos de aprendizagem utilizados; softwares e linguagens de programação utilizados
A solução foi implementada em linguagem de programação Python e utilizando das bibliotecas e modelos de Processamento de Linguagem Natural gensim.models (Gensim Python Library) e NLTK (Natural Language Toolkit), bem como bibliotecas e módulos de Análise de Dados (pandas, matplotlib, seaborn).
Os dados dos projetos culturais foram obtidos por meio da API Restful SALIC, desenvolvida pelo Núcleo de Pesquisas em Gestão, Políticas e Tecnologias da Informação da Universidade Federal de Goiás, através do Laboratório de Dados Abertos, para o Ministério da Cultura do Brasil (MinC), com o propósito de abertura dos dados de projetos culturais gerenciados pelo sistema denominado SALIC Web. Foram obtidos dados de todos os projetos de 2017, totalizando 9720 registros. Para definir a base de dados de interesse, gerou-se um corpus textual a partir dos atributos PRONAC, Resumo e Descrição da entidade Projeto do modelo de dados da API SALIC. Cada registro do corpus textual é tratado, para efeitos de análise de dados, como um documento representado por um identificador único (PRONAC) e um texto descritivo sobre o projeto ao qual se refere.
Para aplicação dos métodos de PLN, na etapa de pré-processamento foi realizada a tokenização (texto descritivo transformado em tokens ou termos) e remoção de stop-words deste corpus textual, como forma de eliminar ruídos dos dados.
No processamento de documentos textuais, é importante considerar que o significado depende não somente das informações extraídas de termos isolados mas também da forma como essas informações são dispostas em um contexto. Para prover esta abordagem, foi utilizada a técnica de PLN denominada Doc2Vec, que consiste em um modelo de aprendizado não-supervisionado que utiliza representações vetoriais distribuídas dos termos ou palavras de um documento textual. Neste sentido, o modelo foi treinado para predizer palavras ou termos e assim obter uma distribuição baseada em probabilidades de ocorrência, e não apenas frequência de ocorrência, de forma a considerar que as palavras que possuem o mesmo sentido sejam dispostas em um mesmo espaço vetorial.
Sequencialmente, o modelo implementado trata o contexto. No espaço vetorial no qual os documentos são mapeados, a proximidade entre vetores representa similaridade de padrão de uso, de forma que palavras utilizadas no mesmo contexto ficam próximas umas das outras. Esta representação considera, portanto, o tamanho variável do documento, a ordem das palavras e a semântica. A interpretação depende, então, do conjunto de termos e não dos elementos pontuais do texto descritivo. Esta abordagem de PLN – word embeddings - é a base para a operação de KDD composta clusterização classificação, pois a distinção semântica dos documentos corrobora com a identificação de áreas temáticas dos projetos culturais.
A partir do modelo treinado e validado, foi realizada análise de similaridade semântica dos documentos. Um grafo ponderado foi gerado com base na matriz de similaridade para ilustrar a relação entre os projetos culturais. Neste grafo, para cada nó é associado um peso referente ao somatório dos valores de similaridade com os outros documentos. Por meio deste grafo é possível explorar características e extrair padrões da distribuição dos projetos, informação importante para etapas posteriores de geração de conhecimento em grandes bases de dados.
Para reduzir a dimensionalidade da representação vetorial, foi utilizada Análise de Componentes Principais. A aplicação deste método é factível no sentido de obter um conjunto mínimo de atributos que preserve a informação relevante do conjunto de dados original, otimizando o processamento. Em seguida, foi realizada análise de grupos para separar os documentos por meio de propriedades comuns. Nesta etapa do trabalho, foi utilizado algoritmo de agrupamento K-means, baseado em Distância Euclidiana para cálculo de similaridade.
Os resultados obtidos com a clusterização dos projetos agregam a possibilidade de incluir um novo atributo no conjunto de dados original, o qual indica a qual grupo cada registro pertence – neste caso específico, a qual área temática o projeto cultural pertence. Dessa forma, cada rótulo de grupo pode ser considerado uma classe e, desse ponto em diante, algoritmos de classificação podem ser aplicados de forma a gerar modelos de conhecimento que possam prever a área temática de um novo projeto proposto ao Ministério da Cultura e, assim, eliminar a subjetividade, padronizar e automatizar o processo de classificação.
Míni-currículo:
Kátia Kelvis Cassiano: Doutorado em Engenharia de Sistemas de Computação (UFRJ), Professora Adjunta da Faculdade de Informação e Comunicação (FIC) da Universidade Federal de Goiás (UFG)
Douglas Farias Cordeiro: Doutorado em Ciência da Computação e Matamática Computacional (USP), Professor Adjunto da Faculdade de Informação e Comunicação (FIC) da Universidade Federal de Goiás (UFG)