Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings.

Nenhuma Miniatura Disponível

Data

2020

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

A substituição lexical permeia diferentes atividades inerentes às áreas do Processamento de Linguagem Natural, como a simplificação de texto e expansão de consultas. A substituição tem sido explorada amplamente na literatura apresentando frequente evolução, principalmente quanto às fontes de dados utilizadas para a geração de potenciais substitutos que alimentam o processo. Naturalmente, dicionários têm sido constantemente usados por agruparem conjuntos de sinônimos em sua estrutura. Entretanto, o caráter polissêmico das palavras inviabiliza a troca direta de uma determinada palavra por qualquer sinônimo a ela associado no dicionário, já que a troca requer a análise completa do contexto. Em outro nicho de fontes, os modelos de espaço vetorial, tais como os embeddings, são utilizados para representar os termos a partir de seus contextos de aplicação. Em contrapartida, representar as palavras considerando fatores meramente contextuais, em muitos casos, dá margem para uma aproximação de termos no espaço mesmo não sendo sinônimos. Portanto, as deficiências mencionadas sugerem a junção de bases anotadas e embeddings como alternativa promissora para ganhos de resultados na tarefa de substituição. Assim, apresentamos um método de substituição utilizando informações contidas em dicionários combinados − como as relações linguísticas estruturadas em taxonomias − para coleta de potenciais sinônimos. Nosso método mensura a preservação do significado da sentença modificada focando um escopo restrito da sentença original. Consideramos também o contexto completo para apoiar o processo de desambiguação extraindo aspectos como coocorrência de termos para alimentar operações vetoriais nos modelos com a intenção de destacar os melhores sinônimos em um conjunto previamente selecionado. Nosso método superou uma ampla gama de trabalhos conhecidos na literatura na predição do melhor substituto de palavras contidas em frases de uma consolidada base de experimentação.

Descrição

Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.

Palavras-chave

Processamento de linguagem natural - computação, Banco de dados, Espaços vetoriais

Citação

JANUARIO, Isaias Frederick. Um método de desambiguação de sentido e substituição lexical apoiado em dicionários e embeddings. 2020. 132 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2020.

Avaliação

Revisão

Suplementado Por

Referenciado Por