Ferreira, Anderson AlmeidaCaldeira, Laís Soares2018-10-092018-10-092018CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.http://www.repositorio.ufop.br/handle/123456789/10336Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.pt-BRabertoProcessamento de dadosIntegração de dados - computaçãoMelhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.DissertacaoAutorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/10/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.