Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.

Caldeira, Laís Soares

Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.

dc.contributor.advisor	Ferreira, Anderson Almeida	pt_BR
dc.contributor.author	Caldeira, Laís Soares
dc.contributor.referee	Bianchi, Andrea Gomes Campos	pt_BR
dc.contributor.referee	Bianco, Guilherme Dal	pt_BR
dc.contributor.referee	Ferreira, Anderson Almeida	pt_BR
dc.date.accessioned	2018-10-09T16:26:12Z
dc.date.available	2018-10-09T16:26:12Z
dc.date.issued	2018
dc.description	Programa de Pós-Graduação em Ciência da Computação. Departamento de Ciência da Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto.	pt_BR
dc.description.abstract	A extensa variedade de informações disponíveis na Web motivou o desenvolvimento de aplicações que integram dados heterogêneos vindos de diferentes fontes. A integração de dados tem como objetivo facilitar o acesso a informações fornecendo uma visão unificada dos dados. Uma tarefa importante no processo de integração de dados é a Resolução de Entidades, que visa identificar instâncias que se referem ao mesmo objeto do mundo real. Uma simples tarefa de Resolução de Entidades pode ser realizada comparando cada instância de uma coleção de dados com todas as outras, o que seria uma tarefa muito custosa para grandes coleções de dados. Nesse contexto, técnicas de blocagem são utilizadas para reduzir o número de comparações criando blocos que contêm as instâncias propensas a corresponder à mesma entidade no mundo real, de modo que a tarefa de Resolução de Entidades possa ser aplicada apenas a esses blocos. Técnicas de processamento de blocos aumentam ainda mais a eficiência, descartando comparações ou mesmo blocos inteiros que envolvam instâncias não correspondentes. Neste trabalho, é proposta uma forma de escolher termos para serem usados na etapa de blocagem e na etapa de processamento de blocos, baseado na relevância dos termos na coleção de dados, de modo a construir blocos que possibilitem encontrar o maior número de instâncias correspondentes, minimizando a quantidade de comparações desnecessárias. A proposta é avaliada comparando-a com trabalhos relevantes disponíveis na literatura. Os resultados mostram que a proposta reduz o tempo de processamento pela metade e melhora a qualidade dos blocos gerados, escalando eficientemente grandes coleções de dados altamente heterogêneos.	pt_BR
dc.description.abstracten	The extensive variety of information available on Web has motivated the development of applications that integrate heterogeneous data from different sources. Data integration aims to facilitate access to information providing a unified view of the data. An important task in the data integration process is Entity Resolution, which aims to identify instances that refer to the same real-world object. A simple Entity Resolution task may compare instances from a collection each other, which would be a very costly task for large collections. In this context, blocking techniques are used to reduce the number of comparisons by creating blocks of instances that are prone to correspond to the same entity in the real world, applying the Entity Resolution task only in these blocks. Block processing techniques further increase efficiency by discarding comparisons or even entire blocks involving nonmatching instances. In this work, we propose a way of choosing terms to be used in the blocking step and in the block processing step based on the relevance of the terms in the databases, in order to construct blocks that allow us finding the largest number of corresponding instances minimizing the amount of unnecessary comparisons. We assess our proposal comparing it against relevant works available in the literature. The results show that our proposal decrease the run time by half, increasing the efficiency and quality of the blocks generated, efficiently scaling large databases highly heterogeneous.	pt_BR
dc.identifier.citation	CALDEIRA, Laís Soares. Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos. 2018. 62 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto, Ouro Preto, 2018.	pt_BR
dc.identifier.uri	http://www.repositorio.ufop.br/handle/123456789/10336
dc.language.iso	pt_BR	pt_BR
dc.rights	aberto	pt_BR
dc.rights.license	Autorização concedida ao Repositório Institucional da UFOP pelo(a) autor(a) em 04/10/2018 com as seguintes condições: disponível sob Licença Creative Commons 4.0 que permite copiar, distribuir e transmitir o trabalho desde que sejam citados o autor e o licenciante. Não permite o uso para fins comerciais nem a adaptação.	pt_BR
dc.subject	Processamento de dados	pt_BR
dc.subject	Integração de dados - computação	pt_BR
dc.title	Melhorias no processo de blocagem para resolução de entidades baseadas na relevância dos termos.	pt_BR
dc.type	Dissertacao	pt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: DISSERTAÇÃO_MelhoriasProcessoBlocagem.pdf
Tamanho:: 2.24 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 924 B
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

PPGCC - Mestrado (Dissertações)