PPGCC - Programa de Pós-graduação em Ciência da Computação
URI permanente desta comunidadehttp://www.hml.repositorio.ufop.br/handle/123456789/596
Navegar
6 resultados
Resultados da Pesquisa
Item Decision trees for the algorithm selection problem : integer programming based approaches.(2019) Vilas Boas, Matheus Guedes; Santos, Haroldo Gambini; Blum, Christian Clemens; Merschmann, Luiz Henrique de Campos; Silva, Rodrigo César Pedrosa; Toffolo, Túlio Ângelo MachadoEven though it is well known that for most relevant computational problems different algorithms may perform better on different classes of problem instances, most researchers still focus on determining a single best algorithmic configuration based on aggregate results such as the average. In this thesis, we propose Integer Programming based approaches to build decision trees for the Algorithm Selection Problem. These techniques allow the automation of three crucial decisions: (i) discerning the most important problem features to determine problem classes; (ii) grouping the problems into classes and (iii) select the best algorithm configuration for each class. We tested our approach from different perspectives: (i) univariate approach, where for each branch node, only one cutoff point of a feature is chosen and (ii) multivariate approach, where for each branch node, weights for multiple features are used (oblique decision trees). Considering the current scenario where the number of cores per machine has increased considerably, we also propose a new approach based on recommendation of concurrent algorithms. To evaluate our approaches, extensive computational experiments were executed using a dataset that considers the linear programming algorithms implemented in the COIN-OR Branch & Cut solver across a comprehensive set of instances, including all MIPLIB benchmark instances. We also conducted experiments with the scenarios/- datasets of the Open Algorithm Selection Challenge (OASC) held in 2017. Considering the first dataset and a 10-fold cross validation experiment, while selecting the single best solver across all instances decreased the total running time by 2%, our univariate approach decreased the total running time by 68% and using the multivariate approach, the total running time is decreased by 72%. An even greater performance gain can be obtained using concurrent algorithms, something not yet explored in the literature. For our experiments, using three algorithm configurations per leaf node, the total running time is decreased by 85%. These results indicate that our method generalizes quite well and does not overfit. Considering the results obtained using the scenarios of the OASC, the experimental results showed that our decision trees can produce better results than less interpretable models, such as random forest, which has been extensively used for algorithm recommendation.Item s-WIM : a scalable web information mining tool.(2012) Melo, Felipe Santiago Martins Coimbra de; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Lima, Joubert de Castro; Souza, Fabrício Benevenuto de; Ziviani, NivioMineração Web pode ser vista como o processo de encontrar padrões na Web por meio de técnicas de mineração de dados. Mineração Web é uma tarefa computacionalmente intensiva, e a maioria dos softwares de mineração são desenvolvidos isoladamente, o que torna escalabilidade e reusabilidade difı́cil para outras tarefas de mineração. Mineração Web é um processo iterativo onde prototipagem tem um papel essencial para experimentar com diferentes alternativas, bem como para incorporar o conhecimento adquirido em iterações anteriores do processo. Web Information Mining (WIM) constitui um modelo para prototipagem rápida em mineração Web. A principal motivação para o desenvolvimento do WIM foi o fato de que seu modelo conceitual provê seus usuários com um nı́vel de abstração apropriado para prototipagem e experimentação durante a tarefa de mineração. WIM é composto de um modelo de dados e de uma álgebra. O modelo de dados WIM é uma visão relacional dos dados Web. Os três tipos de dados existentes na Web, chamados de conteúdo, de estrutura e dados de uso, são representados por relações. Os principais componentes de entrada do modelo de dados WIM são as páginas Web, a estrutura de hiper- links que interliga as páginas Web, e os históricos (logs) de consultas obtidos de máquinas de busca da Web. A programação WIM é baseada em fluxos de dados (dataflows), onde sequências de operações são aplicadas às relações. As operações são definidas pela álgebra WIM, que contém operadores para manipulação de dados e para mineração de dados. WIM materializa uma linguagem de programação declarativa provida por sua álgebra. O objetivo do presente trabalho é o desenho de software e o desenvolvimento do Scalable Web Information Mining (s-WIM), a partir do modelo de dados e da álgebra apresentados pelo WIM. Para dotar os operadores com a escalabilidade desejada – e consequentemente os programas gerados por eles – o s-WIM foi desenvolvido sobre as plataformas Apache Hadoop e Apache HBase, que provêem escalabilidade linear tanto no armazenamento quanto no processamento de dados, a partir da adição de hardware. A principal motivação para o desenvolvimento do s-WIM é a falta de ferramentas livres que ofereçam tanto o nı́vel de abstração provido pela álgebra WIM quanto a escalabilidade necessária à operação sobre grandes bases de dados. Além disso, o nı́vel de abstração provido pela álgebra do WIM permite que usuários sem conhecimentos avançados em linguagens de programação como Java ou C++ também possam utilizá-lo. O desenho e a arquitetura do s-WIM sobre o Hadoop e o HBase são apresentados nesse trabalho, bem como detalhes de implementação dos operadores mais complexos. São também apresentados diversos experimentos e seus resultados, que comprovam a escalabilidade do s-WIM e consequentemente, seu suporte à mineração de grandes volumes de dados.Item Análise de receitas visando a descoberta de conhecimento sobre pratos gastronômicos.(2015) Rodrigues, Edwaldo Soares; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Merschmann, Luiz Henrique de Campos; Carvalho, José Renato; Paiva, Débora Maria BarrosoNos dias atuais, a internet tem desempenhado um importante papel em toda a sociedade, facilitando a realização de serviços e tendo diversos fins. Um dos serviços que surgiram a partir da internet foram os sistemas colaborativos, onde diversos usuários criam o conteúdo dos sistemas por meio de experiências pessoais. Um dos vários sistemas colaborativos existentes atualmente são os de compartilhamento de receitas gastronômicas. A área da Recuperação da Informação na Web tem crescido o interesse no que diz respeito a recuperar as informações contidas nesse ambiente e estudá-las de forma a identificar relações como os principais ingredientes utilizados no preparo de um prato, que podem ser identificadas por meio do uso de técnicas de Mineração de Dados textuais. Nesse escopo, o presente trabalho propõe o desenvolvimento de uma metodologia de descoberta de conhecimento em receitas gastronômicas, usando receitas coletadas de diversas fontes de dados. Para isso, informações como os ingredientes, quantidades, unidades de medida, instruções de preparo e outras características associadas as receitas são descobertas. Com os resultados encontrados e avaliados por meio do estudo de caso e das experimentações apresentadas nesta dissertação, este trabalho representa um primeiro passo para o desenvolvimento de um servi co que, além de agregar receitas de diversas fontes, explora o conhecimento coletivo que pode ser descoberto ao se analisar centenas de milhares de receitas disponíveis na rede.Item Um arcabouço de processamento de textos informais em português brasileiro para aplicações de mineração de dados.(2016) Stiilpen Júnior, Milton; Merschmann, Luiz Henrique de Campos; Merschmann, Luiz Henrique de Campos; Ferreira, Anderson Almeida; Souza, Fabrício Benevenuto deRedes Sociais online (RSO) surgiram no início do século XXI e dão indícios de que terão vida longa. Cerca de 64% dos usuários de mídias sociais dizem acessar ao menos uma rede social todos os dias. Desse modo, é imensa a quantidade de dados gerados por esses canais de comunicação. O Processamento de Linguagem Natural em textos de redes sociais é um tema de pesquisa recente que vem atraindo um número cada vez maior de pesquisadores. Portanto, neste trabalho, é proposta um arcabouço capaz de lidar com a diversidade do português brasileiro, com o informalismo, com a natureza de tempo real e com a falta de contextualização de textos publicados em redes sociais. O arcabouço proposto foi avaliado em duas tarefas (Categorização de Texto e Mineração de Opinião) e os resultados experimentais mostraram que os mecanismos de pré-processamento existentes no arcabouço foram importantes para obtenção de bons resultados.Item ArtistRank : análise e comparação de artistas através da caracterização de dados de diferentes fontes.(2015) Faria, Felipe Lopes de Melo; Pereira Junior, Álvaro Rodrigues; Merschmann, Luiz Henrique de Campos; Assis, Guilherme Tavares de; Pereira, Adriano César MachadoCompreender como os artistas, estilos musicais, e a própria música evolui ao longo do tempo e objeto de interesse para compreender o processo de fazer música. Além disso, pode auxiliar críticos de música a analisarem os artistas que estão nos topos das paradas e o porquê disso. Com o surgimento de novas formas através das quais as comunidades estão expostas á música, percebe-se a necessidade de reavaliar a forma como a popularidade de um artista e medida. Percebe-se que a modelagem de rankings de popularidade de um artista somente por meio da vendagem de um disco e execução na rádio não são suficientes. O surgimento de vários serviços na web que possibilitam a interação do usuário no mundo da música, seja ouvindo on-line ou acompanhando a vida de um artista de maneira mais próxima nas mídias digitais, tem modificado a dinâmica do mercado fonográfico. Dessa forma, nesse trabalho propõe-se o desenvolvimento de uma metodologia de construção de rankings agregados de artistas a partir da análise dos dados das mídias digitais e da mídia de massa TV, no intuito de avaliar a popularidade de um artista. Um estudo de caso mostrou que resultados de rankings relevantes podem ser encontrados de acordo com a metodologia proposta.Item Estudo de padrões de execuções musicais em programações de estações de rádio.(2015) Norberto, Alexandre Pereira; Pereira Junior, Álvaro Rodrigues; Silva, Bruna Sávio Nascimento e; Silva, Ivair Ramos; Alzamora, Geane Carvalho; Santos, Rodrygo Luis Teodoro; Merschmann, Luiz Henrique de CamposPor ser um meio de comunicação em massa, o rádio apresenta grande importância comercial e política, tal como a televisão, porém com características diferentes. O rádio investe em um estilo de programação com forte componente musical, reforçando uma parceria rentável com a indústria fonográfica. Por outro lado, a indústria fonográfica, juntamente com os artistas do ramo musical e estudiosos da área da comunicação, têm interesse em saber como os produtos (músicas) estão sendo veiculados e consumidos pelas pessoas através dos meios de comunicação, além de como esses veículos interagem para a divulgação desses produtos e de seus conteúdos. Ao se fazer análises na programação de uma rádio, pode-se extrair informações muito interessantes, como por exemplo, se existe um estilo musical predominante e qual seria o padrão de execuções musicais em sua programação. Existe também a hipótese de que os locutores de rádio podem observar acontecimentos externos, como a repercursão de determinados artistas em outras mídias, como aparições em programas de televisão (TV), o que pode impactar na quantidade de execuções de músicas daqueles artistas e na maneira que os locutores definem suas programações musicais nas rádios. Nesse sentido, este trabalho investiga a seguinte hipótese: “A presença de artistas em programas de TV de grande audiência impacta positivamente no número de execuções desses artistas em rádios?”. Para isso, foi desenvolvida uma metodologia de análise da possível influência da mídia televisiva sobre a forma com que as programações das rádios são definidas. Embora alguns artistas da música com quem conversamos acreditam que a hipótese seja verdadeira, nossa investigação mostra que estatísticamente a hipótese não pode ser confirmada, sendo então rejeitada.