PPGCC - Mestrado (Dissertações)
URI permanente para esta coleçãohttp://www.hml.repositorio.ufop.br/handle/123456789/597
Navegar
2 resultados
Resultados da Pesquisa
Item s-WIM : a scalable web information mining tool.(2012) Melo, Felipe Santiago Martins Coimbra de; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Lima, Joubert de Castro; Souza, Fabrício Benevenuto de; Ziviani, NivioMineração Web pode ser vista como o processo de encontrar padrões na Web por meio de técnicas de mineração de dados. Mineração Web é uma tarefa computacionalmente intensiva, e a maioria dos softwares de mineração são desenvolvidos isoladamente, o que torna escalabilidade e reusabilidade difı́cil para outras tarefas de mineração. Mineração Web é um processo iterativo onde prototipagem tem um papel essencial para experimentar com diferentes alternativas, bem como para incorporar o conhecimento adquirido em iterações anteriores do processo. Web Information Mining (WIM) constitui um modelo para prototipagem rápida em mineração Web. A principal motivação para o desenvolvimento do WIM foi o fato de que seu modelo conceitual provê seus usuários com um nı́vel de abstração apropriado para prototipagem e experimentação durante a tarefa de mineração. WIM é composto de um modelo de dados e de uma álgebra. O modelo de dados WIM é uma visão relacional dos dados Web. Os três tipos de dados existentes na Web, chamados de conteúdo, de estrutura e dados de uso, são representados por relações. Os principais componentes de entrada do modelo de dados WIM são as páginas Web, a estrutura de hiper- links que interliga as páginas Web, e os históricos (logs) de consultas obtidos de máquinas de busca da Web. A programação WIM é baseada em fluxos de dados (dataflows), onde sequências de operações são aplicadas às relações. As operações são definidas pela álgebra WIM, que contém operadores para manipulação de dados e para mineração de dados. WIM materializa uma linguagem de programação declarativa provida por sua álgebra. O objetivo do presente trabalho é o desenho de software e o desenvolvimento do Scalable Web Information Mining (s-WIM), a partir do modelo de dados e da álgebra apresentados pelo WIM. Para dotar os operadores com a escalabilidade desejada – e consequentemente os programas gerados por eles – o s-WIM foi desenvolvido sobre as plataformas Apache Hadoop e Apache HBase, que provêem escalabilidade linear tanto no armazenamento quanto no processamento de dados, a partir da adição de hardware. A principal motivação para o desenvolvimento do s-WIM é a falta de ferramentas livres que ofereçam tanto o nı́vel de abstração provido pela álgebra WIM quanto a escalabilidade necessária à operação sobre grandes bases de dados. Além disso, o nı́vel de abstração provido pela álgebra do WIM permite que usuários sem conhecimentos avançados em linguagens de programação como Java ou C++ também possam utilizá-lo. O desenho e a arquitetura do s-WIM sobre o Hadoop e o HBase são apresentados nesse trabalho, bem como detalhes de implementação dos operadores mais complexos. São também apresentados diversos experimentos e seus resultados, que comprovam a escalabilidade do s-WIM e consequentemente, seu suporte à mineração de grandes volumes de dados.Item Um modelo de classificação supervisionada com rotulagem automática para reconhecimento de áudio de web rádios.(2014) Rezende, Diego Dutra de; Pereira Junior, Álvaro RodriguesCom o aumento da capacidade de processamento dos computadores nos últimos anos, uma área específica da computação tem despertado a atenção tanto da academia quanto da indústria: a área de Recuperação de Informação em Música (do inglês, Music Information Retrieval _ MIR). Em especial, sistemas que reconhecem automaticamente áudio sendo tocado, seja em um sinal que vem da Web, seja gravando o áudio em dispositivos móveis, tem ganhado especial importância. Em tempos passados, havia ciência para se reconhecer áudio com precisão aceitável, como na faixa de 90%, mas os métodos não eram eficientes ao ponto de serem aplicados em escala, por exemplo, para a aplicação de reconhecimento de áudio em Web rádios, considerando-se um volume de milhares de rádios monitoradas em tempo real e índices da ordem de milhões de músicas. Hoje em dia os métodos não se desenvolveram tanto, mas o poder computacional disponível comercialmente é muito maior, permitindo então o desenvolvimento de uma gama de inovações tecnológicas na área. Nesta dissertação é apresentado um novo modelo de reconhecimento de áudio, capaz de usar o aprendizado supervisionado de máquina a partir de dados rotulados automaticamente para agregar diferentes métodos de reconhecimento de áudio, visando aumentar a precisão do reconhecimento, sem perder em eficiência. A rotulagem automática, cujo resultado é usado na etapa de treino, é possível porque as Web rádios são transmitidas usando protocolos e parâmetros conhecidos, de forma que é possível gerar dados sintéticos para treino e depois aplicar o modelo aprendido sobre as rádios reais. Neste trabalho mostra-se que, se os parâmetros das rádios são bem definidos, a combinação de métodos de reconhecimento utilizando o modelo proposto pode reduzir a perda (ou erro) do método de reconhecimento heurístico em até 55%, chegando a ter revocação média muito próxima de 100%. Isto considerando como baseline um método heurístico que está em execução em um sistema comercial que audita a ocorrência de propagandas em rádios que transmitem pela Web.