PPGCC - Mestrado (Dissertações)
URI permanente para esta coleçãohttp://www.hml.repositorio.ufop.br/handle/123456789/597
Navegar
6 resultados
Resultados da Pesquisa
Item s-WIM : a scalable web information mining tool.(2012) Melo, Felipe Santiago Martins Coimbra de; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Lima, Joubert de Castro; Souza, Fabrício Benevenuto de; Ziviani, NivioMineração Web pode ser vista como o processo de encontrar padrões na Web por meio de técnicas de mineração de dados. Mineração Web é uma tarefa computacionalmente intensiva, e a maioria dos softwares de mineração são desenvolvidos isoladamente, o que torna escalabilidade e reusabilidade difı́cil para outras tarefas de mineração. Mineração Web é um processo iterativo onde prototipagem tem um papel essencial para experimentar com diferentes alternativas, bem como para incorporar o conhecimento adquirido em iterações anteriores do processo. Web Information Mining (WIM) constitui um modelo para prototipagem rápida em mineração Web. A principal motivação para o desenvolvimento do WIM foi o fato de que seu modelo conceitual provê seus usuários com um nı́vel de abstração apropriado para prototipagem e experimentação durante a tarefa de mineração. WIM é composto de um modelo de dados e de uma álgebra. O modelo de dados WIM é uma visão relacional dos dados Web. Os três tipos de dados existentes na Web, chamados de conteúdo, de estrutura e dados de uso, são representados por relações. Os principais componentes de entrada do modelo de dados WIM são as páginas Web, a estrutura de hiper- links que interliga as páginas Web, e os históricos (logs) de consultas obtidos de máquinas de busca da Web. A programação WIM é baseada em fluxos de dados (dataflows), onde sequências de operações são aplicadas às relações. As operações são definidas pela álgebra WIM, que contém operadores para manipulação de dados e para mineração de dados. WIM materializa uma linguagem de programação declarativa provida por sua álgebra. O objetivo do presente trabalho é o desenho de software e o desenvolvimento do Scalable Web Information Mining (s-WIM), a partir do modelo de dados e da álgebra apresentados pelo WIM. Para dotar os operadores com a escalabilidade desejada – e consequentemente os programas gerados por eles – o s-WIM foi desenvolvido sobre as plataformas Apache Hadoop e Apache HBase, que provêem escalabilidade linear tanto no armazenamento quanto no processamento de dados, a partir da adição de hardware. A principal motivação para o desenvolvimento do s-WIM é a falta de ferramentas livres que ofereçam tanto o nı́vel de abstração provido pela álgebra WIM quanto a escalabilidade necessária à operação sobre grandes bases de dados. Além disso, o nı́vel de abstração provido pela álgebra do WIM permite que usuários sem conhecimentos avançados em linguagens de programação como Java ou C++ também possam utilizá-lo. O desenho e a arquitetura do s-WIM sobre o Hadoop e o HBase são apresentados nesse trabalho, bem como detalhes de implementação dos operadores mais complexos. São também apresentados diversos experimentos e seus resultados, que comprovam a escalabilidade do s-WIM e consequentemente, seu suporte à mineração de grandes volumes de dados.Item Análise de receitas visando a descoberta de conhecimento sobre pratos gastronômicos.(2015) Rodrigues, Edwaldo Soares; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Merschmann, Luiz Henrique de Campos; Carvalho, José Renato; Paiva, Débora Maria BarrosoNos dias atuais, a internet tem desempenhado um importante papel em toda a sociedade, facilitando a realização de serviços e tendo diversos fins. Um dos serviços que surgiram a partir da internet foram os sistemas colaborativos, onde diversos usuários criam o conteúdo dos sistemas por meio de experiências pessoais. Um dos vários sistemas colaborativos existentes atualmente são os de compartilhamento de receitas gastronômicas. A área da Recuperação da Informação na Web tem crescido o interesse no que diz respeito a recuperar as informações contidas nesse ambiente e estudá-las de forma a identificar relações como os principais ingredientes utilizados no preparo de um prato, que podem ser identificadas por meio do uso de técnicas de Mineração de Dados textuais. Nesse escopo, o presente trabalho propõe o desenvolvimento de uma metodologia de descoberta de conhecimento em receitas gastronômicas, usando receitas coletadas de diversas fontes de dados. Para isso, informações como os ingredientes, quantidades, unidades de medida, instruções de preparo e outras características associadas as receitas são descobertas. Com os resultados encontrados e avaliados por meio do estudo de caso e das experimentações apresentadas nesta dissertação, este trabalho representa um primeiro passo para o desenvolvimento de um servi co que, além de agregar receitas de diversas fontes, explora o conhecimento coletivo que pode ser descoberto ao se analisar centenas de milhares de receitas disponíveis na rede.Item ArtistRank : análise e comparação de artistas através da caracterização de dados de diferentes fontes.(2015) Faria, Felipe Lopes de Melo; Pereira Junior, Álvaro Rodrigues; Merschmann, Luiz Henrique de Campos; Assis, Guilherme Tavares de; Pereira, Adriano César MachadoCompreender como os artistas, estilos musicais, e a própria música evolui ao longo do tempo e objeto de interesse para compreender o processo de fazer música. Além disso, pode auxiliar críticos de música a analisarem os artistas que estão nos topos das paradas e o porquê disso. Com o surgimento de novas formas através das quais as comunidades estão expostas á música, percebe-se a necessidade de reavaliar a forma como a popularidade de um artista e medida. Percebe-se que a modelagem de rankings de popularidade de um artista somente por meio da vendagem de um disco e execução na rádio não são suficientes. O surgimento de vários serviços na web que possibilitam a interação do usuário no mundo da música, seja ouvindo on-line ou acompanhando a vida de um artista de maneira mais próxima nas mídias digitais, tem modificado a dinâmica do mercado fonográfico. Dessa forma, nesse trabalho propõe-se o desenvolvimento de uma metodologia de construção de rankings agregados de artistas a partir da análise dos dados das mídias digitais e da mídia de massa TV, no intuito de avaliar a popularidade de um artista. Um estudo de caso mostrou que resultados de rankings relevantes podem ser encontrados de acordo com a metodologia proposta.Item Estudo de padrões de execuções musicais em programações de estações de rádio.(2015) Norberto, Alexandre Pereira; Pereira Junior, Álvaro Rodrigues; Silva, Bruna Sávio Nascimento e; Silva, Ivair Ramos; Alzamora, Geane Carvalho; Santos, Rodrygo Luis Teodoro; Merschmann, Luiz Henrique de CamposPor ser um meio de comunicação em massa, o rádio apresenta grande importância comercial e política, tal como a televisão, porém com características diferentes. O rádio investe em um estilo de programação com forte componente musical, reforçando uma parceria rentável com a indústria fonográfica. Por outro lado, a indústria fonográfica, juntamente com os artistas do ramo musical e estudiosos da área da comunicação, têm interesse em saber como os produtos (músicas) estão sendo veiculados e consumidos pelas pessoas através dos meios de comunicação, além de como esses veículos interagem para a divulgação desses produtos e de seus conteúdos. Ao se fazer análises na programação de uma rádio, pode-se extrair informações muito interessantes, como por exemplo, se existe um estilo musical predominante e qual seria o padrão de execuções musicais em sua programação. Existe também a hipótese de que os locutores de rádio podem observar acontecimentos externos, como a repercursão de determinados artistas em outras mídias, como aparições em programas de televisão (TV), o que pode impactar na quantidade de execuções de músicas daqueles artistas e na maneira que os locutores definem suas programações musicais nas rádios. Nesse sentido, este trabalho investiga a seguinte hipótese: “A presença de artistas em programas de TV de grande audiência impacta positivamente no número de execuções desses artistas em rádios?”. Para isso, foi desenvolvida uma metodologia de análise da possível influência da mídia televisiva sobre a forma com que as programações das rádios são definidas. Embora alguns artistas da música com quem conversamos acreditam que a hipótese seja verdadeira, nossa investigação mostra que estatísticamente a hipótese não pode ser confirmada, sendo então rejeitada.Item Um modelo de classificação supervisionada com rotulagem automática para reconhecimento de áudio de web rádios.(2014) Rezende, Diego Dutra de; Pereira Junior, Álvaro RodriguesCom o aumento da capacidade de processamento dos computadores nos últimos anos, uma área específica da computação tem despertado a atenção tanto da academia quanto da indústria: a área de Recuperação de Informação em Música (do inglês, Music Information Retrieval _ MIR). Em especial, sistemas que reconhecem automaticamente áudio sendo tocado, seja em um sinal que vem da Web, seja gravando o áudio em dispositivos móveis, tem ganhado especial importância. Em tempos passados, havia ciência para se reconhecer áudio com precisão aceitável, como na faixa de 90%, mas os métodos não eram eficientes ao ponto de serem aplicados em escala, por exemplo, para a aplicação de reconhecimento de áudio em Web rádios, considerando-se um volume de milhares de rádios monitoradas em tempo real e índices da ordem de milhões de músicas. Hoje em dia os métodos não se desenvolveram tanto, mas o poder computacional disponível comercialmente é muito maior, permitindo então o desenvolvimento de uma gama de inovações tecnológicas na área. Nesta dissertação é apresentado um novo modelo de reconhecimento de áudio, capaz de usar o aprendizado supervisionado de máquina a partir de dados rotulados automaticamente para agregar diferentes métodos de reconhecimento de áudio, visando aumentar a precisão do reconhecimento, sem perder em eficiência. A rotulagem automática, cujo resultado é usado na etapa de treino, é possível porque as Web rádios são transmitidas usando protocolos e parâmetros conhecidos, de forma que é possível gerar dados sintéticos para treino e depois aplicar o modelo aprendido sobre as rádios reais. Neste trabalho mostra-se que, se os parâmetros das rádios são bem definidos, a combinação de métodos de reconhecimento utilizando o modelo proposto pode reduzir a perda (ou erro) do método de reconhecimento heurístico em até 55%, chegando a ter revocação média muito próxima de 100%. Isto considerando como baseline um método heurístico que está em execução em um sistema comercial que audita a ocorrência de propagandas em rádios que transmitem pela Web.Item Reconhecimento de face invariante a iluminação baseado em uma abordagem supervisionada.(2012) Carneiro, Larissa Natália das Virgens; Cámara Chávez, GuillermoA crescente relevância dada aos estudos e pesquisas de sistemas automáticos de reconhecimento/identificação de faces capazes de identificar indivíduos nas mais diversas situações é devido às várias possibilidades de aplicações, tais como sistemas de segurança bancários, eleitorais e busca por pessoas desaparecidas. Outro fator é a questão da tarefa de reconhecimento não ser trivial devido aos componentes variantes como envelhecimento, uso de óculos, chapéu, maquiagem, variação de aparência e a variação de iluminação. Esta última é um dos maiores desafios dos sistemas de reconhecimento, pois pode ocultar quase todas as características da face. Assim, o presente trabalho propõe um sistema de reconhecimento de faces invariante à iluminação. O mesmo utiliza como pré-processamento das imagens as técnicas Local Contrast Enhancement (LCE) ou normalização da iluminação no domínio Discrete Consine Transform (DCT), na segunda fase é utilizado o DCT para extração de características e na terceira o Discrimination Power Analysis (DPA) é usado para redução de dimensionalidade. O reconhecimento é feito com o Support Vector Machine (SVM) e os experimentos são realizados em duas etapas. Na primeira são utilizadas as bases de dados Pie e Yale B e o modelo proposto é avaliado quanto ao quesito de variação de iluminação. Na segunda fase são utilizadas as bases JAFFE, AT&T, UMIST e Georgia e o modelo é avaliado quanto à robustez em relação a variação de expressão, rotação e fundo. O método proposto apresenta melhor desempenho e melhores resultados para as variações existentes nas bases testadas.