Navegando por Autor "Merschmann, Luiz Henrique de Campos"
Agora exibindo 1 - 20 de 25
Resultados por página
Opções de Ordenação
Item Uma abordagem centrada em dados para reconhecimento de fala em português : modelo de língua e suas implicações.(2023) Alvarenga, João Paulo Reis; Luz, Eduardo José da Silva; Luz, Eduardo José da Silva; Merschmann, Luiz Henrique de Campos; Silva, Rodrigo César PedrosaOs avanços mais recentes no Reconhecimento Automático de Fala permitem alcançar uma qualidade jamais antes vista em línguas com dados abundantes, tais como o inglês, e em línguas com dados limitados, como o português. Em particular, abordagens baseadas em modelos de Transformers permitem realizar a tarefa de reconhecimento de fala diretamente a partir da representação do sinal bruto. Alguns estudos já indicam que a qualidade da transcrição pode ser melhorada ainda mais com o uso de modelos de linguagem. No entanto, o impacto real destes modelos ainda não está claro para o português brasileiro, assim como a importância da qualidade dos dados usados para treinar os modelos. Por isso, este trabalho explora o impacto dos modelos de linguagem aplicados ao reconhecimento de fala para língua portuguesa, tanto em termos de qualidade de dados quanto de desempenho computacional, com uma abordagem centrada em dados. Uma abordagem para medir a similaridade entre conjuntos de dados é proposta para auxiliar na tomada de decisão durante o treinamento. Os resultados mostram que é possível reduzir o tamanho do modelo de linguagem em ~80% e ainda alcançar taxas de erro por palavra em torno de 7,17% para o conjunto de dados Common Voice.Item Análise de receitas visando a descoberta de conhecimento sobre pratos gastronômicos.(2015) Rodrigues, Edwaldo Soares; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Merschmann, Luiz Henrique de Campos; Carvalho, José Renato; Paiva, Débora Maria BarrosoNos dias atuais, a internet tem desempenhado um importante papel em toda a sociedade, facilitando a realização de serviços e tendo diversos fins. Um dos serviços que surgiram a partir da internet foram os sistemas colaborativos, onde diversos usuários criam o conteúdo dos sistemas por meio de experiências pessoais. Um dos vários sistemas colaborativos existentes atualmente são os de compartilhamento de receitas gastronômicas. A área da Recuperação da Informação na Web tem crescido o interesse no que diz respeito a recuperar as informações contidas nesse ambiente e estudá-las de forma a identificar relações como os principais ingredientes utilizados no preparo de um prato, que podem ser identificadas por meio do uso de técnicas de Mineração de Dados textuais. Nesse escopo, o presente trabalho propõe o desenvolvimento de uma metodologia de descoberta de conhecimento em receitas gastronômicas, usando receitas coletadas de diversas fontes de dados. Para isso, informações como os ingredientes, quantidades, unidades de medida, instruções de preparo e outras características associadas as receitas são descobertas. Com os resultados encontrados e avaliados por meio do estudo de caso e das experimentações apresentadas nesta dissertação, este trabalho representa um primeiro passo para o desenvolvimento de um servi co que, além de agregar receitas de diversas fontes, explora o conhecimento coletivo que pode ser descoberto ao se analisar centenas de milhares de receitas disponíveis na rede.Item Um arcabouço de processamento de textos informais em português brasileiro para aplicações de mineração de dados.(2016) Stiilpen Júnior, Milton; Merschmann, Luiz Henrique de Campos; Merschmann, Luiz Henrique de Campos; Ferreira, Anderson Almeida; Souza, Fabrício Benevenuto deRedes Sociais online (RSO) surgiram no início do século XXI e dão indícios de que terão vida longa. Cerca de 64% dos usuários de mídias sociais dizem acessar ao menos uma rede social todos os dias. Desse modo, é imensa a quantidade de dados gerados por esses canais de comunicação. O Processamento de Linguagem Natural em textos de redes sociais é um tema de pesquisa recente que vem atraindo um número cada vez maior de pesquisadores. Portanto, neste trabalho, é proposta um arcabouço capaz de lidar com a diversidade do português brasileiro, com o informalismo, com a natureza de tempo real e com a falta de contextualização de textos publicados em redes sociais. O arcabouço proposto foi avaliado em duas tarefas (Categorização de Texto e Mineração de Opinião) e os resultados experimentais mostraram que os mecanismos de pré-processamento existentes no arcabouço foram importantes para obtenção de bons resultados.Item ArtistRank : análise e comparação de artistas através da caracterização de dados de diferentes fontes.(2015) Faria, Felipe Lopes de Melo; Pereira Junior, Álvaro Rodrigues; Merschmann, Luiz Henrique de Campos; Assis, Guilherme Tavares de; Pereira, Adriano César MachadoCompreender como os artistas, estilos musicais, e a própria música evolui ao longo do tempo e objeto de interesse para compreender o processo de fazer música. Além disso, pode auxiliar críticos de música a analisarem os artistas que estão nos topos das paradas e o porquê disso. Com o surgimento de novas formas através das quais as comunidades estão expostas á música, percebe-se a necessidade de reavaliar a forma como a popularidade de um artista e medida. Percebe-se que a modelagem de rankings de popularidade de um artista somente por meio da vendagem de um disco e execução na rádio não são suficientes. O surgimento de vários serviços na web que possibilitam a interação do usuário no mundo da música, seja ouvindo on-line ou acompanhando a vida de um artista de maneira mais próxima nas mídias digitais, tem modificado a dinâmica do mercado fonográfico. Dessa forma, nesse trabalho propõe-se o desenvolvimento de uma metodologia de construção de rankings agregados de artistas a partir da análise dos dados das mídias digitais e da mídia de massa TV, no intuito de avaliar a popularidade de um artista. Um estudo de caso mostrou que resultados de rankings relevantes podem ser encontrados de acordo com a metodologia proposta.Item Caracterização e análise de uma rede de ingredientes e receitas.(2014) Ferreira, Willyan Michel; Souza, Fabrício Benevenuto de; Merschmann, Luiz Henrique de Campos; Silva, Ana Paula Couto da; Santos, Haroldo GambiniA troca de receitas é um hábito de muitas pessoas. Um meio online e colaborativo de compartilhar esse tipo de informação é através de websites especializados que permitem que usuários postem receitas, comentem e avaliem receitas existentes. Apesar de extremamente populares, pouco se sabe sobre esses sistemas e os padrões de interações que eles permitem. Visando preencher essa lacuna, esse trabalho apresenta uma extensa caracterização do site Tudo Gostoso, um importante site brasileiro de compartilhamento de receitas. Para isso, nós coletamos todas as receitas existentes no site juntamente com informações associadas aos comentários e avaliações. Além de explorar as interações existentes entre os usuários do site, nosso trabalho analisa uma rede formada por ingredientes que co-ocorrem em receitas e investiga a viabilidade de se extrair possíveis alterações nas receitas a partir de comentários dos usuários do site. Nossas análises revelam padrões de uso de ingredientes fundamentais da culinária brasileira e podem ser úteis para inspirar a construção de diversas novas aplicações, como ferramentas de recomendação de receitas.Item Categorizing feature selection methods for multi-label classification.(2016) Pereira, Rafael Barros; Plastino, Alexandre; Zadrozny, Bianca; Merschmann, Luiz Henrique de CamposIn many important application domains such as text categorization, biomolecular analysis, scene classification and medical diagnosis, examples are naturally associated with more than one class label, giving rise to multi-label classification problems. This fact has led, in recent years, to a substantial amount of research on feature selection methods that allow the identification of relevant and informative features for multi-label classification. However, the methods proposed for this task are scattered in the literature, with no common framework to describe them and to allow an objective comparison. Here, we revisit a categorization of existing multi-label classification methods and, as our main contribution, we provide a comprehensive survey and novel categorization of the feature selection techniques that have been created for the multi-label classification setting. We conclude this work with concrete suggestions for future research in multi-label feature selection which have been derived from our categorization and analysis.Item A data-centric approach for Portuguese speech recognition : language model and its implications.(2023) Alvarenga, João Paulo Reis; Merschmann, Luiz Henrique de Campos; Luz, Eduardo José da SilvaRecent advances in Automatic Speech Recognition have made it possible to achieve a quality never seen before in the literature, both for languages with abundant data, such as English, which has a large number of studies, and for the Portuguese language, which has a more limited amount of resources and studies. The most recent advances address speech recognition problems with Transformers based models, which have the capability to perform the speech recognition task directly from the raw signal, without the need for manual feature extraction. Some studies have already shown that it is possible to further improve the quality of the transcription of these models using language models within the decoding stage, however, the real impact of such language models is still not clear, especially for the Brazilian Portuguese scenario. Also, it is known that the quality of the data used for training the models is of paramount importance, however, there are few works in the literature addressing this issue. This work explores the impact of language models applied to Portuguese speech recognition both in terms of data quality and computational performance, with a data-centric approach. We propose an approach to measure similarity between datasets and, thus, assist in decision-making during training. The approach indicates paths for the advancement of the state-of-the-art aiming at Portuguese speech recognition, showing that it is possible to reduce the size of the language model by 80% and still achieve error rates around 7.17% for the Common Voice dataset. The source code is available at https://github.com/joaoalvarenga/language-model-evaluation.Item Decision trees for the algorithm selection problem : integer programming based approaches.(2019) Vilas Boas, Matheus Guedes; Santos, Haroldo Gambini; Blum, Christian Clemens; Merschmann, Luiz Henrique de Campos; Silva, Rodrigo César Pedrosa; Toffolo, Túlio Ângelo MachadoEven though it is well known that for most relevant computational problems different algorithms may perform better on different classes of problem instances, most researchers still focus on determining a single best algorithmic configuration based on aggregate results such as the average. In this thesis, we propose Integer Programming based approaches to build decision trees for the Algorithm Selection Problem. These techniques allow the automation of three crucial decisions: (i) discerning the most important problem features to determine problem classes; (ii) grouping the problems into classes and (iii) select the best algorithm configuration for each class. We tested our approach from different perspectives: (i) univariate approach, where for each branch node, only one cutoff point of a feature is chosen and (ii) multivariate approach, where for each branch node, weights for multiple features are used (oblique decision trees). Considering the current scenario where the number of cores per machine has increased considerably, we also propose a new approach based on recommendation of concurrent algorithms. To evaluate our approaches, extensive computational experiments were executed using a dataset that considers the linear programming algorithms implemented in the COIN-OR Branch & Cut solver across a comprehensive set of instances, including all MIPLIB benchmark instances. We also conducted experiments with the scenarios/- datasets of the Open Algorithm Selection Challenge (OASC) held in 2017. Considering the first dataset and a 10-fold cross validation experiment, while selecting the single best solver across all instances decreased the total running time by 2%, our univariate approach decreased the total running time by 68% and using the multivariate approach, the total running time is decreased by 72%. An even greater performance gain can be obtained using concurrent algorithms, something not yet explored in the literature. For our experiments, using three algorithm configurations per leaf node, the total running time is decreased by 85%. These results indicate that our method generalizes quite well and does not overfit. Considering the results obtained using the scenarios of the OASC, the experimental results showed that our decision trees can produce better results than less interpretable models, such as random forest, which has been extensively used for algorithm recommendation.Item Desenvolvimento de técnicas de seleção de atributos no contexto da classificação hierárquica monorrótulo.(2015) Dias, Thieres Nardy; Merschmann, Luiz Henrique de CamposA seleção de atributos, tradicionalmente adotada como uma etapa de pré-processamento dos dados, tem como objetivo principal identificar os atributos relevantes para a tarefa de classificação. No entanto, para o cenário de classificação hierárquica, onde as classes a serem preditas estão estruturadas de acordo com uma hierarquia, poucos trabalhos na literatura apresentam propostas de técnicas de seleção de atributos. Mais especificamente, para problemas de classificação hierárquica monorrótulo, não foram encontradas na literatura técnicas de seleção de atributos que possam ser utilizadas em conjunto com classificadores hierárquicos globais, ou seja, classificadores que são treinados levando-se em consideração toda a hierarquia de classes de uma só vez. Desse modo, neste trabalho propomos uma adaptação da medida Incerteza Simétrica (Symmetrical Uncertainty { SU) para permitir que ela possa ser utilizada em técnicas de seleção de atributos para problemas de classificação hierárquica monorrótulo que usam classificadores hierárquicos globais. Posteriormente, utilizamos essa adaptação proposta, denominada Incerteza Simétrica Hierárquica (Hierarchical Symmetrical Uncertainty { SUH), em duas técnicas distintas de seleção de atributos: uma que faz uso da abordagem Filtro e outra que segue uma abordagem Híbrida (Filtro e Wrapper). A técnica que implementa a abordagem Híbrida corresponde a uma heurística que utiliza o classificador hierárquico Global-Model Naive Bayes (GMNB) para avaliar os subconjuntos de atributos. A partir das duas técnicas de seleção de atributos propostas neste trabalho, pudemos verificar a adequação da adaptação da medida SU para o cenário hierárquico. Além disso, o método heurístico proposto, nomeado como Hybrid Feature Selection for Hierarchical Classification (HFS4HC), apresentou resultados bastante promissores para o contexto da classificação hierárquica monorrótulo.Item Detecção de comunidades de interesse em microblogs por meio de modelagem de tópicos.(2016) Neves, Brayan Vilela Alves; Ferreira, Anderson Almeida; Ferreira, Anderson Almeida; Merschmann, Luiz Henrique de Campos; Rocha, Leonardo Chaves Dutra; Ferreira, Anderson AlmeidaAtualmente, redes sociais se tornaram grandes fontes de estudos, pois, com elas, é possível encontrar uma gama de informação relacionada a gostos, interesses, desejos e opiniões de seus usuários. O agrupamento desses usuários em comunidades de interesses é uma importante tarefa, quando se deseja estudar a forma de pensar de grupos de pessoas com um mesmo interesse em relação a um assunto. Neste trabalho, é proposto o MDCoI (Método de Detecção de Comunidades de Interesses), um método não supervisionado baseado em modelagem de tópicos para fazer o agrupamento de usuários de microblogs em comunidades de interesses, a partir somente dos textos publicados pelos usuários. O MDCoI opera em 4 passos. O primeiro passo é responsável pela coleta dos dados (publicações) a serem processados. O segundo passo é responsável pelo pré-processamento das publicações. O terceiro passo usa modelagem de tópicos para agrupar publicações com distribuição de tópicos semelhantes. E, o quarto passo é responsável por agrupar usuários com interesses em comum, usando os grupos de publicações do passo anterior. O terceiro passo do MDCoI é comparado ao vencedor do desafio do RepLab2014, com ganhos significativos para o MDCoI, e, para o quarto passo, é feita uma avaliação qualitativa de seu resultado, onde verificou-se consistente com o objetivo do trabalho. O resultado do MDCoI facilita o trabalho do analista de redes, visto que este necessita apenas identificar o assunto/interesse de cada comunidade produzida.Item Discretizador heurístico para o contexto de classificação hierárquica.(2016) Galvão, Leandro Ribeiro; Merschmann, Luiz Henrique de Campos; Silla Júnior, Carlos Nascimento; Pappa, Gisele Lobo; Ferreira, Almeida FerreiraDiferentes tipos de problemas de classificação podem ser encontrados na literatura, cada qual possuindo seu nível de complexidade. Diversos algoritmos de aprendizado de máquina requerem atributos discretos e nesses casos o pré-processamento da base de dados né necessário. Na literatura, os trabalhos apresentam diversos métodos de discretização, porém até o momento, não há nenhum método de discretização supervisionado projetado para ser utilizada em conjunto com classificadores hierárquicos globais. Neste trabalho é proposto um método supervisionado de discretização capaz de lidar com bases do contexto de classificação hierárquica. Esse método corresponde a uma heurística, denominada Agglomerative Discretization Heuristic for Hierarchical Classification - ADH2C, que foi projetada para ser utilizada em conjunto com classificadores hierárquicos globais. A avaliação da qualidade da discretização realizada pela heurística ADH2C foi feita a partir de experimentos comparativos com métodos de discretização não-supervisionados Equal-Width (EW) e Equal-Frequency (EF). A qualidade da discretização foi medida por meio do desempenho preditivo pelo classificador hierárquico Global Model Naive Bayes (GMNB) utilizando-se 9 bases de dados de bioinformática pré-processadas pelos métodos de discretização EW, EF e ADH2C. Os experimentos realizados neste trabalho mostraram que para a maioria das bases de dados utilizadas, o classificador GMNB alcançou o melhor desempenho preditivo (hF) quando utilizou as bases de dados pré-processadas pela heurística ADH2C. A melhora no desempenho preditivo do GMNB, utilizando as bases de dados pré-processadas pela heurística ADH2C, evidencia sua aplicabilidade no contexto de classificação hierárquica monorrótulo.Item Estudo de padrões de execuções musicais em programações de estações de rádio.(2015) Norberto, Alexandre Pereira; Pereira Junior, Álvaro Rodrigues; Silva, Bruna Sávio Nascimento e; Silva, Ivair Ramos; Alzamora, Geane Carvalho; Santos, Rodrygo Luis Teodoro; Merschmann, Luiz Henrique de CamposPor ser um meio de comunicação em massa, o rádio apresenta grande importância comercial e política, tal como a televisão, porém com características diferentes. O rádio investe em um estilo de programação com forte componente musical, reforçando uma parceria rentável com a indústria fonográfica. Por outro lado, a indústria fonográfica, juntamente com os artistas do ramo musical e estudiosos da área da comunicação, têm interesse em saber como os produtos (músicas) estão sendo veiculados e consumidos pelas pessoas através dos meios de comunicação, além de como esses veículos interagem para a divulgação desses produtos e de seus conteúdos. Ao se fazer análises na programação de uma rádio, pode-se extrair informações muito interessantes, como por exemplo, se existe um estilo musical predominante e qual seria o padrão de execuções musicais em sua programação. Existe também a hipótese de que os locutores de rádio podem observar acontecimentos externos, como a repercursão de determinados artistas em outras mídias, como aparições em programas de televisão (TV), o que pode impactar na quantidade de execuções de músicas daqueles artistas e na maneira que os locutores definem suas programações musicais nas rádios. Nesse sentido, este trabalho investiga a seguinte hipótese: “A presença de artistas em programas de TV de grande audiência impacta positivamente no número de execuções desses artistas em rádios?”. Para isso, foi desenvolvida uma metodologia de análise da possível influência da mídia televisiva sobre a forma com que as programações das rádios são definidas. Embora alguns artistas da música com quem conversamos acreditam que a hipótese seja verdadeira, nossa investigação mostra que estatísticamente a hipótese não pode ser confirmada, sendo então rejeitada.Item Evaluating a hierarchical approach for heartbeat classification from ECG.(2018) Luz, Eduardo José da Silva; Merschmann, Luiz Henrique de Campos; Menotti, David; Moreira, Gladston Juliano PratesSeveral types of arrhythmias that can be rare and harmless, but may result in serious cardiac issues, and several ECG analysis methods have been proposed in the literature to automatically classify the various classes of arrhythmias. Following the Association for the Advancement of Medical Instrumentation (AAMI) standard, 15 classes of heartbeats can be hierarchically grouped into five superclasses. In this work, we propose to employ the hierarchical classification paradigm to five ECG analysis methods in the literature, and compare their performance with flat classification paradigm. In our experiments, we use the MIT-BIH Arrhythmia Database and analyse the use of the hierarchical classification following AAMI standard and a well-known and established evaluation protocol using five superclasses. The experimental results showed that the hierarchical classification provided the highest gross accuracy for most of the methods used in this work and provided an improvement in classification performance of N and SVEB superclasses.Item HCAIM : um método de discretização supervisionado para o contexto de classificação hierárquica.(2016) Guandaline, Valter Hugo; Merschmann, Luiz Henrique de Campos; Gomes, David Menotti; Cerri, RicardoA discretização de dados, como uma etapa da fase de pré-processamento, tem sido alvo de pesquisas em diversos trabalhos no contexto de classificação plana. Apesar da importância dos métodos de discretização para a tarefa de classificação, até onde se tem conhecimento, para problemas de classificação hierárquica, não existem na literatura propostas de métodos de discretização supervisionados que possam ser utilizados em conjunto com classificadores hierárquicos globais. Desse modo, neste trabalho é proposto um método de discretização supervisionado para o contexto de classificação hierárquica. Este método, denominado HCAIM (Hierarchical CAIM), corresponde a uma adaptação do método de discretização CAIM proposto para o contexto de classificação plana. A avaliação do método proposto foi realizada utilizando-se o método de classificação hierárquica Global Model Naive Bayes – GMNB. Os experimentos computacionais realizados com 8 bases de dados de bioinformática mostraram que o método HCAIM, para a maioria das bases, permitiu ao GMNB alcançar desempenho preditivo superior àqueles alcançados quando a base de dados foi pré-processada pelos métodos não supervisionados EqualWidth e EqualFrequency.Item HiSP-GC : a classification method based on probabilistic analysis of patterns.(2010) Merschmann, Luiz Henrique de Campos; Plastino, AlexandreClassification is one of the most important tasks in data mining and, nowadays, has been applied to solve problems related to different areas, such as administration, finance, education, health and others. Therefore, the construction of precise and computationally efficient classifiers is a relevant challenge in data mining field. In previous works we presented an efficient method for protein classification, called HiSP (Highest Subset Probability) classifier, capable of yielding highly accurate results, outperforming the results obtained by other researchers. Aiming to construct a general purpose classifier based on the ideas explored to solve the protein classification problem, the method previously proposed was adapted and extended. Here we present this expanded and general classification method, called HiSP-GC (HiSP General Classifier), and show that it is appropriate and efficient for several kinds of databases associated with different applications.Item Hybrid feature selection approaches using metaheuristics for hierarchical classification.(2021) Lima, Helen de Cássia Sousa da Costa; Souza, Marcone Jamilson Freitas; Merschmann, Luiz Henrique de Campos; Souza, Marcone Jamilson Freitas; Merschmann, Luiz Henrique de Campos; Toffolo, Túlio Ângelo Machado; Luz, Eduardo José da Silva; Cerri, Ricardo; Barril Otero, Fernando EstebanA seleção de atributos é uma etapa de pré-processamento amplamente difundida na área de mineração de dados. Um de seus objetivos é reduzir o número de atributos originais de uma base de dados para melhorar o desempenho de um modelo preditivo. No entanto, apesar dos benefícios da seleção de atributos para a tarefa de classificação, até onde sabemos, poucos estudos na literatura abordam a seleção de atributos para o contexto de classificação hierárquica. Este trabalho propõe duas abordagens principais de seleção híbrida de atributos supervisionada, combinando uma etapa filtro com uma wrapper, na qual um classificador hierárquico global avalia subconjuntos de atributos. A primeira abordagem usa a metaheurística Busca em Vizinhança Variável Geral com um ranqueamento de atributos construído com a medida Incerteza Simétrica Hierárquica. A segunda abordagem propõe uma adaptação da medida de seleção de atributos baseada em correlação adaptada para classificação hierárquica e utiliza o algoritmo Best First Search para pesquisar o espaço de subconjuntos de atributos. Doze bases de dados dos domínios de proteína e imagem foram usadas para realizar experimentos computacionais para validar o desempenho dos algoritmos propostos utilizando dois classificadores hierárquicos globais propostos na literatura. Testes estatísticos mostraram que o uso dos métodos de seleção de atributos propostos levaram a um desempenho preditivo consistentemente melhor ou equivalente ao obtido quando todos os atributos iniciais são utilizados, além do benefício de reduzir o número de atributos necessários, o que justifica a aplicação em cenários de classificação hierárquica.Item A hybrid heuristic algorithm for the open-pit-mining operational planning problem.(2010) Souza, Marcone Jamilson Freitas; Coelho, Igor Machado; Ribas, Sabir; Santos, Haroldo Gambini; Merschmann, Luiz Henrique de CamposThis paper deals with the Open-Pit-Mining Operational Planning problem with dynamic truck allocation. The objective is to optimize mineral extraction in the mines by minimizing the number of mining trucks used to meet production goals and quality requirements. According to the literature, this problem is NPhard, so a heuristic strategy is justified. We present a hybrid algorithm that combines characteristics of two metaheuristics: Greedy Randomized Adaptive Search Procedures and General Variable Neighborhood Search. The proposed algorithm was tested using a set of real-data problems and the results were validated by running the CPLEX optimizer with the same data. This solver used a mixed integer programming model also developed in this work. The computational experiments show that the proposed algorithm is very competitive, finding near optimal solutions (with a gap of less than 1%) in most instances, demanding short computing times.Item Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais.(Programa de Pós-Graduação em Ciência da Computação. Departamento de Computação, Instituto de Ciências Exatas e Biológicas, Universidade Federal de Ouro Preto., 2012) Oliveira, Samuel Evangelista Lima de; Merschmann, Luiz Henrique de CamposO vírus da Imunode ciência Humana é um retrovirus que ataca principalmente o sistema imunológico humano, reduzindo progressivamente a sua e cácia. Combinações de drogas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altas taxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a alguns antirretrovirais e, consequentemente, causar falhas no tratamento. Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dados para predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada. Contudo ainda há poucos estudos que avaliem a in uência que diferentes tipos de atributos na tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho é apresentado um estudo comparativo sobre a utilização de diferentes atributos na predição da resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais. Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro modelos de classi cação. A partir desses conjuntos de atributos foram realizadas três etapas de testes que envolveram a avaliação do impacto do desbalanceamento das bases no resultado dos modelos de classi cação, a análise da importância de cada grupo de atributos e, por m, uma etapa de seleção de atributos. A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-se observar que uma etapa de balanceamento ajudou na obtenção de resultados mais equilibrados entre as duas classes do problema de classi cação em questão. Por sua vez a análise da importância dos diferentes grupos de atributos demonstrou que os melhores resultados de predição foram obtidos para os atributos que representam os níveis de resistência dos pacientes às drogas antirretrovirais. Por m, as bases de dados obtidas após uma fase de seleção de atributos apresentaram melhores resultados de predição quando compostas por um conjunto variado de atributos. Nesta etapa dos testes foi possível observar novamente a importância dos atributos de nível de resistência, bem como a importância de um atributo que representa o tamanho de uma determinada proteína do HIV.Item Improving lazy attribute selection.(2011) Pereira, Rafael Barros; Plastino, Alexandre; Zadrozny, Bianca; Merschmann, Luiz Henrique de Campos; Freitas, Alex AlvesAttribute selection is a data preprocessing step which aims at identifying relevant attributes for a target data mining task – specifically in this article, the classification task. Previously, we have proposed a new attribute selection strategy – based on a lazy learning approach – which postpones the identification of relevant attributes until an instance is submitted for classification. Experimental results showed the effectiveness of the technique, as in most cases it improved the accuracy of classification, when compared with the analogous eager attribute selection approach performed as a data preprocessing step. However, in the previously proposed approach, the performance of the classifier depends on the number of attributes selected, which is a user-defined parameter. In practice, it may be difficult to select a proper value for this parameter, that is, the value that produces the best performance for the classification task. In this article, aiming to overcome this drawback, we propose two approaches to be used coupled with lazy attribute selection technique: one that tries to identify, in a wrapper-based manner, the appropriate number of attributes to be selected and another that combines, in a voting approach, different numbers of attributes. Experimental results show the effectiveness of the proposed techniques. The assessment of these approaches confirms that the lazy learning paradigm can be compatible with traditional methods and appropriate for a large number of applications.Item Information gain feature selection for multi-label classification.(2015) Pereira, Rafael Barros; Carvalho, Alexandre Plastino de; Zadrozny, Bianca; Merschmann, Luiz Henrique de CamposIn many important application domains, such as text categorization, biomolecular analysis, scene or video classification and medical diagnosis, instances are naturally associated with more than one class label, giving rise to multi-label classification problems. This fact has led, in recent years, to a substantial amount of research in multi-label classification. And, more specifically, many feature selection methods have been developed to allow the identification of relevant and informative features for multi-label classification. However, most methods proposed for this task rely on the transformation of the multi-label data set into a single-label one. In this work we have chosen one of the most wellknown measures for feature selection – Information Gain – and we have evaluated it along with common transformation techniques for the multi-label classification. We have also adapted the information gain feature selection technique to handle multi-label data directly. Our goal is to perform a thorough investigation of the performance of multi-label feature selection techniques using the information gain concept and report how it varies when coupled with different multi-label classifiers and data sets from different domains.