Navegando por Assunto "Aprendizado de máquina"
Agora exibindo 1 - 13 de 13
- Resultados por Página
- Opções de Ordenação
Item Análise de risco geotécnico em taludes rochosos de mina com uso de técnicas estatísticas multivariadas e de aprendizado de máquina.(2019) Santos, Tatiana Barreto dos; Lana, Milene Sabino; Klen, André Monteiro; Canbulat, Ismet; Lana, Milene Sabino; Carneiro, Cláudia Aparecida Nonato Gomes; Charbel, Paulo André; Pereira, Thiago Martins; Destro, EltonO controle do perigo e risco de rupturas em taludes rochosos é uma preocupação em taludes urbanos, rodoviários e de minas. O risco geotécnico é definido matematicamente pela probabilidade da ocorrência da ruptura do talude vezes as consequências adversas desta. É de conhecimento da comunidade geotécnica que a probabilidade de ruptura em taludes rochosos está relacionada às características da rocha intacta e das descontinuidades presentes nos maciços rochosos. Quanto às consequências associadas às rupturas em empreendimentos mineiros pode-se citar: as perdas econômicas e humanas. Os sistemas de análise de risco utilizados normalmente são essencialmente qualitativos e carecem, muitas vezes, de embasamento estatístico. Este trabalho propõe metodologias de análise de perigo e risco baseado no uso de técnicas de estatística multivariada e de aprendizado de máquina. Sistemas de análise de perigo e risco foram propostos. O sistema de análise de perigo foi construído utilizando análise de componentes principais e análise discriminante, com taxa de erro igual a 11,36%. Por fim um gráfico de análise de perigo foi gerado utilizando a distância de Mahalanobis. O sistema de análise de risco foi construído utilizando regressão logística e árvores de classificação. A técnica de regressão logística foi utilizada para gerar uma função de predição capaz de se determinar a probabilidade de que um talude de mina seja estável ou não. A função apresentou taxa de erro igual a 7,95%. A técnica de árvores de decisão foi utilizada para gerar um sistema em que se determina os níveis de consequências adversas da ruptura. A árvore gerada apresentou taxa de erro igual a 18,18%. Por fim foi proposta uma matriz de risco. O sistemas de análise de perigo e risco propostos podem igualmente serem aplicados em taludes rochosos de mina de qualquer natureza. Para obtenção dos sistemas de análise de perigo e risco foi utilizado um banco de dados de 88 taludes de mina localizados em diversos países do mundo. Ambos os sistemas propostos são fáceis de serem utilizados e aplicados de forma expedita em empreendimentos mineiros de grande a pequeno porte.Item Análise e abordagem preditiva no processo de tratamento de minério de pirocloro.(2021) Ferreira, Ana Cecilia Rios Porfirio; Araújo, Fernando Gabriel da Silva; Araújo, Fernando Gabriel da Silva; Silva, André Carlos; Gameiro, Danton Heleno; Assis, Paulo SantosDada a frequente variação das propriedades minerais ao longo do depósito de pirocloro de Araxá, ainda que realizado um bom trabalho de homogeneização previamente à alimentação dos processos de beneficiamento, é esperada a operação com padrões de qualidade e performance abaixo do desejado, ou mesmo muito acima do previsto. Estes resultados poderiam ser melhorados se determinados os parâmetros de composição do blend que mais influenciam na rota de beneficiamento, e então agrupados os tipos de matérias-prima por estes, apresentando as configurações operacionais de referência ótima para cada grupo. Associar os parâmetros físicos e químicos das operações de beneficiamento mineral à um Benchmark do processo reflete na redução do custo produtivo, otimiza o recurso mineral e promove maior estabilidade nos processos subsequentes da cadeia produtiva que emprega o mineral de interesse. A condução de uma análise exploratória abrangente de dados para identificar quais as características do minério de maior relevância para a rota de processo, associada ao emprego de algoritmos de Aprendizado de Máquinas para o agrupamento da matéria-prima (minério) e associação destes à variáveis de referência no benchmark do processo, é uma alternativa para a padronização e melhoria dos processos de beneficiamento mineral. Métodos de agrupamento foram empregados, associados à algoritmos embasados na teoria de benchmarking, com critérios definidos pela equipe de processos de tal forma à referenciar o melhor momento de operação das pilhas de cada cluster. Foi criada uma interface prática com o usuário para obtenção dos melhores referenciais para ajuste do processo. Os resultados foram aferidos através do tempo médio de adaptação e estabilização do processo após o início do processo de uma nova pilha de minério homogeneizado, bem como o tempo médio necessário para atingimento do melhor resultado de processamento. Foram também aferidos os ganhos diretos com a recuperação metalúrgica do processo. Os resultados foram promissores, sendo observada a redução no tempo de adaptação e estabilização do processo após a transição de pilhas, bem como no atingimento do benchmark. Destaca-se também os ganhos na recuperação metalúrgica, que refletem na redução do consumo de minério e consequente redução dos custos de produção, e como resultados indiretos a racionalização do uso das barragens de rejeito e vida útil do depósito mineral.Item Aprendizado de máquina aplicado à moagem de minério de ferro.(2023) Silva, Daniel Henrique Cordeiro; Lima, Hernani Mota de; Alves, Vladmir Kronemberger; Alves, Vladmir Kronemberger; Souza, Ernandes Sávio de; Bergerman, Maurício GuimarãesO aprendizado de máquina, juntamente com outras novas tecnologias, desempenha um papel significativo no advento da Indústria 4.0, impulsionando a otimização de vários processos em diversos setores, incluindo o Tratamento de Minérios. Com a crescente disponibilidade de dados de chão de fábrica, algoritmos avançados podem aprimorar a tomada de decisões e aumentar a eficiência, reduzindo custos e aumentando a lucratividade. No beneficiamento de minério, algumas das oportunidades a serem exploradas estão atreladas à utilização das ferramentas de Big Data, Machine Learning e Inteligência Artificial, e podem trazer benefícios na manutenção preditiva, previsão de teores químicos ou de propriedades físicas, bem como controle e otimização de processos e redução do consumo de energia. Especificamente para processos como a moagem, ferramentas de aprendizado de máquina tendem a ter seus ganhos potencializados se combinados com modelos matemáticos consolidados – sejam eles empíricos ou fenomenológicos, advindos do conhecimento do processo. Este trabalho explora a combinação de aprendizado de máquina com modelos de processo já estabelecidos para prever a granulometria do produto em uma planta de moagem de minério de ferro, que é o principal parâmetro de qualidade a ser monitorado. O objetivo é investigar como essas equações podem contribuir para a um desempenho melhor dos modelos preditivos, de forma a otimizar a tomada de decisão operacional na unidade. Por fim, as métricas observadas indicam boa acurácia para os modelos desenvolvidos com a inclusão de equações de processo consagradas, com grande potencial de utilização em operação. Reafirma-se, então, que a ciência de dados e os modelos preditivos são ferramentas de significante potencial valor para otimizar e melhorar a eficiência e a qualidade do processamento mineral e das operações de moagem. Eles permitem que os operadores tomem decisões assertivas e medidas proativas para a melhoria nas operações.Item Aprendizado de máquina aplicado em previsão de curto prazo de valores de indicadores de nível de água.(2021) Kümmel, Luiz Frederico de Freitas; Pessin, Gustavo; Torres, Vidal Félix Navarro; Sabino, Jodelson Aguilar; Pessin, Gustavo; Sabino, Jodelson Aguilar; Girao Sotomayor, Juan Manuel; Hidaka, RenatoA estabilidade e solidez de barragens de rejeito para resíduos de atividades industriais de mineração é de importância primordial para a segurança da sociedade e meio ambiente localizado a sua jusante. Para assegurar as essenciais exigências de segurança e exposição ao risco das barragens ao longo da sua vida útil, devem ser implementadas ações mitigatórias de prevenção e controle dessas condições, nesse intuito esse trabalho visa aplicar métodos de Machine Learning, para prever o comportamento dos indicadores de nível de água associados a carta de risco. Os algoritmos de machine learning mostraram elevadas taxas de acerto para predição, sendo que a combinação de métodos de classificação e regressão permitiu aumentar ainda mais a qualidade de resposta do sistema proposto.Item Especificação de rochas ornamentais utilizadas na construção civil aplicando técnicas de estatística multivariada e aprendizado de máquina.(2023) Zagôto, Juliano Tessinari; Lana, Milene Sabino; Pereira, Tiago Martins; Lana, Milene Sabino; Santos, Allan Erlikhman Medeiros; Santos, Tatiana Barreto dos; Frasca, Maria Heloisa Barros de Oliveira; Klen, André MonteiroO Brasil é mundialmente reconhecido como potência produtora e exportadora de rochas ornamentais. Com grande beleza estética e qualidades físico-mecânicas inquestionáveis, as rochas ornamentais brasileiras estão espalhadas por grandes obras no mundo. Nessa perspectiva, este trabalho visa estabelecer um índice de qualidade e um critério de seleção de rochas ornamentais para revestimentos aplicados na construção civil. Para isso foi elaborado um banco de dados dos resultados dos ensaios de caracterização tecnológica de 285 amostras de rochas naturais, adotados como variáveis. Esse estudo propôs um índice de qualidade para as rochas ornamentais utilizando-se dos valores dos parâmetros tecnológicos gerais de referência, atribuindo pesos a eles e conforme o ambiente no qual a rocha é aplicado. Os ambientes foram definidos como A (piso interno seco de baixo tráfego), B (parede interna seca), C (parede interna molhada), D (parede externa), E (bancada interna seca), F (bancada interna molhada), G (bancada externa) e H (outras aplicações). Com o auxílio do software estatístico livre R foram utilizados métodos de estatística multivariada e de aprendizado de máquina. Da análise de componentes principais, pudemos extrair que as três primeiras componentes explicam aproximadamente 51% do problema. Da análise de agrupamentos foram gerados 5 (cinco) grupos classificados como G1 (Grupo dos Quartzitos), G2 (Grupo dos Granitos), G3 (Grupo majoritariamente formado por Granitos), G4 (Grupo majoritariamente formado por Granitos ricos em granada ou grupo dos Gnaisses) e G5 (Grupo dos Mármores). A partir daí, foram realizadas as estatísticas descritivas intra e inter grupos. De posse dos grupos formados, foi treinada uma árvore de decisão capaz de indicar uma rocha para um determinado ambiente com altíssimo grau de acerto. A acurácia da árvore de decisão foi de 0,96 e o Índice Kappa 0,95. O trabalho apresenta uma nova abordagem para indicar assertivamente uma rocha natural para um determinado ambiente, diminuindo a subjetividade por meio de um sistema de classificação. Apesar da complexidade matemática das técnicas adotadas, os resultados gerados são de fácil interpretação e simples visualização.Item Machine learning applied to the prediction of rockfall slope probability.(2022) Silveira, Larissa Regina Costa; Lana, Milene Sabino; Santos, Tatiana Barreto dosThe objective of this work is to propose a predictive model of rockfall slope probability in rock slopes using the KNearest Neighbors (KNN) method. A dataset composed by 220 rock slopes was used, whose variables are related to the presence of water, characteristics of the rock mass, degree of overhang, among others. For each slope of the dataset, rockfall probability (high, medium, or low) is known and determined by cluster analysis. The number of the nearest neighbors (k) ranged from 1 to 20. The obtained average accuracy of the tested predictive models was equal to 78.4%. The models produced satisfactory results in the prediction of the rockfall probability, since the area under the ROC curve was equal to 0.80. The best model was selected based on the k value with the highest accuracy and the highest area under the ROC curve. The selected model had a k value equal to 7.Item Uma metodologia para validação fotométrica em sistemas interativos visuais baseada em inteligência computacional.(2009) Faria, Alexandre Wagner Chagas; Lara, Daniel da Silva Diogo; Araújo, Arnaldo de Albuquerque; Gomes, David MenottiNeste artigo, é apresentada uma metodologia automática para a validação fotométrica em sistemas de iluminação interna veicular. Nessa metodologia, propõe-se um método para extração de descritores de homogeneidade de cada região de avaliação. A percepção visual humana, representada pela avaliação do usuário, é usada para classificar as regiões em homogêneas e não-homogêneas. Dois algoritmos de aprendizado de máquina (Redes neurais e Support Vector Machine) são usados para a classificação de regiões visando identificar quais as melhores configurações de descritores irá representar a percepção do usuário em relação à homogeneidade da iluminação dos sistemas de interação com o motorista. Resultados experimentais mostram que a metodologia proposta consegue diferenciar regiões homogêneas de não-homogêneas com precisão superior á 90%.Item Um modelo de classificação supervisionada com rotulagem automática para reconhecimento de áudio de web rádios.(2014) Rezende, Diego Dutra de; Pereira Junior, Álvaro RodriguesCom o aumento da capacidade de processamento dos computadores nos últimos anos, uma área específica da computação tem despertado a atenção tanto da academia quanto da indústria: a área de Recuperação de Informação em Música (do inglês, Music Information Retrieval _ MIR). Em especial, sistemas que reconhecem automaticamente áudio sendo tocado, seja em um sinal que vem da Web, seja gravando o áudio em dispositivos móveis, tem ganhado especial importância. Em tempos passados, havia ciência para se reconhecer áudio com precisão aceitável, como na faixa de 90%, mas os métodos não eram eficientes ao ponto de serem aplicados em escala, por exemplo, para a aplicação de reconhecimento de áudio em Web rádios, considerando-se um volume de milhares de rádios monitoradas em tempo real e índices da ordem de milhões de músicas. Hoje em dia os métodos não se desenvolveram tanto, mas o poder computacional disponível comercialmente é muito maior, permitindo então o desenvolvimento de uma gama de inovações tecnológicas na área. Nesta dissertação é apresentado um novo modelo de reconhecimento de áudio, capaz de usar o aprendizado supervisionado de máquina a partir de dados rotulados automaticamente para agregar diferentes métodos de reconhecimento de áudio, visando aumentar a precisão do reconhecimento, sem perder em eficiência. A rotulagem automática, cujo resultado é usado na etapa de treino, é possível porque as Web rádios são transmitidas usando protocolos e parâmetros conhecidos, de forma que é possível gerar dados sintéticos para treino e depois aplicar o modelo aprendido sobre as rádios reais. Neste trabalho mostra-se que, se os parâmetros das rádios são bem definidos, a combinação de métodos de reconhecimento utilizando o modelo proposto pode reduzir a perda (ou erro) do método de reconhecimento heurístico em até 55%, chegando a ter revocação média muito próxima de 100%. Isto considerando como baseline um método heurístico que está em execução em um sistema comercial que audita a ocorrência de propagandas em rádios que transmitem pela Web.Item Monitoramento da qualidade de SINTER FEED através de dados espectrais associados a aprendizado de máquina – estudo de caso : Mina de Carajás Serra Sul (S11D).(2021) Silva, Ana Cristina Pinto; Pabón, Rosa Elvira Correa; Pessin, Gustavo; Pabón, Rosa Elvira Correa; Souza, Jefferson Rodrigo de; Coimbra, Keyla Thayrinne Oliveira; Cota, Luciano PerdigãoEssa pesquisa compreende na geração de bibliotecas espectrais e caracterização espectroscópica de sínter feed, visando contribuir no aprimoramento dos métodos tradicionais utilizados na indústria mineral, para determinação de percentual de ferro e contaminantes na Mina de Carajás Serra Sul, mais conhecida como S11D. Para tanto, foram realizadas em ambiente de laboratório, leituras espectrais de amostras de sínter feed de produto final e amostras preparadas, pulverizadas e secadas. As bibliotecas espectrais e sua caracterização espectroscópica foram realizadas no intervalo de 350 – 2500 nm. A biblioteca espectral gerada será integrada a dados geoquímicos como fluorescência de raio X, com o intuito de construir modelos empíricos que permitam determinar o percentual de ferro e identificar contaminantes nas amostras. Os dados produzidos deverão gerar informações que permitam: (i) identificar as bandas espectrais na assinatura do sínter feed associadas ao conteúdo de ferro; (ii) identificar as bandas espectrais na assinatura do sínter feed referentes aos contaminantes: (iii) gerar modelos estatísticos que permitam estimar o percentual de ferro nas amostras de sínter feed; (iv) avaliar o uso de métodos de aprendizado de máquinas para estimar o teor de ferro em amostras de minério de ferro, com base em bibliotecas espectrais; (iv) espera-se que na medida em que os objetivos do projeto sejam atingidos, avaliar a possibilidade de uso dos critérios viii derivados em laboratório para prever situações reais nas atividades de mineração e gerar uma nova metodologia que permita determinar o percentual de ferro e identificação de contaminantes de maneira precisa e oportuna, para a tomada de decisões e otimização nos processos produtivos.Item Previsão da diluição em realces subterrâneos por meio de técnicas de aprendizado de máquina.(2023) Rodrigues, Caio Oliveira; Santos, Tatiana Barreto dos; Santos, Tatiana Barreto dos; Figueiredo, Rodrigo Peluci de; Silveira, Larissa Regina CostaUma das principais metodologias empíricas para avaliar a estabilidade de realces de minas subterrâneas e estimar sua diluição é o Gráfico de Estabilidade de Realces Modificado, proposto por Potvin et al. (1988), que relaciona características do maciço rochoso e a geometria do realce. Seu uso permite estimar a condição de estabilidade da escavação, utilizando um gráfico construído a partir da análise da diluição de 255 realces. Todavia, por se tratar de um método empírico, várias subjetividades estão associadas com o processo de avaliação, e a aplicação da técnica possui restrições de uso, uma vez que não consideram os ambientes geomecânicos das minas subterrâneas brasileiras. O presente trabalho propõe modelos de predição da diluição em realces por meio da aplicação de algoritmo de florestas aleatórias em um banco de dados de uma mina subterrânea de ouro brasileira contendo 26 variáveis de 70 realces de três diferentes mineralizações. A fim de investigar as variáveis que contém maior correlação com a diluição foi utilizado o método de árvores de decisão, que apontou seis variáveis principais deste banco de dados na previsão de diluição, utilizadas para geração dos modelos de florestas aleatórias em três etapas. Primeiramente, foi proposto um modelo validado pelo método da ressubstituição, a ser comparado com os modelos propostos por Costa (2017) a partir do mesmo banco de dados, que revelou superioridade das florestas aleatórias na previsão de diluição em detrimento dos modelos de regressão linear múltipla proposto pelo autor, obtendo-se R2 igual a 0.9161. Em seguida o modelo de florestas aleatórias foi validado por divisão de amostras treino/teste, que obteve valor de R2 igual a 0.3060 no melhor cenário. Por fim, visando aprimorar o modelo, o banco de dados foi dividido em três, cada um referente a um dos corpos mineralizados, e novos modelos foram gerados para cada banco de dados. Esta análise indicou evolução nos valores de acurácia dos modelos, com R2 igual a 0.5465, 0.5295 e 0.4525, contudo, com grande variabilidade das métricas de validação. A importância das variáveis também foi observada nestas últimas análises por florestas aleatórias, indicando grande coerência com os resultados obtidos por meio das árvores de decisão. O estudo foi capaz de definir as principais variáveis do banco de dados na influência de diluição em realces, e propõe modelos de predição de diluição práticos, de fácil utilização e com menos subjetividades que os métodos empíricos, sendo uma excelente ferramenta para auxiliar engenheiros geotécnicos na compreensão e estimativa da diluição operacional.Item Proposta de modelos de predição da resistência não drenada de rejeitos de bauxita.(2023) Pinto, Guilherme Henrique da Silva; Santos, Tatiana Barreto dos; Santos, Tatiana Barreto dos; Candido, Eduardo Souza; Santos, Allan Erlikhman MedeirosA correta determinação de parâmetros de resistência de rejeitos é essencial na engenharia geotécnica. Casos recentes de rupturas de barragens de rejeito de mineração, reforçam a necessidade de um melhor entendimento do comportamento mecânico de rejeitos. Para a determinação da resistência não drenada desses materiais, comumente são utilizados ensaios de campo como o ensaio de piezocone (CPTu) e palheta (Vane). Apesar dos ensaios de campo fornecerem uma medida in situ das propriedades do solo/rejeito, as metodologias para determinação da resistência não drenada por meio destes ensaios advêm de correlações empíricas e/ou analíticas que foram propostas e validadas em solos naturais. Visando contornar problemas de predição semelhantes ao tratado neste trabalho, vários autores têm aplicado técnicas da ciência de dados (estatística multivariada, aprendizado de máquina e inteligência artificial) como K-ésimo Vizinho mais Próximo, Florestas Aleatórias, Regressão Linear Múltipla, Máquina Vetor Suporte, dentre outras. Sendo assim, o presente trabalho tem por objetivo aplicar tais técnicas para a obtenção de modelos capazes de prever a resistência não drenada de pico de um rejeito de bauxita por meio de ensaios de campo (piezocone e palheta) e laboratório (teor de umidade). As variáveis influentes na obtenção da resistência não drenada também foram avaliadas por meio de diferentes combinações nos input das variáveis nos modelos. Foi aplicado também a técnica de validação cruzada k-fold para avaliar a acurácia e capacidade de generalização dos modelos elaborados. Além disso, é apresentada proposta metodológica para caracterização do comportamento não drenado com base nos dados dos ensaios de CPTu e dissipação de poropressão. Os modelos de ciência de dados obtidos foram comparados com a metodologia baseada fatores do cone Nkt, Nu e Nke calibrados com o Vane para a determinação da resistência não drenada. Dentre os resultados obtidos, as técnicas de ciência de dados apresentaram R2 superiores à 0,90, mostrando também menor dispersão dos resultados preditos se comparadas à metodologia baseada nos fatores supracitados. Com base no estudo das variáveis influentes, foi observado que as poropressões são as variáveis que mais influenciam na predição da resistência não drenada. Além disso, por meio do teste estatístico t-student foi comprovado que os modelos de ciência de dados têm desempenho superior à metodologia clássica de melhor desempenho (baseado nas poropressões), partindo das mesmas variáveis independentes.Item Proposta de sensores virtuais baseados em aprendizado de máquina para estimativa de parametros de qualidade na etapa de pelotamento de minério de ferro.(2021) Dias, Fabricio Bertholi; Pessin, Gustavo; Pessin, Gustavo; Euzebio, Thiago Antonio Melo; Coelho, Bruno Nazário; Souza, Jefferson Rodrigo deO processo industrial de pelotização de minério de ferro foi desenvolvido objetivando-se o beneficiamento e aproveitamento comercial dos finos de minério. O pelotamento é a etapa deste processo responsável pela formação das pelotas, sendo influenciado por diversas variáveis, com reflexos diretos sobre a qualidade do produto. Logo, é importante que certas características físicas, desejadas para as pelotas, sejam continuamente monitoradas durante o processo produtivo. Atualmente o processo de garantia da qualidade é feito através de ensaios em laboratórios, atividade com alta latência de resposta. Dada a necessidade de aumento de eficiência deste processo e o respectivo impacto em toda a cadeia produtiva, este trabalho propõe a aplicação de um sensor virtual para estimar parâmetros de qualidade na etapa de pelotamento em uma usina de pelotização de minério de ferro. Foram comparadas 3 técnicas de aprendizado de máquinas: Redes Neurais Artificias, Random Forests e KNN – K Nearest Neighbors. Foi proposto um modelo de regressão baseado na coletânea nos melhores modelos individuais comparados. A identificação das variáveis que mais influenciam nos parâmetros de qualidade de pelotas cruas de minério de ferro é descrita, fundamentando-se na teoria da metalurgia do processo de pelotização. As variáveis de processo candidatas (features / targets) ao modelo foram tratadas, formando a base de dados para a geração do modelo de predição. Os modelos dos sensores virtuais foram validados com sucesso, obtendo-se R2 de 0,944 e RMSE de 0,075 para o modelo de coletânea, comprovando a importância de variáveis, tais como dosagens de aglomerantes, taxas de dosagem e rotação dos discos de pelotamento, volumes de produção e retorno. A validação dos modelos evidencia seu potencial para aplicação em um ambiente real, e abre espaço para continuidade de estudos futuros.Item s-WIM : a scalable web information mining tool.(2012) Melo, Felipe Santiago Martins Coimbra de; Pereira Junior, Álvaro Rodrigues; Pereira Junior, Álvaro Rodrigues; Lima, Joubert de Castro; Souza, Fabrício Benevenuto de; Ziviani, NivioMineração Web pode ser vista como o processo de encontrar padrões na Web por meio de técnicas de mineração de dados. Mineração Web é uma tarefa computacionalmente intensiva, e a maioria dos softwares de mineração são desenvolvidos isoladamente, o que torna escalabilidade e reusabilidade difı́cil para outras tarefas de mineração. Mineração Web é um processo iterativo onde prototipagem tem um papel essencial para experimentar com diferentes alternativas, bem como para incorporar o conhecimento adquirido em iterações anteriores do processo. Web Information Mining (WIM) constitui um modelo para prototipagem rápida em mineração Web. A principal motivação para o desenvolvimento do WIM foi o fato de que seu modelo conceitual provê seus usuários com um nı́vel de abstração apropriado para prototipagem e experimentação durante a tarefa de mineração. WIM é composto de um modelo de dados e de uma álgebra. O modelo de dados WIM é uma visão relacional dos dados Web. Os três tipos de dados existentes na Web, chamados de conteúdo, de estrutura e dados de uso, são representados por relações. Os principais componentes de entrada do modelo de dados WIM são as páginas Web, a estrutura de hiper- links que interliga as páginas Web, e os históricos (logs) de consultas obtidos de máquinas de busca da Web. A programação WIM é baseada em fluxos de dados (dataflows), onde sequências de operações são aplicadas às relações. As operações são definidas pela álgebra WIM, que contém operadores para manipulação de dados e para mineração de dados. WIM materializa uma linguagem de programação declarativa provida por sua álgebra. O objetivo do presente trabalho é o desenho de software e o desenvolvimento do Scalable Web Information Mining (s-WIM), a partir do modelo de dados e da álgebra apresentados pelo WIM. Para dotar os operadores com a escalabilidade desejada – e consequentemente os programas gerados por eles – o s-WIM foi desenvolvido sobre as plataformas Apache Hadoop e Apache HBase, que provêem escalabilidade linear tanto no armazenamento quanto no processamento de dados, a partir da adição de hardware. A principal motivação para o desenvolvimento do s-WIM é a falta de ferramentas livres que ofereçam tanto o nı́vel de abstração provido pela álgebra WIM quanto a escalabilidade necessária à operação sobre grandes bases de dados. Além disso, o nı́vel de abstração provido pela álgebra do WIM permite que usuários sem conhecimentos avançados em linguagens de programação como Java ou C++ também possam utilizá-lo. O desenho e a arquitetura do s-WIM sobre o Hadoop e o HBase são apresentados nesse trabalho, bem como detalhes de implementação dos operadores mais complexos. São também apresentados diversos experimentos e seus resultados, que comprovam a escalabilidade do s-WIM e consequentemente, seu suporte à mineração de grandes volumes de dados.