PPGCC - Programa de Pós-graduação em Ciência da Computação
URI permanente desta comunidadehttp://www.hml.repositorio.ufop.br/handle/123456789/596
Navegar
2 resultados
Resultados da Pesquisa
Item Desenvolvimento de uma abordagem para reconhecimento contínuo da Língua Brasileira de Sinais utilizando imagens dinâmicas e técnicas de aprendizagem profunda.(2020) Escobedo Cárdenas, Edwin Jonathan; Cámara Chávez, Guillermo; Cámara Chávez, Guillermo; Ferreira, Anderson Almeida; Gomes, David Menotti; Luz, Eduardo José da Silva; Schwartz, William RobsonDurante os últimos anos, têm sido desenvolvidas diversas abordagens para o reconhecimento contínuo de línguas de sinais para melhorar a qualidade de vida das pessoas surdas e diminuir a barreira de comunicação entre elas e a sociedade. Analogamente, a incorporação do dispositivo Microsoft Kinect gerou uma revolução na área de visão computacional, fornecendo novas informações multimodais (dados RGB-D e do esqueleto) que podem ser utilizadas para gerar ou aprender novos descritores robustos e melhorar as taxas de reconhecimento em diversos problemas. Assim, nessa pesquisa de doutorado, apresenta-se uma metodologia para o reconhecimento de sinais contínuos da Língua Brasileira de Sinais (LIBRAS) utilizando como dados de entrada de um sinal as informações fornecidas pelo dispositivo Kinect. Diferentemente dos outros trabalhos na literatura, que utilizam arquiteturas de redes mais complexas (como as 3DCNN e BLSTM), o método proposto utiliza janelas deslizantes para procurar segmentos candidatos de serem sinais dentro de um fluxo continuo de video. Do mesmo modo, propõe-se o uso de imagens dinâmicas para codificar as informações espaço-temporais fornecidas pelo Kinect. Assim, pode-se reduzir a complexidade da arquitetura CNN proposta para o reconhecimento dos sinais. Finalmente, baseado no conceito de pares mínimos, um novo banco de dados da Língua Brasileira de Sinais chamado LIBRAS-UFOP é proposto. A base LIBRAS-UFOP possui tanto sinais isolados (56 classes de sinais) como sinais contínuos (37 classes); nós avaliamos nosso método usando essa base e o comparamos com os métodos propostos na literatura. Os resultados experimentais nos datasets LIBRAS-UFOP e LSA64 demostraram a validade do método proposto baseado em imagens dinâmicas como uma alternativa para o reconhecimento de língua de sinais.Item Desenvolvimento de uma abordagem para o reconhecimento de gestos manuais dinâmicos e estáticos.(2015) Escobedo Cárdenas, Edwin Jonathan; Cámara Chávez, GuillermoDurante os últimos anos, têm sido desenvolvidas diversas abordagens para o reconhecimento de gestos manuais, tanto estáticos como dinâmicos. Todas com o objetivo de melhorar a interação homem-computador. Muitas dessas abordagens, inicialmente baseados nas informações de intensidade, não fornecem dados suficientes para uma boa caracterização. Devido ao avanço da tecnologia, novos dispositivos estão surgindo como é o caso do sensor Kinect o qual, além da informação de intensidade, provê as informações de profundidade e posições das articulações do corpo. Dessa maneira, obtém-se uma maior vantagem no desenvolvimento de um modelo para reconhecimento de gestos, pois ajuda reduzindo alguns processos complexos como é o caso da segmentação e localização da mão. Contudo as novas informações de profundidade e posição podem também ser usadas para a geração de novas características e melhorar as taxas de reconhecimento. Nesta dissertação apresentamos dois modelos para o reconhecimento de gestos, tanto estáticos como dinâmicos, usando as informações de intensidade e profundidade (RGBD), além da informação das posições das principais articulações do corpo. No modelo para reconhecer gestos estáticos, usou-se a informação de profundidade, propondo um método baseado na representação da mão em uma nuvem de pontos. Logo, usando a teoria de cossenos de direção, gerou-se um vetor de Histogramas de Magnitudes Acumuladas, o qual representa as novas características locais da mão. Finalmente, usando o classificador SVM (Support Vector Machine), geraram-se resultados superiores a outros modelos da literatura, sendo o melhor resultado de 99.21% de acurácia media. No modelo para reconhecer gestos dinâmicos, usou-se a informação das posições da mão para gerar a trajetória do gesto e propor um algoritmo de extração de quadros principais, evitando assim o uso reiterado de técnicas invariáveis ao tempo como os Hidden Markov Models (HMM) ou Dinamyc Time Warping (DTW). Depois, geraram-se três vetores: o vetor de informação espacial VSI , o vetor de informação temporal VTI e o vetor de mudanças da posição da mão VHC, os quais representam as características globais do gesto. Também, o descritor local SIFT foi usado nas imagens de intensidade e profundidade para obter características das mãos. A partir dessas características, foram gerados atributos de nível médio usando a técnica Bag-of-Words (BoW), gerando o vetor de características locais. Esse modelo foi testado usando o classificador SVM (Support Vector Machine) usando três bases de dados diferentes, gerando resultados superiores a outros modelos da literatura em cada caso (100%, 88.38% e 98.28%).