PPGCC - Doutorado (Teses)

URI permanente para esta coleçãohttp://www.hml.repositorio.ufop.br/handle/123456789/9837

Navegar

Resultados da Pesquisa

Agora exibindo 1 - 2 de 2
  • Item
    Desenvolvimento de uma abordagem para reconhecimento contínuo da Língua Brasileira de Sinais utilizando imagens dinâmicas e técnicas de aprendizagem profunda.
    (2020) Escobedo Cárdenas, Edwin Jonathan; Cámara Chávez, Guillermo; Cámara Chávez, Guillermo; Ferreira, Anderson Almeida; Gomes, David Menotti; Luz, Eduardo José da Silva; Schwartz, William Robson
    Durante os últimos anos, têm sido desenvolvidas diversas abordagens para o reconhecimento contínuo de línguas de sinais para melhorar a qualidade de vida das pessoas surdas e diminuir a barreira de comunicação entre elas e a sociedade. Analogamente, a incorporação do dispositivo Microsoft Kinect gerou uma revolução na área de visão computacional, fornecendo novas informações multimodais (dados RGB-D e do esqueleto) que podem ser utilizadas para gerar ou aprender novos descritores robustos e melhorar as taxas de reconhecimento em diversos problemas. Assim, nessa pesquisa de doutorado, apresenta-se uma metodologia para o reconhecimento de sinais contínuos da Língua Brasileira de Sinais (LIBRAS) utilizando como dados de entrada de um sinal as informações fornecidas pelo dispositivo Kinect. Diferentemente dos outros trabalhos na literatura, que utilizam arquiteturas de redes mais complexas (como as 3DCNN e BLSTM), o método proposto utiliza janelas deslizantes para procurar segmentos candidatos de serem sinais dentro de um fluxo continuo de video. Do mesmo modo, propõe-se o uso de imagens dinâmicas para codificar as informações espaço-temporais fornecidas pelo Kinect. Assim, pode-se reduzir a complexidade da arquitetura CNN proposta para o reconhecimento dos sinais. Finalmente, baseado no conceito de pares mínimos, um novo banco de dados da Língua Brasileira de Sinais chamado LIBRAS-UFOP é proposto. A base LIBRAS-UFOP possui tanto sinais isolados (56 classes de sinais) como sinais contínuos (37 classes); nós avaliamos nosso método usando essa base e o comparamos com os métodos propostos na literatura. Os resultados experimentais nos datasets LIBRAS-UFOP e LSA64 demostraram a validade do método proposto baseado em imagens dinâmicas como uma alternativa para o reconhecimento de língua de sinais.
  • Item
    Exploring deep learning representations for biometric multimodal systems.
    (2019) Luz, Eduardo José da Silva; Gomes, David Menotti; Moreira, Gladston Juliano Prates; Ferreira, Anderson Almeida; Moreira, Gladston Juliano Prates; Gomes, David Menotti; Cavalin, Paulo; Cámara Chávez, Guillermo; Santos, Thiago Oliveira dos
    Biometrics is an important area of research today. A complete biometric system comprises sensors, feature extraction, pattern matching algorithms, and decision making. Biometric systems demand high accuracy and robustness, and researchers are using a combination of several biometric sources, two or more algorithms for pattern matching and di↵erent decision-making systems. These systems are called multimodal biometric systems and today represent state-of-the-art for biometrics. However, the process of extracting features in multimodal biometric systems poses a major challenge today. Deep learning has been used by researchers in the machine learning field to automatize the feature extraction process and several advances were achieved, such as the case of face recognition problem. However, deep learning based methods require a large amount of data and with the exception of facial recognition, there are no databases large enough for the other biometric modalities, hindering the application of deep learning in multimodal methods. In this thesis, we propose a set of contributions to favor the use of deep learning in multimodal biometric systems. First of all, we explore data augmentation and transfer learning techniques for training deep convolution networks, in restricted biometric databases in terms of labeled images. Second, we propose a simple protocol, aiming at reproducibility, for the creation and evaluation of multimodal (or synthetic) multimodal databases. This protocol allows the investigation of multiple biometric modalities combination, even for less common and novel modalities. Finally, we investigate the impact of merging multimodal biometric systems in which all modalities are represented by means of deep descriptors. In this work, we show that it is possible to bring the expressive gains already obtained with the face modality, to other four biometric modalities, by exploring deep learning techniques. We also show that the fusion of modalities is a promising path, even when they are represented by means of deep learning. We advance state-of-the-art for important databases in the literature, such as FRGC (periocular region), NICE / UBIRIS.V2 (periocular region and iris), MobBio (periocular region and face), CYBHi (o↵-the-person ECG), UofTDB (o↵-the-person ECG) and Physionet (EEG signal). Our best multimodal approach, on the chimeric database, resulted in the impressive decidability of 9.15±0.16 and a perfect recognition in (i.e., EER of 0.00%±0.00) for the intra-session multimodal scenario. For inter-session scenario, we reported decidability of 7.91±0.19 and an EER of 0.03%±0.03, which represents a gain of more than 22% for the best inter-session unimodal case.