DECOM - Departamento de Computação
URI Permanente desta comunidade
Navegar
Navegando DECOM - Departamento de Computação por Autor "Alvarenga, João Paulo Reis"
Agora exibindo 1 - 2 de 2
Resultados por página
Opções de Ordenação
Item Uma abordagem centrada em dados para reconhecimento de fala em português : modelo de língua e suas implicações.(2023) Alvarenga, João Paulo Reis; Luz, Eduardo José da Silva; Luz, Eduardo José da Silva; Merschmann, Luiz Henrique de Campos; Silva, Rodrigo César PedrosaOs avanços mais recentes no Reconhecimento Automático de Fala permitem alcançar uma qualidade jamais antes vista em línguas com dados abundantes, tais como o inglês, e em línguas com dados limitados, como o português. Em particular, abordagens baseadas em modelos de Transformers permitem realizar a tarefa de reconhecimento de fala diretamente a partir da representação do sinal bruto. Alguns estudos já indicam que a qualidade da transcrição pode ser melhorada ainda mais com o uso de modelos de linguagem. No entanto, o impacto real destes modelos ainda não está claro para o português brasileiro, assim como a importância da qualidade dos dados usados para treinar os modelos. Por isso, este trabalho explora o impacto dos modelos de linguagem aplicados ao reconhecimento de fala para língua portuguesa, tanto em termos de qualidade de dados quanto de desempenho computacional, com uma abordagem centrada em dados. Uma abordagem para medir a similaridade entre conjuntos de dados é proposta para auxiliar na tomada de decisão durante o treinamento. Os resultados mostram que é possível reduzir o tamanho do modelo de linguagem em ~80% e ainda alcançar taxas de erro por palavra em torno de 7,17% para o conjunto de dados Common Voice.Item A data-centric approach for Portuguese speech recognition : language model and its implications.(2023) Alvarenga, João Paulo Reis; Merschmann, Luiz Henrique de Campos; Luz, Eduardo José da SilvaRecent advances in Automatic Speech Recognition have made it possible to achieve a quality never seen before in the literature, both for languages with abundant data, such as English, which has a large number of studies, and for the Portuguese language, which has a more limited amount of resources and studies. The most recent advances address speech recognition problems with Transformers based models, which have the capability to perform the speech recognition task directly from the raw signal, without the need for manual feature extraction. Some studies have already shown that it is possible to further improve the quality of the transcription of these models using language models within the decoding stage, however, the real impact of such language models is still not clear, especially for the Brazilian Portuguese scenario. Also, it is known that the quality of the data used for training the models is of paramount importance, however, there are few works in the literature addressing this issue. This work explores the impact of language models applied to Portuguese speech recognition both in terms of data quality and computational performance, with a data-centric approach. We propose an approach to measure similarity between datasets and, thus, assist in decision-making during training. The approach indicates paths for the advancement of the state-of-the-art aiming at Portuguese speech recognition, showing that it is possible to reduce the size of the language model by 80% and still achieve error rates around 7.17% for the Common Voice dataset. The source code is available at https://github.com/joaoalvarenga/language-model-evaluation.