
Explorando a revisão de corpora por meio da comparação de regras gramaticais em padrões sintáticos
Author(s) -
Wellington José Leite da Silva,
Alexandre Rademaker,
Leonel Figueiredo de Alencar
Publication year - 2021
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/stil.2021.17780
Subject(s) - humanities , philosophy , physics
Recursos linguísticos, como corpora, são fundamentais para o desenvolvimento de ferramentas para processamento de textos. No processamento de textos em português, um recurso atualmente considerado fundamental é o corpus UD Bosque, parte da coleção de corpora no projeto 'Universal Dependencies' (UD). A despeito do corpus UD Bosque ter sido convertido para as anotações de UD de um corpus originalmente revisado, ainda são vários os problemas de consistência das anotações encontrados na atual versão do corpus. Neste trabalho, apresentamos a metodologia usada para corrigir os problemas de anotações morfológicas nos corpus UD Bosque, em particular, identificamos erros nas anotações morfológicas de determinantes e adjetivos que deveriam concordar com os substantivos que modificam. Discutimos como os erros foram identificados, as exceções ou casos não triviais, as correções realizadas e o impacto das mudanças no corpus no treinamento de analisadores sintáticos estatísticos.