
A Comparative Analysis of Machine Learning Named Entity Recognition Tools for the Brazilian and European Portuguese Language Variants
Author(s) -
Breno David Lopes Pinheiro,
Ellen Souza,
Douglas Vitório,
Hidelberg Oliveira Albuquerque
Publication year - 2021
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/eniac.2021.18257
Subject(s) - humanities , portuguese , natural language processing , philosophy , computer science , artificial intelligence , linguistics
Informações textuais, apesar de digitais, não são computacionalmente estruturadas, necessitando do uso de técnicas para estruturá-las e extrair informações. Este trabalho tem o objetivo de avaliar ferramentas de REN utilizando machine learning para as variantes brasileira e europeia da língua portuguesa. As ferramentas Apache OpenNLP, Stanford CoreNLP e spaCy foram selecionadas; o corpus HAREM foi usado para treinar e avaliar os modelos; uma ferramenta foi desenvolvida para pré-processar o corpus HAREM. Dois tipos de comparações foram realizadas: uma geral e outra entre variantes do português. Foi possível identificar que as variantes podem afetar no treinamento e avaliação de modelos de REN (Reconhecimento de entidades nomeadas).