
Computação em Nuvem e Aprendizado de Máquina para Análise de Grandes Volumes de Dados Educacionais
Author(s) -
Francisco das Chagas Bezerra Neto,
Romero Silva,
Roberta Gouveia,
Maria Stefania Nóbrega Batista,
Igor Carboni Oliveira
Publication year - 2020
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/eniac.2020.12117
Subject(s) - humanities , decision tree , computer science , spark (programming language) , random forest , physics , artificial intelligence , philosophy , programming language
Este artigo descreve a aplicação de aprendizado de máquina supervisionado e não supervisionado em grandes volumes de dados abertos governamentais do INEP, por meio dos algoritmos K-Nearest Neighbors, Logistic Regression, Decision Tree, Random Forest e K-means. A metodologia fundamenta-se nos processos CRISP-DM e KDD, sendo necessária a utilização da plataforma em nuvem DataBricks, além das tecnologias de clusters Hadoop e Apache Spark. Tais tecnologias proporcionaram alto poder de processamento para execução dos experimentos, o que viabilizou a avaliação de desempenho dos modelos e a descoberta de conhecimento da educação básica brasileira.