
Definição de Parâmetros do Spark por meio de Aprendizado de Máquina: um Estudo com Dataflows de Astronomia
Author(s) -
Luís Felipe Batista de Oliveira,
Cristina Boeres,
Daniel de Oliveira
Publication year - 2021
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/bresci.2021.15785
Subject(s) - computer science , humanities , spark (programming language) , physics , philosophy , programming language
O Apache Spark tem se mostrado um framework promissor para auxiliar na execução de experimentos científicos baseados em simulação e que demandam execuções em ambientes de alto desempenho. Entretanto, o Spark possui mais de 180 parâmetros para serem configurados, o que torna a tarefa de configuração entediante e propensa a erros, se realizada manualmente. O presente artigo explora a utilização de múltiplos métodos de aprendizado de máquina para auxiliar na configuração dos parâmetros do Spark. Tais modelos foram treinados na plataforma Orange e posteriormente incorporados a ferramenta SpaCE, desenvolvida em um trabalho anterior. Os modelos foram treinados a partir de um dataset com dados de proveniência de mais de 500 execuções de dataflows de astronomia. Os resultados mostraram que o uso de métodos de aprendizado de máquina nesse contexto é promissor. Além disso, os resultados mostraram que a estratégia de partição dos dados de entrada do dataflow é o atributo que que tem maior relevância na obtenção de menores tempos de execução e que as Redes Neurais Artificiais são o método de aprendizado de máquina que traz os melhores resultados.