
Análise de diferentes métricas para agrupamento de dados utilizando um algoritmo de busca paralela baseado em organismos simbióticos
Author(s) -
Sandro Roberto Loiola de Menezes,
Mateus Boiani,
Rafael Stubs Parpinelli
Publication year - 2018
Publication title -
revista brasileira de computação aplicada
Language(s) - Portuguese
Resource type - Journals
ISSN - 2176-6649
DOI - 10.5335/rbca.v10i2.7651
Subject(s) - humanities , computer science , physics , philosophy
Este artigo propõe uma abordagem para realizar agrupamento de dados utilizando o Algoritmo de Busca por Organismos Simbióticos (SOS) em uma arquitetura Hadoop MapReduce, chamado de MRCSOS. O algoritmo SOS é responsável pela exploração do espaço de busca enquanto a arquitetura Hadoop provê escalabilidade através do paralelismo. A principal contribuição deste trabalho é a correlação das métricas de pureza, entropia e diversidade genotípica utilizando diferentes métricas de agrupamento de dados durante o processo de otimização. Os resultados obtidos em três bases de dados mostraram que algumas métricas de agrupamento não mantém a qualidade do agrupamento durante toda otimização. Nas métricas analisadas, a função Silhueta (F5) foi a melhor de todas. Esta função consegue manter o melhor agrupamento durante todo processo de otimização. Além disto, o algoritmo MRCSOS com a função F5 obteve os melhores resultados, ou pelo menos competitivos, quando comparados com outras abordagens existentes na literatura.