z-logo
open-access-imgOpen Access
Sequenciamento de algoritmos de amostragem para aumentar o desempenho de classificadores em conjuntos de dados desequilibrados
Author(s) -
Gian Barbosa,
Péricles Miranda,
Ricardo Silva,
Rafael Ferreira Mello
Publication year - 2019
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/eniac.2019.9302
Subject(s) - humanities , physics , computer science , philosophy
As técnicas de amostragem desempenham um papel essencial na ajuda aos classificadores que aprendem com conjuntos de dados desbalanceados, uma vez que essas técnicas retornam uma versão mais balanceada do conjunto de dados desbalanceados. Under sampling reduz o número de exemplos da classe majoritária para equilibrar o número de exemplos de cada classe. Isso pode fazer com que exemplos relevantes sejam excluídos. Over sampling geralmente usa todos os exemplos disponíveis na classe minoritária para sintetizar novas instâncias, que podem incluir dados ruidosos ou outliers. Assim, dependendo da natureza dos dados, o uso de um algoritmo de um tipo ou outro pode impactar negativamente o desempenho do classificador. Este artigo propõe o 'Sequenciamento de Algoritmos de Amostragem', que permite a composição de diferentes algoritmos de amostragem em um pipeline, para o balanceamento de dados. Os resultados mostraram que a proposta foi capaz de obter acurácia e F1 score médios estatisticamente maiores quando comparados aos das abordagens de amostragem tradicionais e híbridas, na maioria dos problemas desbalanceados selecionados.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here