
Análise da Influência da Modelagem e Formato de Dados no Desempenho de Data Warehouse Baseado em Hadoop-Hive
Author(s) -
Beatriz Fragnan P. de Oliveira,
Aline Valente,
Márcio Victorino,
Edward Ribeiro,
Maristela Holanda
Publication year - 2021
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/sbbd.2021.17884
Subject(s) - physics , data warehouse , humanities , computer science , database , philosophy
O desenvolvimento de data warehouse em ambientes em nuvem tem crescido. A modelagem de dados neste ambiente ainda não tem um padrão definido. Assim, esse artigo tem como objetivo apresentar uma análise comparativa de desempenho do uso da plataforma Hive no modelo floco de neve e totalmente desnormalizado. Os dados utilizados para análise são os dados abertos do Exército Brasileiro no ambiente Google Cloud. As análises são realizadas para diferentes quantidades de linhas no Hive, para um cenário de configuração do cluster e para dois tipos de armazenamento das tabelas. Por fim, utilizando o formato Parquet nas tabelas, obteve-se um desempenho mais de quatro vezes superior ao do formato CSV.