Análise da Influência da Modelagem e Formato de Dados no Desempenho de Data Warehouse Baseado em Hadoop-Hive
Author(s) -
Beatriz Fragnan P. de Oliveira,
Aline S. Oliveira Valente,
Márcio Victorino,
Edward Ribeiro,
Maristela Holanda
Publication year - 2021
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/sbbd.2021.17884
Subject(s) - physics , data warehouse , humanities , computer science , database , philosophy
O desenvolvimento de data warehouse em ambientes em nuvem tem crescido. A modelagem de dados neste ambiente ainda não tem um padrão definido. Assim, esse artigo tem como objetivo apresentar uma análise comparativa de desempenho do uso da plataforma Hive no modelo floco de neve e totalmente desnormalizado. Os dados utilizados para análise são os dados abertos do Exército Brasileiro no ambiente Google Cloud. As análises são realizadas para diferentes quantidades de linhas no Hive, para um cenário de configuração do cluster e para dois tipos de armazenamento das tabelas. Por fim, utilizando o formato Parquet nas tabelas, obteve-se um desempenho mais de quatro vezes superior ao do formato CSV.
Accelerating Research
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom
Address
John Eccles HouseRobert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom