Open Access
Extensões na LAM/MPI para Automatizar o Checkpoint e Tolerar Falhas em Cluster de Computadores
Author(s) -
Antonio da Silva Martins,
Ronaldo A. L. Gonçalves
Publication year - 2005
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/wscad.2005.18985
Subject(s) - computer science , physics , cluster (spacecraft) , operating system
Os clusters de computadores estão se tornando cada vez mais comuns, em função do barateamento dos equipamentos e do potencial de processamento que eles podem dispor para a execução de aplicações complexas. Com isso, o desenvolvimento de técnicas de tolerância a falhas torna-se fundamental para garantir alto desempenho com confiabilidade. Em clusters com LAM/MPI (Local Area MultiComputer MPl), mecanismos de checkpoint disponíveis permitem a recuperação do estado seguro da aplicação após a ocorrência de falhas no sistema, mas são dependentes de intervenções do usuário. O presente trabalho propõe a automatização tanto do checkpoint quanto da recuperação durante a ocorrência de falhas em um dos nós, provendo confiabilidade com praticidade ao sistema. As alterações necessárias no código da LAM/MPI são aqui apresentadas. Os resultados experimentais mostram que a perda de tempo causada pela ocorrência de falhas pode ser reduzida significativamente e de forma transparente para o usuário. Nos testes realizados com aplicação de cálculo matricial, a automatização pode prover uma redução de 55% no tempo total de execução da aplicação, quando um nó do cluster falha, após a execução de 90% do tempo de execução normal sem falhas.