z-logo
open-access-imgOpen Access
Extensões na LAM/MPI para Automatizar o Checkpoint e Tolerar Falhas em Cluster de Computadores
Author(s) -
Antonio da Silva Martins,
Ronaldo A. L. Gonçalves
Publication year - 2005
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/wscad.2005.18985
Subject(s) - computer science , physics , cluster (spacecraft) , operating system
Os clusters de computadores estão se tornando cada vez mais comuns, em função do barateamento dos equipamentos e do potencial de processamento que eles podem dispor para a execução de aplicações complexas. Com isso, o desenvolvimento de técnicas de tolerância a falhas torna-se fundamental para garantir alto desempenho com confiabilidade. Em clusters com LAM/MPI (Local Area MultiComputer MPl), mecanismos de checkpoint disponíveis permitem a recuperação do estado seguro da aplicação após a ocorrência de falhas no sistema, mas são dependentes de intervenções do usuário. O presente trabalho propõe a automatização tanto do checkpoint quanto da recuperação durante a ocorrência de falhas em um dos nós, provendo confiabilidade com praticidade ao sistema. As alterações necessárias no código da LAM/MPI são aqui apresentadas. Os resultados experimentais mostram que a perda de tempo causada pela ocorrência de falhas pode ser reduzida significativamente e de forma transparente para o usuário. Nos testes realizados com aplicação de cálculo matricial, a automatização pode prover uma redução de 55% no tempo total de execução da aplicação, quando um nó do cluster falha, após a execução de 90% do tempo de execução normal sem falhas.

The content you want is available to Zendy users.

Already have an account? Click here to sign in.
Having issues? You can contact us here