
Checkpointing Quase-Síncrono no LAM/MPI
Author(s) -
Ulisses Furquim Freire da Silva,
Islene C. Garcia
Publication year - 2004
Language(s) - Portuguese
Resource type - Conference proceedings
DOI - 10.5753/wscad.2004.19014
Subject(s) - computer science , operating system , physics
Atualmente, na área de computação de alto desempenho, um número crescente de aplicações distribuídas utiliza alguma biblioteca MPI (Message Passing Interface) para a troca de mensagens. Desse modo, há uma crescente demanda por mecanismos de tolerância a falhas para aplicações que utilizem esse sistema de comunicação. Nesse artigo, é discutida uma infra-estrutura para checkpointing quase-síncrono feita numa implementação livre do padrão MPI como base para a construção de um sistema tolerante a falhas que utilize recuperação por retrocesso de estado.
Accelerating Research
Robert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom
Address
John Eccles HouseRobert Robinson Avenue,
Oxford Science Park, Oxford
OX4 4GP, United Kingdom