Obwohl die Spezifikation der ersten Version des Message-Passing Interface Standards (MPI) über 20 Jahre her ist, gibt der Standard bis dato Anwendungsentwicklern nur rudimentäre Mittel an die Hand, um mit Fehlerfällen wie dem Absturz von Prozessen innerhalb einer MPI-Sitzung robust umgehen zu können. Mit stetig steigender Anzahl an Rechenkernen und damit der Anzahl an parallelen Prozessen in modernen Hochleistungsrechnern gewinnt ein solcher Umgang mit Fehlerfällen aber zunehmend an Bedeutung.
Dieser Vortrag führt in einem ersten Teil zunächst in die bereits vorhandenen Fehlerbehandlungsmethoden von MPI ein, um dann in einem zweiten Teil den Bedarf nach mehr Robustheit und Fehlertoleranz zu motivieren und mögliche zukünftige Erweiterungen des MPI-Standards diesbezüglich vorzustellen. Ein dritter Teil, der aktuelle Entwicklungen und Ergebnisse aus dem EU-geförderten DEEP-ER-Projekt in Bezug auf Fehlertoleranz und Resilienz in zukünftigen Exascale-Systemen vorstellt, rundet diesen Vortrag ab.
Skills
Der Vortrag richtet sich an Teilnehmer, die zumindest schon erste Erfahrungen mit der Programmierung paralleler Algorithmen unter Verwendung der MPI-Schnittstelle gemacht haben.
Lernziele
Dem Zuhörer sollen die derzeitigen Schwächen von MPI in Hinblick auf Fehlertoleranz vergegenwärtigt werden, um dann mögliche Lösungen für die Zukunft unter Nennung der Herausforderungen und Schwierigkeiten kennenzulernen.
// Referenten
// Carsten Clauss
war langjähriger Mitarbeiter am Lehrstuhl für Betriebssysteme der RWTH Aachen University und forschte dort im Bereich des Message-Passing für Manycore-Systeme. Seit 2013 ist er Mitarbeiter bei der ParTec Cluster Competence Center GmbH und arbeitet dort insbesondere an der Weiterentwicklung von ParaStation MPI.
// Thomas Moschny
ist seit 2008 Mitarbeiter bei der ParTec Cluster Competence Center GmbH, seit 2013 in der Funktion des Chief Technology Officer (CTO). Zuvor gehörte er der Gruppe von Prof. Tichy in der Fakultät für Informatik der Universität Karlsruhe an und forschte dort im Bereich Software für Hochgeschwindigkeitsnetzwerke sowie parallele Programmierumgebungen. Neben den Aufgaben als CTO liegt sein Fokus auf dem Design und der Entwicklung von Monitoring-Werkzeugen für HPC-Cluster.