parallel 2014 » Agenda »
// Apache Hadoop 2: Parallel ist mehr als MapReduce!
Die im Oktober 2013 veröffentlichte Version 2 von Apache Hadoop hat eine lange Entwicklungszeit hinter sich, und entsprechend umfangreich sind die Neuerungen ausgefallen. Die signifikanteste Änderung ist sicherlich die Auslagerung des Ressourcenmanagements im Cluster in die eigene Komponente YARN (Yet Another Resource Negotiator), die bisher ein fest integrierter Teil der MapReduce-Implementierung war. Dadurch ist es nun möglich, die in HDFS gespeicherten Daten nicht mehr nur mit MapReduce zu verarbeiten, sondern mit einer Vielzahl von unterschiedlichen Paradigmen wie Stream Processing, In-Memory Processing oder Graph Processing. Aber MapReduce bleibt natürlich auch weiterhin als wichtiger Bestandteil von Hadoop 2 erhalten und hat mit einer an die neue Architektur angepassten Implementierung zahlreiche Verbesserungen und Optimierungen erfahren.
Der Vortrag wird einleitend die neue Hadoop-2-Architektur vorstellen und darauf aufbauend auf die Neuerungen in MapReduce 2 eingehen und welche Auswirkungen dies auf die Aspekte der parallelen Programmierung hat. Aus dieser Brille heraus betrachtet er danach die Grundlagen und spezifischen Implementierungen der YARN-Apps wie Apache Tez, Storm, Spark, Giraph etc. Damit gewinnen Sie einen tiefen Einblick in die Möglichkeiten der parallelen Verarbeitung von Daten mit Hadoop 2.
// Referent
// Uwe Seiler
ist ein Big Data Nerd, der sich für die Möglichkeiten begeistert, die sich durch die Vielzahl an technologischen Innovationen im Bereich der verteilten Systeme bieten. Diese Begeisterung lebt er zum einen als Coder, Consultant und Trainer für die codecentric AG aus und zum anderen liebt er die Diskussion darüber, etwa als Speaker auf Konferenzen oder auf den von ihm (mit-)organisierten User Groups zu MongoDB und Hadoop im Raum Rhein-Main.