Mit "Pro Hadoop" liegt eines der ersten Bücher zum Hadoop-Projekt der Apache Software Foundation vor. Hadoop selbst stellt ein Framework zur parallelen und verteilten Verarbeitung von großen Datenbeständen dar und ist eine freie Implementierung des von Google entwickelten MapReduce-Programmiermodells und des Google File System. Angefangen mit einer ersten Implementierung von Doug Cutting für Nutch 2005, wurde Hadoop 2008 zum Apache-Toplevel-Projekt und beherbergt mehrere Unterprojekte.
Venner adressiert mit seinem Buch sowohl Entwickler als auch Administratoren und Architekten, was sich im Kapitelaufbau widerspiegelt. Kapitel 1 und 2 führen den Leser in die Hadoop-Grundlagen und das Konzept von MapReduce ein. Seine kurzen Erklärungen zu MapReduce setzen allerdings Vorkenntnisse voraus, da schnell in die Implementierungsdetails eingestiegen wird. An dieser Stelle erweist es sich als Vorteil, die Google-Veröffentlichungen zu MapReduce und dem Google File System zu kennen. Kapitel 3 führt in die Konfiguration eines Hadoop-Clusters ein, wobei die einzelnen Komponenten und deren Zusammenspiel verständlich erläutert werden. Hierbei wird sehr viel Aufmerksamkeit auf die ausführliche Beschreibung der möglichen Einstellungen gelegt als auch auf relevante Konfigurationsparameter hingewiesen, die nicht zur Standardkonfiguration gehören. Gleiches gilt auch für Kapitel 4, das sich mit dem Hadoop-Distributed-File-System beschäftigt.
In den Kapiteln 5, 7, 8 und 9 widmet sich der Verfasser wieder mehr der Programmierung von MapReduce-Anwendungen mit Hadoop und deckt dabei auch fortgeschrittene Fragestellungen wie Recovery, Logging, Debugging und die Entwicklung von Testfällen ab. Wie auch in den vorangegangenen Kapiteln sind es die vielen kleinen Details und Erläuterungen, die diese so wertvoll machen. So wird der Leser nicht nur mit dem reinen API vertraut gemacht, sondern auch mit den Abhängigkeiten zwischen den einzelnen Komponenten.
Die Stärke des Buchs liegt in der konzentrierten Darstellung von Funktionsweise und Einsatz des Hadoop-Frameworks. Die detailreiche Darstellung von Fakten spricht für Venners Kenntnisse der Software, die sicherlich einer langen und intensiven Beschäftigung mit Hadoop zu verdanken sind. Der Großteil dieser Informationen kann so nicht in der im Vergleich spärlichen Projektdokumentation entnommen und nur durch mühsames Suchen im Quellcode und auf den Mailinglisten gefunden werden. Eine bessere Strukturierung wäre jedoch wünschenswert gewesen. Oft werden Themen wie die Arbeitsweise von Hadoop zusammen mit Fragen der Programmierung und der Erläuterung von Parametern behandelt. Eine strengere Trennung dieser Themen hätte das Buch zu einem Nachschlagewerk werden lassen können. Wenn Venner sich in der Einführung detaillierter mit der Erklärung von MapReduce beschäftigt hätte, wäre das Buch auch für Einsteiger empfehlenswert.




