Im konkreten Beispiel geht es darum, dass in MySQL eine Tabelle mit Kundendaten angelegt ist und Hadoop weitere Angaben zu einzelnen Bestellungen der Kunden verarbeitet werden. Spannend wird es dann, wenn eine Liste derjenigen Kunden ausgegeben werden soll, die wenigstens eine Bestellung aufgegeben haben. Naheliegende Lösung wäre hier ein Map-Reduce-Job, dessen Ergebnis anschließend in eine Tabelle geschrieben wird, deren Inhalt sich schließlich per SQL auslesen ließe, was – wie man es auch anstellt – ein ziemlicher Performance-Fresser sein kann.
Peters Lösung sieht vor, die Ergebnisse des Map-Reduce in eine sortierte CSV-Datei zu schreiben, deren Inhalte anschließen über eine Binary Search ausgelesen werden können. Wie das ganze im Detail aussieht, wie sich mit CSV bis zu 4x schneller finden lässt und kostbarer Platz im RAM gespart wird, lesen Sie in Peters Blog.