Mario Meir-Huber Microsoft Österreich

Mit HDInsight wird die Arbeit mit Hadoop wesentlich vereinfacht: In nur wenigen Minuten ist ein vollständiger Hadoop-Cluster vorhanden.

Big Data ist in aller Munde, und einer der heißesten Trends in diesem Zusammenhang ist Hadoop. Hadoop gilt als das „Wundermittel“ für alles, was Daten betrifft. Doch was genau ist dieses „Hadoop“ und wodurch unterscheidet es sich von bekannten Tools wie SQL Server?

Seit einigen Jahren gibt es mit HDInsight eine Hadoop-Lösung von Microsoft auf Azure. Doch oftmals ist Hadoop selbst noch unbekannt, obwohl es international gesehen bereits sehr stark verbreitet ist und vor allem von großen IT-Unternehmen wie Facebook, Twitter, Yahoo! und Amazon eingesetzt wird.

Hadoop könnte man auch als „Betriebssystem“ für Daten bezeichnen, wobei es kein Betriebssystem ist – und auch keine Datenbank, sondern ein sehr komplexes Ökosystem für alles rund um Daten. Der Fokus liegt klar auf großen Datenmengen: Big Data und IoT. Vor allem die schier endlose Skalierung ist hierbei für eingangs erwähnte Unternehmen von Vorteil. Klassische Datenbanken skalieren oftmals nur bis zu einer gewissen Größe, Hadoop skaliert linear und kann problemlos Petabyte oder Zetabyte von Daten verarbeiten. Die Anwendungsmöglichkeiten sind ebenfalls fast unbegrenzt: der Newsfeed von Facebook wird durch Hadoop berechnet, Yahoo hat über 35 000 Server auf Hadoop-Basis, Spotify berechnet und analysiert den persönlichen Musikgeschmack mit Hadoop, wie es Netflix mit dem Filmgeschmack macht. Die Möglichkeiten von Hadoop, Datenanalysen betreffend, sind nahezu unbegrenzt – von strukturierten bis zu sehr stark unstrukturierten Daten. Hadoop kann mit all diesen Daten problemlos umgehen und arbeiten.

Wofür Hadoop nicht geeignet ist, ist der Betrieb von Webseiten, etwa Webshops – denn Hadoop ist keine aktive Datenbank. Hadoop ist gar keine Datenbank. Der Erfolg von Hadoop liegt auch in der großen Open-Source-Community begründet, die hinter Hadoop steht. Die ursprünglichen Erfinder von Hadoop sind heute in führenden Positionen der größten Hadoop-Distributoren, zu denen Cloudera, Hortonworks und MapR zählen, tätig.

Ein weiterer, nicht unwichtiger Grundstock für den Hadoop-Erfolg sind die Kosten: Im Vergleich mit relationalen Datenbanken oder gar Datawarehouses sind es bei Hadoop oftmals nur ein Bruchteil der Kosten – sie variieren je nach Vergleichsobjekt zwischen einem Zehntel und sogar einem Hundertstel!

Den vollständigen Artikel lesen Sie in der Ausgabe:

Windows Developer 4.17 - "JavaScript im Enterprise"

Alle Infos zum Heft
579778885Was ist eigentlich dieses Hadoop von dem alle reden?
X
- Gib Deinen Standort ein -
- or -