WhereHows hilft Unternehmen bei Informationsgenerierung

WhereHows: LinkedIn stellt Metadaten-Management-Tool Open Source
Kommentare

Unstrukturierte Daten zu analysieren ist für sich genommen schon kompliziert genug. Allerdings sollten Unternehmen nachvollziehen können, woher ihre Datensätze stammen und wie sie durch verschiedene logistische Prozesse modifiziert wurden. Um den nötigen Bezug zu den Hunderten von Terabyte an Informationen nicht zu verlieren, hat LinkedIn ein passendes Werkzeug entwickelt. Mit WhereHows können die gesammelten Metadaten untersucht werden. Jetzt steht das Tool Open Source zur Verfügung.

LinkedIn nutzt bereits mehrere verschiedene Systeme, um Daten zu speichern und zu verarbeiten. Dazu gehören unter anderem das verteilte Dateisystem Hadoop, die universellen Datenbanksysteme Teradata und Hive sowie die hauseigene Echtzeit-Analyse-Software Pinot. Da es aber auch wichtig zu wissen ist, wo welche Daten liegen, hat LinkedIn das Data-Discovery- und Lineage-Portal WhereHows entwickelt. Das Tool steht interessierten Entwicklern ab sofort Open Source zur Verfügung.

WhereHows – mehr als nur Daten sammeln

WhereHows zeigt nicht nur einfach Daten an, sondern sammelt sie aus verschiedenen Quellen, standardisiert sie und fügt sie zusammen. Zugleich dient das Tool als ein integriertes Metadaten-Repository für unterschiedliche Analyse-Zwecke. Kurz gesagt handelt es sich dabei um ein Tool zum Aufspüren und Managen von Metadaten. Schon der Name WhereHows kombiniert die beiden wichtigsten Punkte: Wo befinden sich die Daten und wie werden sie produziert/genutzt? Und dass der Name ausgesprochen so ähnlich klingt wie das englische „warehouse“ ist sicher ebenfalls kein Zufall, denkt man beispielsweise an den Begriff „data warehouse„.

WhereHows works by creating a central repository and portal for the processes, people, and knowledge around the most important element of any big data system: the data itself.

Bei der Installation deployed WhereHows einen Monitoring-Agent, der an jeder größeren Abzweigung der Analytics-Pipeline zum Einsatz kommt. Die generierten und durchlaufenden Daten werden auf diese Weise überwacht. So können wichtige Details in einem zentralisierten Repository synchronisiert und in eine strukturierte Timeline eingepflegt werden. Mit diesem Prozess werden Lineages erstellt, die es ermöglichen, Aufzeichnungen über mehrere Abzweigungen bis zu ihrem Ursprung zurückzuverfolgen.

Demo von WhereHows

Demo von WhereHows

WhereHows stellt die gesammelten Daten über ein grafisches User Interface und ein API zur Verfügung. So kann per Suchleiste gezielt nach dem Datensatz gesucht werden, der gerade von Interesse ist. Gleichzeitig lässt sich der Evolutionsweg der Daten visualisieren, sodass man etwaige Änderungen genau nachvollziehen kann. Stimmt etwas nicht, lässt sich der Dokumentationsbereich des Dashboards einsehen, in dem andere Mitarbeiter des Unternehmens Kommentare eintragen können. Außerdem bietet WhereHows die Möglichkeit, Kollegen bei Unstimmigkeiten im Datenbestand direkt zu kontaktieren.

LinkedIn nutzt WheresHow bereits seit zwei Jahren. Im Repository befinden sich rund 15 Petabyte an gesammelten Informationen, darunter 50.000 Datensätze, 14.000 Kommentare, 35 Millionen Job-Executions und zugehörige Abstammungsinformationen.


Weitere Informationen zu WhereHows bietet der zugehörige Blogpost. Auf GitHub steht das Tool quelloffen zum Download zur Verfügung; im Wiki finden sich Hilfestellungen zum Einsatz von WhereHows.

 

Aufmacherbild:Miss Ty / Shutterstock.com

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -