Schnell und effizient

Data Sketches: Yahoo macht Algorithmen für datenstrombezogene Berechnungen quelloffen
Keine Kommentare

Die quelloffene Bibliothek Data Sketches von Yahoo erlaubt durch approximative Berechnungen die ressourcenschonende Durchführung von Operationen, denen normalerweise ein hoher Zeitaufwand und Speicherbedarf innewohnt.

Kurz nachdem Yahoo seinen Webcrawler Anthelion quelloffen gemacht hatte, folgte schon der nächste Streich: Data Sketches ist eine quelloffene Bibliothek, deren Kern von Algorithmen gebildet wird, die schnellen Kalkulationen sowie Analysen großer Systeme, die keine hundertprozentige Genauigkeit erfordern, dienen. Die Algorithmen erlauben es nach nur einmaligem Kontakt mit einem Datenstrom, approximative Berechnungen durchführen. Dabei greift Data Sketches auf das Konzept der Sketches zurück, die grob gesagt die Zusammenfassung eines Datenstroms darstellen.

Ein Beispiel aus der Praxis, wie es Lee Rhodes (Architekt in der Abteilung Werbung und Datenplattformen/Yahoo) im Gespräch mit Venturebeat erwähnte: Angenommen, man möchte die täglichen Besucher einer Website eruieren – eine genaue Berechnung würde nicht unerhebliche Ressourcen (Speicherplatz, Arbeitsspeicher und Zeit) erfordern, und dass, obwohl in den meisten Fällen keine genaue Zahl benötigt wird, sondern statt dessen auch eine Annäherung ausreichen würde. Hier setzt Data Sketches an und bietet mit seinen Algorithmen eine extrem schnelle und Speicherschonende Alternative, deren Genauigkeit sich Rhodes zufolge (je nach Höhe des Inputs) in einem Bereich von plus-minus 1,5 Prozent bewegt.

Die Algorithmen kommen in zahlreichen Yahoo-Technologien, wie beispielsweise Yahoo Mail und Yahoo Search, sowie bei der von Yahoo im Juli 2014 übernommene Analyse- und Werbeplattform Flurry zum Einsatz. Mit Hive und Pig bietet Data Sketches eine Integration mit zwei Tools aus Hadoops Big-Data-Ökosystem; gleiches gilt für den quelloffenen Data Store Druid. Auch mit Maven arbeitet Data Sketches zusammen.

Die Java-basierten Data Sketches-Algorithmen können über GitHub bezogen werden und stehen unter Apache-Lizenz. Eine ausführliche Dokumentation kann der Data-Sketches-Website entnommen werden.

ML Conference 2021

Efficient Transformers

Christoph Henkelmann, DIVISIO

Enhancing Page Visits by Topic Prediction

Dieter Jordens, Continuum Consulting NV

Machine Learning on Edge using TensorFlow

Håkan Silfvernagel, Miles AS

 

Microservices Summit

Micro Frontends – Probleme, Techniken, Lösungen

mit Lars Kölpin-Fresse (Open Knowledge GmbH)

Mono-, Modu-, Microliths – oder welche Steine nutze ich zum Bauen

mit Dr. Annegret Juncker (Allianz Deutschland AG)

Aufmacherbild: Ken Wolter / Shutterstock.com

Unsere Redaktion empfiehlt:

Relevante Beiträge

Abonnieren
Benachrichtige mich bei
guest
0 Comments
Inline Feedbacks
View all comments
X
- Gib Deinen Standort ein -
- or -