Schnell und effizient

Data Sketches: Yahoo macht Algorithmen für datenstrombezogene Berechnungen quelloffen
Keine Kommentare

Die quelloffene Bibliothek Data Sketches von Yahoo erlaubt durch approximative Berechnungen die ressourcenschonende Durchführung von Operationen, denen normalerweise ein hoher Zeitaufwand und Speicherbedarf innewohnt.

Kurz nachdem Yahoo seinen Webcrawler Anthelion quelloffen gemacht hatte, folgte schon der nächste Streich: Data Sketches ist eine quelloffene Bibliothek, deren Kern von Algorithmen gebildet wird, die schnellen Kalkulationen sowie Analysen großer Systeme, die keine hundertprozentige Genauigkeit erfordern, dienen. Die Algorithmen erlauben es nach nur einmaligem Kontakt mit einem Datenstrom, approximative Berechnungen durchführen. Dabei greift Data Sketches auf das Konzept der Sketches zurück, die grob gesagt die Zusammenfassung eines Datenstroms darstellen.

Ein Beispiel aus der Praxis, wie es Lee Rhodes (Architekt in der Abteilung Werbung und Datenplattformen/Yahoo) im Gespräch mit Venturebeat erwähnte: Angenommen, man möchte die täglichen Besucher einer Website eruieren – eine genaue Berechnung würde nicht unerhebliche Ressourcen (Speicherplatz, Arbeitsspeicher und Zeit) erfordern, und dass, obwohl in den meisten Fällen keine genaue Zahl benötigt wird, sondern statt dessen auch eine Annäherung ausreichen würde. Hier setzt Data Sketches an und bietet mit seinen Algorithmen eine extrem schnelle und Speicherschonende Alternative, deren Genauigkeit sich Rhodes zufolge (je nach Höhe des Inputs) in einem Bereich von plus-minus 1,5 Prozent bewegt.

Die Algorithmen kommen in zahlreichen Yahoo-Technologien, wie beispielsweise Yahoo Mail und Yahoo Search, sowie bei der von Yahoo im Juli 2014 übernommene Analyse- und Werbeplattform Flurry zum Einsatz. Mit Hive und Pig bietet Data Sketches eine Integration mit zwei Tools aus Hadoops Big-Data-Ökosystem; gleiches gilt für den quelloffenen Data Store Druid. Auch mit Maven arbeitet Data Sketches zusammen.

Die Java-basierten Data Sketches-Algorithmen können über GitHub bezogen werden und stehen unter Apache-Lizenz. Eine ausführliche Dokumentation kann der Data-Sketches-Website entnommen werden.

ML Conference 2019

Workshop: Machine Learning 101++ using Python

mit Dr. Pieter Buteneers (Chatlayer.ai)

Honey Bee Conservation using Deep Learning

mit Thiago da Silva Alves, Jean Metz (JArchitects)

Aufmacherbild: Ken Wolter / Shutterstock.com

Unsere Redaktion empfiehlt:

Relevante Beiträge

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu:
X
- Gib Deinen Standort ein -
- or -