Node.js zum Goldschürfen im Internet benutzen
Kommentare

Bei allen Geheimdienstmeldungen und der Entrüstung darüber ist es doch teilweise interessant, wie NSA und Co. eigentlich arbeiten, um so viele Daten fein säuberlich zu sammeln und zu ordnen. Zum Sammeln

Bei allen Geheimdienstmeldungen und der Entrüstung darüber ist es doch teilweise interessant, wie NSA und Co. eigentlich arbeiten, um so viele Daten fein säuberlich zu sammeln und zu ordnen. Zum Sammeln sind nun im Netz zwei unabhängige Tools vorgestellt worden, die sich glänzend zum Rosinenpicken in einem Internet aus Websites, JSON-Posts und XML-Übertragungen eignen.

Sowohl noodle als auch cheerio laufen in Node.js und dienen dem sogenannten Web Scraping, dem Goldschürfen im Internet. Noodle unterstützt mehrere Formate von Web-Dokumenten, darunter HTML, JSON, Feeds und XML; die zum Scraping verwendete Syntax ist dabei jedes Mal fast identisch. Noodle lässt sich dabei als Web Service oder als Node-Modul verwenden. Näheres erfahrt Ihr in der Referenz. Überdies wird noodle unter BSD-Lizenz open source auf GitHub bereitgestellt.

Cheerio ist ebenfalls eine npm-Bibliothek. Diese konstruiert Browser-unabhängig ein DOM aus einem definierten Bereich HTML und führt CSS-Querys in jQuery-Manier darauf durch. Anhand der CSS-Selektoren könnt Ihr so gezielt bestimmte Bereiche von HTML-Inhalten abschöpfen und sammeln. Der Web-Entwickler und selbsternannte HTML5-Experte John Robinson hat zum Web Scraping mit cheerio ein kleines Tutorial veröffentlicht, dass Euch sicherlich den Start erleichtert. Unabhängig davon wird cheerio von Matt Mueller unter MIT-Lizenz auf GitHub angeboten.

Aufmacherbild: tools of the gold washer von Shutterstock / Urheberrecht: Gilles Paire

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -