Einführung in das Data Mining und grundlegende Techniken

Verborgene Schätze heben
Kommentare

Das Informationszeitalter ist von einer umfänglichen Datenverfügbarkeit gekennzeichnet. Gelegentlich spricht man auch von der „Informationsarmut im Datenüberfluss“. Neben bekannten statistischen Methoden der Datenauswertung kommen auch vermehrt moderne Algorithmen der Datenanalyse zum Einsatz. Dieses als Data Mining bezeichnete Vorgehen ist eine Form des maschinellen Lernens. Wir zeigen, was es damit auf sich hat.



Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind. Beim Data Mining kommen u. a. integrierte Methoden der künstlichen Intelligenz und der Statistik zum Einsatz. Das Data Mining erstreckt sich nicht nur auf die Prüfung manuell aufgestellter, sondern auch auf die Generierung neuer Hypothesen. Data Mining ist in einem umfassenden Prozess, dem so genannten Knowledge Discovery in Databases (KDD), eingeordnet (Abb. 1). KDD ist ein mehrstufiger Vorgang der Wissensgenerierung aus Daten. Unter KDD wird oft ein nichttrivialer Prozess verstanden, welcher zur Identifikation gültiger, neuartiger, potenziell nützlicher und verständlicher Muster in Daten dient. Nichttrivial bedeutet, dass der Vorgang nicht nur der Zusammenfassung von Daten dient, sondern vielmehr auch in der Lage ist, Abhängigkeiten und Beziehungen zwischen den Daten festzustellen. Die gefundenen Muster bzw. die daraus gewonnenen Erkenntnisse können im Idealfall verallgemeinert und auf andere Datensammlungen übertragen werden. Im Erfolgsfall wird also neues – bisher in dieser Form nicht bekanntes – Wissen erzeugt.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -