Verborgene Schätze heben

Data Mining: typische Verfahren und Praxisbeispiele
Kommentare

Das Informationszeitalter ist von einer umfänglichen Datenverfügbarkeit gekennzeichnet. Gelegentlich spricht man auch von der „Informationsarmut im Datenüberfluss“. Neben bekannten statistischen Methoden der Datenauswertung kommen auch vermehrt moderne Algorithmen der Datenanalyse zum Einsatz. Dieses als Data Mining bezeichnete Vorgehen ist eine Form des maschinellen Lernens. Wir zeigen, was es damit auf sich hat.

Die Zielsetzung besteht darin, solche Zusammenhänge in den Daten aufzuspüren, die für den Entscheidungsträger interessant und nützlich sind. Beim Data Mining kommen u. a. integrierte Methoden der künstlichen Intelligenz und der Statistik zum Einsatz. Das Data Mining erstreckt sich nicht nur auf die Prüfung manuell aufgestellter, sondern auch auf die Generierung neuer Hypothesen. Data Mining ist in einem umfassenden Prozess, dem so genannten Knowledge Discovery in Databases (KDD), eingeordnet (Abb. 1). KDD ist ein mehrstufiger Vorgang der Wissensgenerierung aus Daten. Unter KDD wird oft ein nichttrivialer Prozess verstanden, welcher zur Identifikation gültiger, neuartiger, potenziell nützlicher und verständlicher Muster in Daten dient. Nichttrivial bedeutet, dass der Vorgang nicht nur der Zusammenfassung von Daten dient, sondern vielmehr auch in der Lage ist, Abhängigkeiten und Beziehungen zwischen den Daten festzustellen. Die gefundenen Muster bzw. die daraus gewonnenen Erkenntnisse können im Idealfall verallgemeinert und auf andere Datensammlungen übertragen werden. Im Erfolgsfall wird also neues – bisher in dieser Form nicht bekanntes – Wissen erzeugt.

Abb. 1: Übersicht über die einzelnen Stufen des KDD-Prozesses

Zu Beginn des KDD-Prozesses findet eine Selektion der relevanten Daten statt. Eventuell müssen diese vorher aufbereitet werden. Falls die Daten aus verschiedenen Quellen stammen, ist die Integration zu einem Gesamtdatensatz sinnvoll. Danach ist eine Bereinigung der gesammelten Daten notwendig. Im nächsten Schritt erfolgt eine Transformation der Daten durch Datenreduktion und Datenprojektion. Aufgabe des Data-Mining-Vorgangs ist es, mithilfe bestimmter Algorithmen Muster zu erkennen bzw. diese zu bilden. Erst die Interpretation dieser Muster im Kontext des vorliegenden Sachverhaltes kann zu neuen Erkenntnissen und damit zu neuem Wissen führen. Die grundsätzliche Idee besteht also darin, dass beiher nicht alle möglichen Informationen aus den vorliegenden Daten „herausgezogen“ sind. Also dass gewissermaßen verstecktes Wissen vorhanden ist, welches es nur zu „heben“ gilt. Was man unter Wissen versteht, ist im Kasten „Was ist Wissen“ beschrieben

Was ist Wissen

Wissen wird heute als die wichtigste Ressource in den Prozessen von Unternehmen und Organisationen aufgefasst. Eine besondere Eigenschaft ist, dass sich Wissen durch dessen Verwendung nicht verbraucht, sondern im Gegensatz dazu vermehrt. Durch die Anwendung von Wissen zur Lösung einer bestimmten Problemstellung entstehen neue Erfahrungen, die zur Erweiterung des Wissens führen. Eine eindeutige Definition des Terminus Wissen ist nicht verfügbar. Dennoch ist eine Einordnung in den Kontext aus Zeichen, Daten, Informationen und Wissen möglich:

Zeichen: Hierbei handelt es sich lediglich um die einzelnen Zeichen, zum Beispiel in alphanumerischer Syntax. Die Bedeutung oder Reihenfolge der einzelnen Zeichen spielt an dieser Stelle noch keine Rolle. Die Folge aus „EFAB63“ sind lediglich 6 alphanumerische Zeichen, ohne weiteren Bedeutungszusammenhang.
Daten: Werden die Zeichen in eine bestimmte Reihenfolge bzw. Syntax gebracht, so handelt es sich um Daten bzw. um einen Datensatz. Eben genannte Zeichenkette könnte syntaktisch für ein zulässiges Kfz-Kennzeichnen (EF AB 63) stehen.
Information: Daten, welche vor dem Hintergrund eines bestimmten Kontexts interpretiert werden, stellen Informationen dar. Informationen dienen dazu einen Sachverhalt zu bewerten oder eine Entscheidung zu treffen. Diese Bewertung bzw. Entscheidung beruht jeweils auf den Erfahrungshintergrund der jeweiligen Person.
Wissen: Informationen, die verarbeitet werden und zum Verständnis eines bestimmten Sachverhaltes führen, werden als Wissen bezeichnet. Von besonderer Bedeutung ist die Abstraktion vom Einzelfall. Ziel ist es zu allgemeingültigen Aussagen zu gelangen.

Arten von Wissen

Das vorhandene Wissen kann in implizites und explizites Wissen eingeteilt werden. Implizites Wissen ist „in den Köpfen“ einzelner Personen vorhanden. Es stellt die Basis für das Handeln von Personen dar. Ebenso spiegelt es sich in Idealen, Werten und Gefühlen wieder. Es ist schwer formalisierbar, kommunizierbar und teilbar. Damit ist es auch schwer in anderer Form (zum Beispiel innerhalb von Wissensdatenbanken) zur Verfügung zu stellen. Explizites Wissen ist dagegen in Medien gespeichert. Dieses kann daher mittels Datenverarbeitung übertragen und gespeichert werden. Auf anderer Ebene wird zwischen privaten und kollektiven Wissen unterschieden. Privates Wissen befindet sich nur im Zugriff von einer von wenigen Personen. Auf kollektives Wissen haben mehrere Personen zur gleichen Zeit Zugriff.

Wissensträger

Als Wissensträger bezeichnet man Objekte, Personen oder Systeme, die in der Lage sind, Wissen zu speichern oder darzustellen. Diese Wissensspeicher dienen nicht nur der Verwaltung des aktuell vorhanden Wissens, sondern auch zur aktiven Weiterentwicklung des Wissens:

Dokumentationen: Dienen der Beschreibung von Sachverhalten und Abläufen. Dokumentationen können beispielsweise Organisationshandbücher oder Beschreibungen zu Systemen sein.
Daten-, Methoden- und Modelldatenbanken: Können unterschiedliche Arten von Daten beinhalten. Klassische Datenbanken enthalten Datensätze eines Typs und haben neben den operativen Aufgaben bei entsprechender Langfristigkeit auch eine Wissenskomponente, in dem sie zeitliche Entwicklungen abbilden. Methodendatenbanken umfassen Sammlungen von Methoden. Auf diese Informationen kann bei der Auswahl von Verfahren zurückgegriffen werden. Modelldatenbanken beinhalten Modelle für bestimmte Fragestellungen. Sie stellen eine Verbindung zwischen den Daten und Methoden her.
Expertensysteme: Es handelt sich um wissensbasierte Softwaresysteme, bei denen das Fachwissen zu einem bestimmten Bereich explizit abgebildet wird.
Experten: Sind Personen, die über ein hohes Spezialwissen zu einem bestimmten Fachgebiet verfügen. Sie können ihr Wissen auf neue Situationen und Sachverhalte anwenden. Experten sind in der Lage – im Gegensatz zu technischen Systemen – das vorhandene Wissen weiterzuentwickeln.
Unternehmenskultur: Die Unternehmenskultur umfasst die Werte, Normen und die Kultur, welche die Unternehmung maßgeblich prägen. Sie wird durch die Geschichte des Unternehmens und seiner Umwelt beeinflusst. Das organisatorische Gedächtnis stellt das Wissen einer Unternehmung als Ganzes dar.

Historische Entwicklung

Die Ideen der Wissensgewinnung durch eine spezialisierte Auswertung von Massendaten sind nicht neu. Wichtige Meilensteine der Entwicklung aus historischer Perspektive sind in Tabelle 1 zusammengefasst.

Entwicklungsschritt Fragestellung (Beispiel) Etablierte Technologie Anbieter Merkmale
Data Collection (ab 1960) Wie hoch waren die Einkünfte in den letzten 5 Jahren? Computer und Disketten IBM statische Bereitstellung von Informationen
Data Access (ab 1980) Wie war die Absatzentwicklung in den letzten 5 Jahren? Relationale Datenbanken (RDBMS), Structured Query Language (SQL), ODBC Oracle, Sybase, Informix, IBM, Microsoft dynamische Bereitstellung von Informationen
Data Warehousing & Decision Support (ab 1990) Was waren die Absätze in New England im März? (Detailansicht auf eine Region) Online analytical processing (OLAP), multidimensionale Datenbanken, Data Warehouse Pilot, Com- share, Arbor, Cognos, Micro strategy dynamische Bereitstellung von Informationen
Data Mining (heute) Wie ist die Entwicklung der Stückzahlen in der Region und warum ist diese Entwicklung so? Erweiterte Algorithmen, Mehrkernrechner Pilot, Lockheed, IBM, SGI, verschiedene Start-up-Unternehmen proaktive Bereitstellung von Informationen

Tabelle 1: Schritte der Entwicklung des Data Mining, eigene Darstellung nach Fayyad

Basisalgorithmen des Data Mining

In der Fachliteratur wird eine Vielzahl von Algorithmen genannt, welche den Zielen des Data Mining dienen. Die Auswahl der in den folgenden Abschnitten vorgestellten Basisalgorithmen dient dabei primär dazu, einen Überblick über gebräuchliche Verfahrensansätze zu geben. Steht man in der praktischen Anwendung vor einer bestimmten Problemstellung, so ist es unumgänglich sich mit weiteren Verfahren vertraut zu machen. Tabelle 2 beschreibt für einige typische Aufgaben des Data Mining geeignete Methoden und nennt dazu treffende Beispiele.

Klasse Aufgabe Anwendung Methodenbeispiele
Klassifikation Zuordnung von Individuen zu bereits bekannten Klassen Bonitätsbeurteilung
  • Regelinduktion
  • Neuronale Netze
  • Neuronale Netze
  • Regression
Vorhersage Berechnung von zukünftigen Werten aus unabhängigen Variablen Bonitätsbeurteilung
  • Neuronale Netze
  • Regression
Clustering Bildung von Gruppen aufgrund von Ähnlichkeiten Werbeadressanten einteilen
  • Neuronale Netze
  • Clusteranalyse
Assoziation Entdeckung und Quantifizierung von Abhängigkeiten Marktkorbanalyse
  • Statistische Zusammenhangsanalyse
Text Mining Suche nach Textmuster Information Retrieval
  • Suchalgorithmen

Tabelle 2: Typische Aufgaben und Methoden des Data Mining

Aufmacherbild: Abstract style illustration depicting printed circuit board components with a data mining concept. von Shutterstock / Urheberrecht: Sam72

[ header = Seite 2: Ausreißerkennung ]

Ausreißerkennung

Ausreißer sind extreme Werte, die deutlich isoliert von den restlichen Daten des Datenraums liegen. Diese können die Ergebnisse von Datenanalysen in ungültiger Weise verzerren. Ausreißer sollten erkannt werden. Es ist festzulegen, wie damit umzugehen ist, zum Beispiel der Ausschluss aus den statistischen Bewertungsverfahren. Ausreißer sind meist keine falsch erfassten Daten, sondern liegen außerhalb des üblichen Wertebereiches. Ihre Erkennung ist nicht einfach und es gibt keine klaren Regeln zu deren Identifikation. Ursachen für das Auftreten von Ausreißer sind:

1. Verfahrenstechnische Gründe: Zum Beispiel durch Fehler bei der Dateneingabe (statt „14“ wird „140“ eingeben), Fehler bei der Kodierung oder Fehler, die durch einen technischen Ausfall bedingt sind.
2. Ausreißer können einen gewöhnlichen Wert kennzeichnen, der inhaltlich zu erklären ist.
3. Ausreißer können einen ungewöhnlichen Wert kennzeichnen, der inhaltlich nicht erklärt werden kann.

Ein Beispiel für den fehlerhaften Umgang mit Ausreißern ist das Erkennen des Ozonlochs über der Antarktis. Die Schwierigkeiten der richtigen Interpretation führten dazu, dass das Ozonloch jahrelang nicht entdeckt wurde. Die Software zur Messung des Ozonwertes entfernte die zugehören Werte als Ausreißer automatisch. Ausreißer sind durch folgende Merkmale gekennzeichnet (Kombinationen sind möglich):

• Ausreißer können univariat und multivariat auftreten.
• Ausreißer können qualitativ und quantitativ auffallen.
• Ausreißer treten bei einem Fall oder in bestimmten Gruppierungen auf.
• Ausreißer können vereinzelt oder massiv auftreten.
• Ausreißer können Stichprobengröße haben.
• Ausreißer können unterschiedlich Ursachen haben.

Clusteranalyse

Verfahren der Clusteranalyse gewinnen in der Forschungspraxis zunehmend an Bedeutung. Sie werden in zahlreichen Wissenschaftsdisziplinen zur Lösung von Klassifikationsaufgaben eingesetzt. In den Sozial- und Wirtschaftswissenschaften beispielsweise zur Identifizierung von Marktsegmenten. Die Clusteranalyse ist ein algorithmisches Verfahren zur objektiven Klassifikation von Objekten, die durch Merkmale beschrieben werden. Dabei werden ähnliche Objekte in gleiche und unähnliche Objekte in verschiedene Klassen eingeteilt. Das Ziel der Analyse von Daten und deren Zuordnung ist es, dass die Objekte innerhalb eines Clusters möglichst ähnlich (homogen) sind. Die Cluster selbst sollen untereinander möglichst unterschiedlich (heterogen) sein. Grundsätzlich unterscheidet man folgende Verfahren der Clusteranalyse:

Partitionierungsmethoden: Die Anzahl der Cluster (Partitionen) ist vorgegeben. In mehreren Runden werden die Objekte jeweils dem nächsten Cluster zugeordnet, das durch seinen Mittelwert bzw. einem mittleren Objekt repräsentiert ist.
Hierarchische Methoden: Schrittweise Aggregation (bottom-up) oder Aufteilung (top-down) der Objekte in Gruppen.
Dichtebasierte Methoden: Cluster wachsen, solange die Dichte von Objekten in ihrer Nachbarschaft einen Schwellwert überschreitet.
Gitterbasierte Methoden: Aufteilung der Objekte in ein vorgegebenes Raster mit Zellen, auf denen alle Operationen basieren.
Modellbasierte Methoden: Basierend auf vorgegebenen Modellannahmen wird die beste Clusterzerlegung gesucht, die dem Modell entspricht.

Der Ablauf einer Clusteranalyse ist durch folgende grundlegende Schritte gekennzeichnet (Abb. 2).

1. Bestimmung der Ähnlichkeit: Durch Prüfung der Merkmalsausprägung für je zwei Objekte und Messung der Unterschiede/Übereinstimmungen mithilfe eines Zahlenwertes (Proximitätsmaß).
2. Auswahl des Fusionierungsalgorithmus: Ziel ist es die Objekte aufgrund ihrer Ähnlichkeitswerte zu Gruppen zusammenzufassen.
3. Bestimmung der Clusterzahl.
4. Interpretation der Cluster und Überprüfen der Güte.Abb. 2: Ablauf einer Clusteranalyse

Die Clusteranalyse wird in der Biologie, Medizin, Technik, Informatik, Linguistik, im Bibliothekswesen, in der Soziologie, Psychologie und Ökonomie (insbesondere im Marketing) angewendet. Im Bereich des Marketings unterstützt die Clusteranalyse bei der so genannten Marktsegmentierung. Hier ist es das Ziel einen heterogenen Gesamtmarkt in homogene Segmente (anhand bestimmter Merkmale) zu unterteilen. Mithilfe der Clusteranalyse versucht man die Käufer mit ähnlichen Charakteristika (Interessen, Kaufverhalten usw.) in Gruppen/Clusters zu unterteilen und die Angebotsstrukturen des Marktes dementsprechend auszurichten.

Klassifikation

Klassifizierung ist eine Technik um die Zugehörigkeit von Daten vorherzusagen. Es werden unterschiedliche Algorithmen im Rahmen dieser Methode einsetzt. Ziel ist es, die Objekte auf Grund von individuellen Merkmalskombinationen in vorgegebenen Klassen einzutragen. Die minimale Anzahl von Klassen beträgt zwei. Im Laufe des Klassifikationsprozesses werden die Klasseneigenschaften mit Objektmerkmalen vergleichen. Die Funktion, die Objekte den jeweiligen Klassen zuzuordnen, wird durch den so genannten Klassifikator übernommen. Abbildung 3 zeigt den Klassifikationsprozess. Die wichtigsten Ansätze der Klassifikation sind: Entscheidungsbäume, Bayes-Klassifikation, Neuronale Netze und das K-nächste-Nachbarn-Verfahren.

Abb. 3: Der Klassifikationsprozess im Überblick

Regressionsanalyse

Die Regressionsanalyse wird für die Schätzung der Parameter der funktionalen Beziehungen zwischen Variablen angewendet. Es wird üblicherweise eine Kausalrichtung postuliert, sodass der Einfluss der Regressoren auf die zu erklärende Variable geschätzt wird. Ziel dieser Analyse ist es, die Beziehungen zwischen abhängigen und unabhängigen Variablen festzustellen. Meistens wird eine Regressionsanalyse bei Prognosen und Vorhersagen eingesetzt. Sie beruht auf den Konzepten der Varianz und Kovarianz. Es wird zwischen linearer und logischer Regression unterschieden. Bei linearer Einfachregression wird angenommen, dass ein linearer Zusammenhang zwischen den beobachteten Variablen besteht (eine Wirkung von X auf Y). Der beobachtete Zusammenhang ist nicht ideal d. h. es gibt weitere Einflussfaktoren. Meistens übernimmt die lineare Regressionsanalyse die Aufgabe einer Identifikationsstrategie. Bei einer nicht linearen Regression besteht ein nicht linearer struktureller Zusammenhang zwischen abhängigen und erklärenden Variablen. Die bekanntesten zur Auswahl stehenden Regressoren sind Forward Selection, Backward Selection und Stepwise Selection. Die wichtigsten Kennzahlen zur Beurteilung von Regressionsanalyse lauten:

Das Bestimmtheitsmaß: Der Anteil der durch die Regression erklärt Varianz zu den erklärenden Variablen.
F-Werte: Hiermit wird die Signifikanz der Regression beurteilt.
t-Werte: Hiermit wird die Signifikanz der einzelnen erklärenden Variable auf die einzelne erklärte Variable beurteilt.

[ header = Seite 3: Einsatzmöglichkeiten von Data Mining ]

Einsatzmöglichkeiten von Data Mining

Data Mining wird bereits bei Banken, Kreditinstituten, Versicherungen usw. genutzt. Diese Verfahren sind beispielsweise ausgerichtet auf eine effektive Entdeckung von potenziellen Kunden, auf eine Verhinderung von Kundenabwanderung und eine Vorhersage von Marktentwicklungen. In der Medizin wird Data Mining bei der Durchführung von automatisierter Diagnostik, der Genexpressionsanalyse und der Analyse dynamischer Prozesse in lebenden Zellen verwendet. Weitere bedeutende Anwendungsgebiete sind:

• Customer Relation Management (CRM)
• Text Mining
• Web Mining

CRM umfasst alle Maßnahmen, um mit Kunden zu kommunizieren und sie langfristig an das Unternehmen zu binden. Um auf dem Markt erfolgreich zu sein, muss man wissen, welche Produkte an welche Kunden zu verkaufen sind. Ziel ist es, Kundenverhalten und Kundewünsche zu identifizieren und entsprechende Geschäftsstrategien zu entwickeln. In der Datenbank lassen sich alle Informationen speichern, die bei einem Kundenkontakt hilfreich sind, z. B. Angaben über aktuelle Verkäufe, um einen möglichen weiteren Bedarf abzuleiten (Cross-Selling). Data Mining ist geeignet, um die relevanten Informationen zu extrahieren. Zu jedem Kunden sind die Kaufhistorie und die persönlichen Merkmale vorhanden. Alle Kunden werden in Klassen unterteilt, beispielsweise in aktive und nicht mehr aktive Kunden. Aus diesen Daten wird ein Vorhersagemodell erstellt, um die Abwanderung eines Kunden zu prognostizieren. Data Mining hilft die Abwanderungsrate von Kunden (Churn Rate) zu reduzieren, denn es ist deutlich teurer einen neuen Kunden zu gewinnen, als einen existierenden Kunden zu halten.

Beim Text Mining geht darum, aus der wachsenden Menge von vorliegenden Dokumenten neue und interessierende Informationen zu gewinnen und daraus ggf. neues Schlussfolgerungen (Wissen, s.o.) abzuleiten. Dazu kommen verschiedene Verfahren, wie automatisches Zusammenfassen von Dokumenten und Clustering, zum Einsatz. Dieser Ansatz beruht u. a. auch dem Umstand, dass ein Großteil der Informationen in unstrukturierten Dokumenten, wie z. B. E-Mails vorhanden ist, welche ansonsten kaum einer Nutzung zugänglich gemacht werden. Ein Beispiel ist das Gewinnen von Informationen über Kunden (Kundenprofile) aus der Gesamtheit der vorliegenden Dokumente und dem geführten Schriftverkehr.

Web Mining hat die Aufgabe die Dokumente des Web (Inhaltsseiten und Zugriffsdaten) auszuwerten und aus dieses Daten ergänzende Informationen zu gewinnen. Zielstellung ist es, eine bessere Kundenansprache – beispielsweise für treffgenaue Produktangebote – zu erreichen. Um dieses zu erreichen, müssen die Algorithmen u. a. Informationen zu Herkunft des Besuchers und zur Häufigkeit des Seitenaufrufs im Zusammenhang mit dem Inhalt der Seite analysieren und auswerten. Das Web-Mining wird in unterschiedliche Bereiche differenziert. Dazu gehören:

Content Mining: Beim Content Mining werden zum einen Webseiten gesucht, welche Informationen zu einem bestimmten Thema enthalten. Dabei werden die Webseiten als Dokumente und das gesamte Web als Datenbank aufgefasst. Zum anderem kann es auch darum gehen, Dokumente nach bestimmten Informationen zu durchsuchen und somit eine Frage zu beantworten.
Structure Mining: Beim Structure Mining geht es ausschließlich um die Struktur einer Webseite, die durch Hyperlinks definiert wird. Die Beziehungen zwischen den Dokumenten kann als gerichteter Graph oder Netzwerk interpretiert werden. Die zugehörigen Algorithmen basieren auf einer Analyse der Graphen. Auf dieser Technik beruht das bekannt Page-Ranking von Suchmaschinen. Das Ziel ist es, die Topologie des Webs bzw. eines Ausschnitts davon zu berechnen, die Links mit inhaltlichen Informationen anzureichern und Qualitäts- und Relevanzberechnungen durchzuführen.
Usage Mining: Betrachtet wird die Nutzung des Webs. Dabei wird analysiert in welcher Reihenfolge die Seiten aufgerufen werden und wie sich die Nutzer durch ein Webangebot navigieren. Die für die Analyse notwendigen Daten werden in den Log-Dateien auf den Webservern gespeichert. Auch diese Beziehungen können als Graph visualisiert werden. Mithilfe der Erkenntnisse des Usage Mining wollen Anbieter die Struktur ihrer Webseiten verbessern und an die (individuellen) Bedürfnisse der Nutzer anpassen. Angewendet wird dieses z. B. bei E-Commerce-Webseiten.

Data Mining und SQL Server

Moderne Datenbankmanagementsysteme (DBMS) bieten mehr als eine bloße Datenverwaltung. In den DBMS sind zunehmend Funktionen für eine Analyse der Daten integriert. So beinhaltet die aktuelle Version von Microsoft SQL Server 2012 verschiedene Algorithmen aus dem Bereich des Data Mining. Im msdn-Webportal können vielfältige Informationen zum Thema nachgelesen werden. Der Vorteil dieses Angebotes ist es, das bereits typische Algorithmen implementiert sind und man sich über dessen Funktionalitäten keine Gedanken machen muss. Tabelle 3 zeigt, welche Algorithmen für typische Fragestellungen bzw. Anwendungen zum Einsatz kommen können.

Aufgaben Algorithmen
  • Vorhersagen eines diskreten Attributs
  • Kennzeichnen von Kunden in einer Liste potenzieller Käufer als Kunden mit wahrscheinlicher oder unwahrscheinlicher Kaufabsicht.
  • Berechnen der Wahrscheinlichkeit, dass ein Server innerhalb der nächsten sechs Monate ausfällt.
  • Kategorisieren von Therapieergebnissen und Untersuchen verwandter Faktoren.
  • Microsoft-Decision-Trees-Algorithmus
  • Microsoft-Naive-Bayes-Algorithmus
  • Microsoft-Clustering-Algorithmus
  • Microsoft-Neural-Network-Algorithmus
  • Vorhersagen eines kontinuierlichen Attributs
  • Vorhersagen des Verkaufstrends für das nächste Jahr.
  • Vorhersagen von Websitebesuchern anhand historischer und saisonaler Trends.
  • Generieren einer Risikobewertung anhand demografischer Daten.
  • Microsoft-Decision-Trees-Algorithmus
  • Microsoft-Time-Series-Algorithmus
  • Microsoft-Linear-Regression-Algorithmus
  • Vorhersagen einer Sequenz
  • Ausführen einer Clickstream-Analyse für eine Unternehmenswebsite.
  • Analysieren der Faktoren, die zu einem Serverausfall führen.
  • Aufzeichnen und Analysieren von Arbeitsabläufen während ambulanter Arztbesuche, um Best Practices für allgemeine Abläufe aufzustellen.
  • Microsoft-Sequence-Clustering-Algorithmus
  • Suchen von Gruppen aus allgemeinen Elementen in Transaktionen
  • Bestimmen der Produktplatzierung mithilfe der Warenkorbanalyse.
  • Vorschlagen zusätzlicher Produktkäufe für einen Kunden.
  • Analysieren einer Besucherumfrage zu einer Veranstaltung, um festzustellen, welche Aktivitäten oder Stände eine Korrelation aufweisen, und zukünftige Aktivitäten zu planen.
  • Microsoft-Association-Algorithmus
  • Microsoft-Decision-Trees-Algorithmus
  • Suchen von Gruppen mit ähnlichen Elementen
  • Gruppieren von Patientenrisikoprofilen auf der Grundlage von Attributen wie demografischen oder Verhaltensdaten.
  • Analysieren von Benutzern anhand von Browsing- und Kaufmustern.
  • Identifizieren von Servern mit ähnlichen Verwendungsmerkmalen.
  • Microsoft-Clustering-Algorithmus
  • Microsoft-Sequence-Clustering-Algorithmus

Tabelle 3: Aufgaben und Algorithmen zur Problemlösung in Microsoft SQL Server 2012

Darüber hinaus ist man nicht auf diese Algorithmen beschränkt. Es besteht die Möglichkeit, über eine Plug-in-Schnittstelle weitere Algorithmen (die zum Beispiel durch Drittanbieter bereitgestellt werden) einzubinden und dann zur Datenauswertung direkt über den Microsoft SQL Server 2012 zu nutzen.

Data Mining und andere Microsoft-Technologien

Die Anwendung der Konzepte des Data Mining ist nicht auf den Microsoft SQL Server 2012 beschränkt. Mithilfe eines Add-ins kann die Technologie u. a. auch für Excel und Visio bereitgestellt werden. Im Einzelnen umfasst dieses:

• Tabellenanalysetools für Excel: Es können entweder Tabellendaten oder externe Daten ausgewertet werden.
• Data-Mining-Client für Excel: Dient der Erstellung von Data-Mining-Modellen.
• Data-Mining-Vorlagen für Visio: Es können Mining-Modelle als Visio-Zeichnungen erstellt werden. Diese können dann in Visio bearbeitet und ergänzt werden.

Data Mining und Softwareentwicklung

Softwareentwickler kommen ggf. noch auf eine andere Art und Weise mit Data-Mining-Konzepten in Berührung. Bietet das DBMS keine direkte Unterstützung für derartige Analysen an, kann diese Funktionalität auch über Komponenten von Drittanbietern in die eigene Software integriert werden. Die Palette der angebotenen Komponenten ist umfangreich und reicht von einfachen Auswertungsverfahren bis hin zu komplexen Datenanalysen. Gelegentlich sind auch die o. g. Methoden für Data Mining eingebaut. Die Komponenten werden für die unterschiedlichsten Entwicklungssysteme und Technologien (.NET, Delphi,…) angeboten. Die Empfehlung lautet daher: Bevor man sich mit der vollständigen Eigenentwicklung eines Data-Mining-Algorithmus „abmüht“ – dafür sind bekanntermaßen gute Kenntnisse in der Programmierung von Algorithmen und in der Statistik notwendig – ist zu prüfen, ob nicht eine fertige Komponente für den Einbau in die eigene Software zur Verfügung steht.

Einmal selber probieren?!

Jetzt haben Sie einen ersten Eindruck von den Möglichkeiten des Data Mining erhalten. Sollte jetzt der Wusch bestehen, eine erste eigene Auswertung anhand eines (fiktiven) Beispiels vorzunehmen, so können wir einen Tipp geben. Von Easy Data Mining kann ein leistungsfähiges Programm (Data.Mining.Fox) zur Durchführung von Data-Mining-Analysen heruntergeladen werden. Neben einer ausführlichen Dokumentation der auf den Betriebssystemen Windows, Linux und Mac OS lauffähigen Software, steht auch eine Vielzahl an Beispielen mit umfangreichen Testdatensätzen aus den unterschiedlichsten Anwendungsbereichen zur Verfügung. Ein Beispiel stellt der Kasten „Kreditwürdigkeitsanalyse als Anwendung des Data Mining“ kurz vor.

Kreditwürdigkeitsanalyse als Anwendung des Data Mining

Bei Banken tritt unter anderem die Fragestellung auf, wie aus historischen Kundendaten die Kreditwürdigkeit von neuen Kunden vorhergesagt werden kann. Die Kreditwürdigkeit beeinflusst auch den Zinssatz, zu dem ein Kredit an einen Kunden vergeben wird. Eine Bank hat Daten über die Kunden, an welche sie in der Vergangenheit Kredite vergab. Die Kundendaten beinhalten das Kundenverhalten bezüglich der Kontoführung, persönliche Merkmale des Kunden und andere Daten, die seine finanzielle Situation zum Zeitpunkt der Kreditvergabe beschreiben. Die Kunden werden in vier Klassen unterteilt. Die erste Klasse enthält all jene Kunden, die ihren Kredit absolut ohne Probleme zurückzahlten; die zweite Klasse diejenigen, die ab und an nur mit Problemen zurückzahlten; die dritte enthält jene, Kunden welchen man nur noch nach genauester Prüfung einen Kredit gewähren sollte, da hier substanzielle Probleme bei der Rückzahlung auftraten; und die vierte Klasse diejenigen, die den Kredit nicht zurückbezahlt hatten. Auf der Basis dieser Kundentabelle wird ein Vorhersagemodell erstellt, um die Wahrscheinlichkeit für die einzelnen Klassen bei neuen Kunden vorherzusagen. Die Kombinationen von Merkmalen/Attributen, die dafür verantwortlich sind, dass Kunden einen Kredit mit hoher Wahrscheinlichkeit nicht zurückzahlen, werden ebenfalls durch das Vorhersagemodell identifiziert. Nach der Durchführung der Analyse in Data.Mining.Fox (die Schritte sind ebenfalls auf der Webseite erklärt) erhält man u. a. die Aussagen, die in Abbildung 4 wiedergegeben sind. So kann u. a. abgelesen werden, dass der Status der beantragenden Person, das bisherige Rückzahlungsverhalten und das Gehalt einen großen Einfluss auf die Kreditwürdigkeit einer Person haben. Diese Informationen wurden aus den vorliegenden Datensätzen generiert, welche beispielsweise aus der Historie stammen. In der Zukunft kann man dann zum Beispiel für einen neuen Kunden anhand seiner Merkmalsausprägungen die Zugehörigkeit zu einer Klasse bestimmen und damit die Kreditwürdigkeit festlegen.

Fazit

Dieser Artikel hat sich mit dem Thema Data Mining beschäftigt, eine theoretische Einordung vorgenommen und ein paar typische Verfahren vorgestellt. Darüber hinaus wurden einige Praxisbeispiele erläutert. Data Mining und verwandte Verfahren werden in der Zukunft weiter an Bedeutung erlangen, da die Menge der (gespeicherten) Daten weiter zunimmt. Der Abschnitt über die Generierung von Wissen hat deutlich gemacht, wie aus den Daten letztendlich verwertbares (neues) Wissen werden kann. Dieses ist eine klassische Aufgabe der Wirtschaftsinformatik, an der Schnittstelle zwischen IT, betrieblicher Informationsbereitstellung und Entscheidungsvorbereitung. Wie dargestellt sind Standardalgorithmen des Data Mining bereits in den etablierten und dafür relevanten Datenbankmanagementsystemen, wie Microsoft SQL Server 2012, integriert. Erweiterungen – in Form von spezialisierten Verfahren – können über definierte Plug-in-Schnittstellen relativ problemlos hinzugefügt werden. Softwareentwickler werden in der Zukunft immer dann mit solchen Konzepten in Berührung kommen, wenn es nicht nur Aufgabe ist, umfangreiche Datenbestände möglichst schnell zur Verfügung zu stellen und die relevanten Daten-Tupel zu extrahieren, sondern darüber hinaus auch Hilfestellung für die Beantwortung von spezifischen Fragen zu leisten. Mit klassischen Auswertungs- und Analyseverfahren kommt man in diesen Fällen nicht immer zum Ziel. Erste Komponenten für die Verwendung in der eigenen Anwendung stehen bereit und entlasten den Programmierer bei der Arbeit mit den nicht trivialen Algorithmen. Grundkenntnisse in der Funktionsweise sind jedoch unabdingbar, einen ersten Einstieg wollte dieser Beitrag liefern.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -