Masanori Fujita docoyo

Der Vorteil einer linearen Regression ist ihre Robustheit und die Tatsache, dass die linearen Zusammenhänge gut auch vom Menschen zu verstehen sind.

Nicolaj Kirchhof docoyo

Die Lineare Regression ist ein sehr einfaches Verfahren und nur der Einstieg in den Methodenkoffer, den Data Analytics bietet.

Erst kürzlich schlug die gezielte Werbekampagne von Donald Trump größere Wellen, weil seine Wähleransprache durch Data-Analytics-Modelle genau auf die entsprechenden Zielgruppen zugeschnitten war.

Der Wunsch, aus Daten Erkenntnisse für unternehmerische Entscheidungen zu gewinnen, ist alt. Seit den 90ern bringen Unternehmen unter dem Stichwort „Business Intelligence“ ihre Daten in Data Warehouses zusammen und führen Analysen mit speziellen Tools durch. Was sich seitdem stark geändert hat und „Data Analytics“ als neue Herangehensweise rechtfertigt, sind vor allem zwei Dinge: Dank des technischen Fortschritts stehen heute wesentlich mehr Speicherkapazität und Rechenleistung zur Verfügung. Auch verursacht die Vernetzung immer niedrigere Kosten, sodass es schon fast zum Normalfall geworden ist, dass Dinge nicht nur Daten vor Ort produzieren, sondern diese Daten auch bei einer Zentrale abgeliefert, gespeichert und verarbeitet werden. Mit herkömmlichen ETL-Ansätzen ist es schwierig, Herr über die immer weiter wachsenden Datenmengen zu werden und flexibel auf die sich ständig verändernden wirtschaftlichen Fragestellungen einzugehen. So kommen heute Big-Data-Technologien und Machine-Learning-Verfahren für die Datenanalyse zum Einsatz.

Data-Analytics-Anwendungen, die in den letzten Jahren vor allem durch den Einsatz von Deep Learning einen gewaltigen Schritt nach vorn gemacht haben, finden sich vor allem bei den großen Firmen wie Google, Facebook und Apple. Sie beinhalten immer intelligentere Assistenten wie Siri und Ok Google, die über Spracheingabe steuerbar sind, oder auch die Fähigkeit von Programmen, Personen und Inhalt von Fotos zu erkennen und beschreiben zu können.

Artikelserie

  • Teil 1: Data Analytics in der Praxis – Regressionsanalyse
  • Teil 2: Klassifikation
  • Teil 3: Cluster-Analyse
  • Teil 4: Anomalieerkennung

Unter dem Begriff „Machine Learning“ werden alle algorithmische Verfahren zusammengefasst, die in der Lage sind, Zusammenhänge der Realität zu „lernen“, ohne dass diese dem Entwickler vorab bekannt sein müssen. Es ist verständlich, dass dieses Versprechen einen hohen Reiz auf Betriebswirte wie auch Softwareentwickler ausübt. Durch Marketing und Berichterstattung in den Medien ist Machine Learning jedoch stark ins Rampenlicht gerückt und hat in jüngster Vergangenheit teilweise nicht nur bei Laien, sondern auch bei IT-Experten überzogene Erwartungen geweckt.

Der vorliegende Artikel ist der erste aus einer Artikelreihe, in der wir zeigen möchten, was mit frei verfügbaren Mitteln wirklich möglich ist. Wir werden verschiedene Data-Analytics-Verfahren mitilfe konkreter Beispiele vorstellen, die angelehnt sind an Problemstellungen bei der Entwicklung unserer Tracking- und Tracing-Lösung oder bei anderen Beratungsprojekten. Wir möchten Sie als Leser Schritt für Schritt durch die Beispiele führen und hoffen, dass so Data Analytics nicht länger ein Buch mit sieben Siegeln ist.

Probleme, Verfahren, Modelle

Im Grunde steckt hinter allen Machine-Learning-Verfahren der Versuch, mithilfe eines Modells den Zusammenhang zwischen Ursache und Wirkung zu beschreiben. Das Modell soll aus den Beobachtungen der Vergangenheit auf Ergebnisse in der Zukunft schließen können. Mathematisch geht es darum, eine Abbildung von Eingabe- auf Ausgabewerte zu finden, bei der die Differenz zwischen den vom Modell vorhergesagten Ausgabewerten und den tatsächlichen, in der Realität auftretenden Ergebnissen möglichst klein ist. Das gilt für die Vorhersage des morgigen Wetters ebenso wie für die Diagnose einer Krankheit auf Basis von Symptomen und Patienteninformation.

Modelle können unterschiedlich komplex sein. Im einfachsten Fall handelt es sich um Schwellwertentscheidungen, wie z. B. die Erkennung eines kritischen Betriebszustands. Zu den fortgeschrittenen Anwendungsgebieten zählen komplexe Sprach- und Bilderkennungsaufgaben. Einige dieser Verfahren werden Sie in dieser Artikelreihe kennen lernen.

Keine Angst, um Machine Learning einzusetzen, ist es nicht zwingend notwendig, die Funktionsweise und mathematischen Hintergründe bis ins letzte Detail verstanden zu haben. Selbstverständlich ist Hintergrundwissen hilfreich und ein Grundverständnis zwingend notwendig, um ein geeignetes Verfahren zur Problemstellung auswählen zu können. Doch Frameworks wie scikit-learn bieten viele Modelle out of the Box an, um solche Verfahren als reiner Anwender einsetzen zu können. Das ist vergleichbar damit, dass Sie täglich mit Compilern arbeiten, deren innere Funktionsweise Sie zwar vom Prinzip her kennen, aber im Detail nie angeschaut haben.

Den vollständigen Artikel lesen Sie in der Ausgabe:

Entwickler Magazin 3.17 - "The best Way to REST"

Alle Infos zum Heft
579793610Praxiserprobt: Data Analytics per Regressionsanalyse
X
- Gib Deinen Standort ein -
- or -