Markus Ehrenmüller-Jensen Selbstständig

„Die großen Datenbankhersteller haben jedenfalls das Potenzial von R erkannt. So hat etwa Microsoft einen R-Interpreter sowohl in die Datenbank-Engine integriert (man kann daher ohne Datentransfer ein R-Script auf Daten im SQL-Server und in einer Azure-SQL-Datenbank laufen lassen) als auch in Power BI Desktop, was speziell für Visualisierungen interessant ist.“

Sie sind neugierig, wie Sie Probleme in R lösen können, und haben möglicherweise schon Erfahrung mit SQL? Dann sind Sie bei diesem Artikel genau richtig! Wir beginnen mit den grundlegenden Elementen der Sprache – mit jeder Menge konkretem Beispielcode. Dann werfen wir einen Blick darauf, wie wir mit Daten umgehen können (hier helfen SQL-Grundkenntnisse – sind aber nicht erforderlich). Und zu guter Letzt widmen wir uns noch Anwendungsfällen, die typischerweise mit R gelöst werden können.

R ist als Programmiersprache streng aber dynamisch typisiert, funktional und wird interpretiert (also nicht kompiliert). Beliebt ist sie bei sogenannten Data Scientists unter anderem, weil es (kostenlose) Pakete gibt, mit denen man statistische Berechnungen (wie z. B. Matrixkalkulationen oder beschreibende Statistik) durchführen kann. Außerdem lässt sich Machine Learning (z. B. lineare Regression, Clustering, neuronale Netzwerke etc.) implementieren. Die Ergebnisse der Berechnungen können effizient und effektiv visualisiert werden.

R ist der Open-Source-Nachfolger der Programmiersprache S. Eine sehr aktive Community treibt die Entwicklung der Sprache und der verfügbaren Pakete voran. Zu Redaktionsschluss waren über 12 000 (in Worten: zwölftausend!) Pakete auf dem Comprehensive R Archive Network (CRAN) verfügbar. Das ist sowohl ein Segen (weil z. B. neue Machine-Learning-Modelle, die in der akademischen Welt oder von Unternehmen entwickelt werden, sehr schnell verfügbar gemacht werden), als auch ein Fluch (weil natürlich kein Mensch einen nur annähernd vollständigen Überblick über alle Pakete haben kann). Sie werden im Zuge dieses Artikels eine Handvoll Pakete kennenlernen.

Eins ist jedenfalls sicher: Wenn Sie mit Daten arbeiten, werden Sie R schätzen lernen. Sie haben damit viele Möglichkeiten, auf Daten zuzugreifen, sie zu transformieren und zu bereinigen, um sie letztendlich analysieren zu können. Und Microsoft hat beginnend mit SQL Server 2016 die Programmiersprache R in ihre Data Platform integriert.

Scripte erstellen und ausführen

Die Beispiele können Sie selber ausführen, nachdem Sie R und ein Integrated Development Environment (IDE), wie z. B. RStudio oder R Tools for Visual Studio, bei sich installiert haben. Abbildung 1 zeigt den grundlegenden Aufbau der IDE. Links oben (in der Abbildung rot umrahmt) kann man ein Script erstellen und ganz oder schrittweise ausführen. Links unten (orange) ist die Eingabekonsole.

Den vollständigen Artikel lesen Sie in der Ausgabe:

Entwickler Magazin Spezial Vol.17: Machine Learning - "Machine Learning"

Alle Infos zum Heft
579858877Nutzen Sie Ihre Kenntnisse in SQL, um R zu lernen
X
- Gib Deinen Standort ein -
- or -