Universaltool für Data Science

JupyterLab in Version 4 im Überblick

Datenbanken

Ausgabe: 1.2024

Universaltool für Data Science

JupyterLab in Version 4 im Überblick

Datenbanken

Ausgabe: 1.2024

Veikko Krypczyk

Um Modelle für maschinelles Lernen zu trainieren, mit Daten zu experimentieren und interaktiv in diesem Feld zu forschen, zu lernen und die Ergebnisse zu dokumentieren, werden sogenannte Notebooks eingesetzt. Mit der Version JupyterLab 4 steht eine neue Generation bereit. Grund genug, sich dieses universelle Werkzeug für Datenanalyse und Aufgaben der künstlichen Intelligenz genauer anzusehen.

Jupyter Notebook ist eine interaktive Entwicklungsumgebung, die hauptsächlich in den Bereichen Datenanalyse, maschinelles Lernen, wissenschaftliche Forschung und Bildung verwendet wird. Es ermöglicht Benutzer:innen, sowohl Quellcode als auch Text in einer einzigen Datei zu kombinieren, wodurch eine reichhaltige Dokumentation und eine effektive interaktive Datenanalyse möglich sind. Abbildungen, die aus den Daten und/oder dem Quelltext generiert werden, können ebenfalls direkt in die Notebook-Dokumente eingefügt werden. Die wichtigsten Funktionen von Jupyter Notebook sind:

Codeausführung: Jupyter Notebook ermöglicht das Schreiben, Ausführen und Testen von Code in Echtzeit. Benutzer können Codezellen erstellen und darin Python, R, Julia oder andere Programmiersprachen ausführen.
Text und Dokumentation: Neben dem Code können Benutzer:innen Textzellen erstellen, in die sie Erklärungen, Anleitungen, Formeln, Diagramme und Visualisierungen einfügen können. Dadurch wird es einfacher, den Code zu dokumentieren und die Ergebnisse zu interpretieren.
Interaktive Datenanalyse: Durch die Kombination von Code und Text können Benutzer:innen Daten visualisieren, statistische Analysen durchführen und komplexe Berechnungen in einem einzigen Notebook-Dokument umsetzen. Das erleichtert die explorative Datenanalyse.
Widget-Integration: Jupyter Notebook unterstützt interaktive Widgets, die es Benutzer:innen ermöglichen, Parameter und Eingaben dynamisch anzupassen, um die Auswirkungen auf den Code in Echtzeit zu sehen. Das ist besonders nützlich für die Anpassung von Visualisierungen oder Modellparametern.
Erweiterbarkeit: Es gibt viele Erweiterungen und Plug-ins für Jupyter Notebook, die zusätzliche Funktionen und Integrationen bieten. So kann die Funktionalität der Umgebung an spezielle Anforderungen angepasst werden. Damit kann Jupyter Notebook insbesondere für fachspezifische Voraussetzungen, zum Beispiel für Aufgaben der Mathematik oder die typischen Fragestellungen der Marktforschung, angepasst werden (siehe Kasten: „Nutzung von Jupyter Notebook im Bereich der Marktforschung“).
Export und teilen: Jupyter Notebooks können in verschiedene Formate exportiert werden, einschließlich PDF, HTML, Markdown und mehr. Das erleichtert das Teilen von Analysen und Forschungsergebnissen mit anderen Personen.
Zusammenarbeit: Mehrere Personen können gleichzeitig an einem Jupyter Notebook arbeiten und Änderungen verfolgen, was die Zusammenarbeit in wissenschaftlichen Projekten und Datenteams unterstützt.
Integration mit Data Science Libraries: Jupyter Notebooks sind eng mit Data-Science-Bibliotheken wie NumPy, Pandas, Matplotlib, scikit-learn und TensorFlow integriert, was sie zu einer bevorzugten Umgebung für Data-Science-Aufgaben macht.

Nutzung von Jupyter Notebook im Bereich der Marktforschung

Ein interaktives Jupyter Notebook kann für Aufgaben der Marktforschung effektiv eingesetzt werden, insbesondere, wenn es um die Analyse von Daten, die Erstellung von Berichten und die Visualisierung von Ergebnissen geht. Folgende Verwendungsmöglichkeiten sind denkbar:

Datenaufnahme: Importieren Sie die für Ihre Marktforschung relevanten Daten in Ihr Jupyter Notebook. Das können Umfragedaten, Verkaufsdaten, Kundenbewertungen oder andere Daten sein. Sie können die Bibliothek Pandas verwenden, um Daten aus verschiedenen Quellen wie CSV-Dateien, Datenbanken oder APIs zu lesen.
Datenbereinigung und -vorbereitung: Bereinigen und transformieren Sie die Daten, um sicherzustellen, dass sie für Ihre Analyse geeignet sind. Das kann das Entfernen von Duplikaten, das Auffüllen fehlender Werte oder das Umwandeln von Datentypen umfassen.
Explorative Datenanalyse: Verwenden Sie das Notebook, um eine explorative Datenanalyse durchzuführen. Erstellen Sie Statistiken, Histogramme, Boxplots und andere Visualisierungen, um Muster und Trends in den Daten zu identifizieren. Nutzen Sie Bibliotheken wie Matplotlib, Seaborn und Plotly für die Visualisierung.
Hypothesentests und Statistik: Führen Sie statistische Hypothesentests durch, um Annahmen zu überprüfen oder Unterschiede zwischen verschiedenen Gruppen zu analysieren. Bibliotheken wie SciPy und StatsModels sind hilfreich für statistische Analysen.
Segmentierung und Zielgruppenanalyse: Nutzen Sie Ihre Daten, um Zielgruppen oder Marktsegmente zu identifizieren. Das können Sie mit Hilfe von Clustering-Algorithmen wie K-Means oder durch Gruppierung basierend auf bestimmten Merkmalen erreichen.
Visualisierung von Ergebnissen: Erstellen Sie ansprechende Diagramme und Visualisierungen, um Ihre Ergebnisse zu präsentieren. Das kann die Darstellung von Marktanteilen, Trends im Zeitverlauf oder geografische Verteilungen umfassen.
Textanalyse: Wenn Ihre Marktforschung Textdaten enthält, können Sie Textanalysetechniken verwenden, um Themenmodellierung, Sentiment-Analyse oder Wortwolken zu erstellen.
Berichterstellung: Nutzen Sie Textzellen, um Ihre Ergebnisse zu dokumentieren und zu interpretieren. Erstellen Sie einen strukturierten Bericht, der Ihre Schlussfolgerungen und Empfehlungen für Marketingstrategien oder Produktentwicklungen enthält.

Insgesamt steht damit eine interaktive und dokumentierende Umgebung zur Verfügung, die es Marktforscher:innen ermöglicht, Daten zu analysieren, Erkenntnisse zu gewinnen und Ergebnisse auf eine klare und strukturierte Weise zu präsentieren.

Insgesamt bietet Jupyter Notebook eine flexible und mächtige Umgebung für datengetriebene Forschung, Prototyping von Code, maschinelles Lernen und die Erstellung von interaktiven Berichten und Präsentationen. Es hat sich zu einem wichtigen Werkzeug der Data-Science-Community entwickelt.

Es gibt zwei Spielarten dieser Notebooks, das klassische Jupyter Notebook und die Weiterentwicklung JupyterLab. Im Folgenden schauen wir uns Gemeinsamkeiten und Unterschiede an.

Jupyter Notebook und JupyterLab

Jupyter Notebook und Jupyter Lab sind zwei verwandte, aber leicht unterschiedliche Entwicklungsumgebungen für interaktive Datenanalyse, wissenschaftliche Berechnungen und Programmierung. Ein Jupyter Notebook ist eine webbasierte Benutzeroberfläche zum Erstellen und Teilen von Dokumenten, das interaktive Ausführen von Quellcode, das Berechnen von Gleichungen, die Visualisierung von Zusammenhängen und die Kommentierung mit Text. Es wurde erstmals 2014 im Rahmen des IPython-Projekts eingeführt und entwickelte sich später zu einem separaten Projekt unter dem Namen Jupyter. Der Name ist eine Kombination aus den drei Programmiersprachen Julia, Python und R, was die Unterstützung mehrerer Sprachen durch die Verwendung verschiedener Kernel hervorhebt. Andere Programmiersprachen können über alternative Kernel genutzt werden.

JupyterLab ist die webbasierte Benutzeroberfläche der nächsten Generation für Project Jupyter. Es wurde 2018 eingeführt und bietet alle bekannten Bausteine des klassischen Jupyter Notebooks, d. h. Notebook, Terminal, Texteditor, Dateibrowser, Rich-Ausgaben usw., in einer flexiblen und leistungsstarken Benutzeroberfläche. Das Ziel von JupyterLab ist es, eine stärker integrierte und erweiterbare Umgebung für die Arbeit mit Jupyter Notebooks und anderen Jupyter-Komponenten bereitzustellen. Die Benutzeroberfläche erinnert an eine integrierte Entwicklungsumgebung (IDE). Sie besteht aus mehreren Dokumenten, in denen Sie Notebooks, Codeeditoren, Konsole, Dateibrowser und mehr in einer einzigen Oberfläche organisieren können. Weitere Unterschiede sind in Tabelle 1 aufgeführt.

Kriterium	Jupyter	JupyterLab
Benutzeroberfläche	bietet eine klassische, tabellenartige Benutzeroberfläche ähnelt einem Notizbuch mit Registerkarten (Tabs) für jedes geöffnete Notebook ist funktional und einfach zu bedienen	bietet eine moderne und flexible Benutzeroberfläche, die eher einer integrierten Entwicklungsumgebung (IDE) ähnelt besteht aus mehreren Panels, in denen Sie Notebooks, Codeeditoren, Konsole, Dateibrowser und mehr in einer einzigen Oberfläche organisieren können
Organisation von Dateien und Ressourcen	ermöglicht den Zugriff auf Ihre Dateien und Notebooks über das Dateisystem Sie müssen zum Dateiverzeichnis navigieren, um auf andere Notebooks zuzugreifen	verfügt über eine Dateibrowserseite, auf der Sie Ihre Notebooks und Dateien organisieren können Sie können bequem zwischen verschiedenen Notebooks und Ressourcen wechseln und sie in Tabs oder Fenstern öffnen
Erweiterbarkeit und Plug-ins	unterstützt Erweiterungen (Extensions) und Themes, um die Funktionalität und das Erscheinungsbild anzupassen Sie können zusätzliche Funktionen über Erweiterungen hinzufügen	ist von Grund auf so entwickelt, dass es erweiterbar ist unterstützt native Plug-ins, die in die Benutzeroberfläche integriert werden können macht es einfacher, zusätzliche Funktionen zu installieren und zu nutzen
Multi-Document-Support	ermöglicht das Arbeiten mit mehreren Notebooks jede Notebook-Instanz wird in einem eigenen Tab geöffnet, was dazu führen kann, dass die Benutzeroberfläche unübersichtlich wird	bietet eine verbesserte Unterstützung für das Arbeiten mit mehreren Dokumenten und Notebooks in einer einzigen Benutzeroberfläche Sie können leicht zwischen offenen Dateien und Notebooks wechseln
Codekonsole	man kann Codezellen ausführen es gibt keine eingebaute Codekonsole für interaktive Befehle und Testläufe	bietet eine integrierte Codekonsole, die es ermöglicht, Code interaktiv auszuführen und Ergebnisse zu sehen Funktionsweise ist ähnlich wie in einem Python REPL (Read Eval Print Loop)

Kriterium

Jupyter

JupyterLab

Benutzeroberfläche

bietet eine klassische, tabellenartige Benutzeroberfläche

ähnelt einem Notizbuch mit Registerkarten (Tabs) für jedes geöffnete Notebook

ist funktional und einfach zu bedienen

bietet eine moderne und flexible Benutzeroberfläche, die eher einer integrierten Entwicklungsumgebung (IDE) ähnelt

besteht aus mehreren Panels, in denen Sie Notebooks, Codeeditoren, Konsole, Dateibrowser und mehr in einer einzigen Oberfläche organisieren können

Organisation von Dateien und Ressourcen

ermöglicht den Zugriff auf Ihre Dateien und Notebooks über das Dateisystem

Sie müssen zum Dateiverzeichnis navigieren, um auf andere Notebooks zuzugreifen

verfügt über eine Dateibrowserseite, auf der Sie Ihre Notebooks und Dateien organisieren können

Sie können bequem zwischen verschiedenen Notebooks und Ressourcen wechseln und sie in Tabs oder Fenstern öffnen

Erweiterbarkeit und Plug-ins

unterstützt Erweiterungen (Extensions) und Themes, um die Funktionalität und das Erscheinungsbild anzupassen

Sie können zusätzliche Funktionen über Erweiterungen hinzufügen

ist von Grund auf so entwickelt, dass es erweiterbar ist

unterstützt native Plug-ins, die in die Benutzeroberfläche integriert werden können

macht es einfacher, zusätzliche Funktionen zu installieren und zu nutzen

Multi-Document-Support

ermöglicht das Arbeiten mit mehreren Notebooks

jede Notebook-Instanz wird in einem eigenen Tab geöffnet, was dazu führen kann, dass die Benutzeroberfläche unübersichtlich wird

bietet eine verbesserte Unterstützung für das Arbeiten mit mehreren Dokumenten und Notebooks in einer einzigen Benutzeroberfläche

Sie können leicht zwischen offenen Dateien und Notebooks wechseln

Codekonsole

man kann Codezellen ausführen

es gibt keine eingebaute Codekonsole für interaktive Befehle und Testläufe

bietet eine integrierte Codekonsole, die es ermöglicht, Code interaktiv auszuführen und Ergebnisse zu sehen

Funktionsweise ist ähnlich wie in einem Python REPL (Read Eval Print Loop)

Tabelle 1: Wesentliche Merkmale von Jupyter Notebook und JupyterLab

Insgesamt bietet JupyterLab eine modernere und erweiterbare Benutzeroberfläche, die viele zusätzliche Funktionen und Anpassungsmöglichkeiten bereitstellt, während Jupyter Notebook eine bewährte, einfachere Benutzeroberfläche für grundlegende Aufgaben bietet. Welche Variante man wählt, hängt von den individuellen Anforderungen und Vorlieben ab. Einige Benutzer:innen bevorzugen JupyterLab wegen seiner Flexibilität und Organisation, während andere die Einfachheit von Jupyter Notebook schätzen.

Installation

Kommen wir zur Installation von JupyterLab. Wir gehen davon aus, dass Sie die Programmiersprache Python in der aktuellen Version installiert haben. JupyterLab können Sie über einen einzigen Befehl mit Hilfe von pip installieren:

pip install jupyterlab

Die Installation der notwendigen Pakete erfolgt über die Kommandozeile. Ist das erledigt, können Sie JupyterLab ebenso von der Kommandozeile starten, mit:

jupyter lab

JupyterLab wird automatisch in Ihrem Browser geöffnet (Abb. 1).

Abb. 1: Der Startbildschirm (Browser) von JupyterLab

Features und Funktionen

Sehen wir uns jetzt die wichtigsten Funktionen von JupyterLab an:

Dateibrowser: JupyterLab verfügt über einen Dateibrowser, mit dem Sie auf Ihre Projekte, Dateien und Notebooks zugreifen sowie Ordner und Dateien erstellen, umbenennen, verschieben und löschen können.
Tabbed Interface: Ähnlich wie bei einem Webbrowser können Sie in JupyterLab mehrere Tabs öffnen, um gleichzeitig an verschiedenen Projekten oder Dokumenten zu arbeiten. Jeder Tab kann ein Notebook, ein Textdokument, eine Konsole oder ein anderes interaktives Element enthalten.
Notebooks: Sie können Jupyter Notebooks in JupyterLab erstellen, öffnen und bearbeiten. Notebooks ermöglichen die Kombination von Textzellen, Codezellen, Visualisierungen und Erklärungen in einer einzigen Datei. Wir zeigen später noch die prinzipielle Arbeitsweise mit Hilfe eines Beispiels.
Texteditor: JupyterLab enthält einen Texteditor mit Syntaxhervorhebung für verschiedene Programmiersprachen. Sie können Codedateien in verschiedenen Sprachen schreiben und bearbeiten.
Terminal: JupyterLab bietet eine integrierte Terminalanwendung, mit der Sie Befehle auf der Befehlszeile ausführen können, ohne die Entwicklungsumgebung verlassen zu müssen.
Codekonsole: Sie können interaktive Codekonsolen öffnen, um Codezeilen auszuführen, Variablen zu überwachen und die Ausgabe in Echtzeit anzuzeigen. Das ist nützlich für schnelle Tests und Experimente.
Erweiterbarkeit: JupyterLab ist erweiterbar und unterstützt die Integration von Erweiterungen und Plug-ins. Das ermöglicht die Anpassung der Entwicklungsumgebung an spezielle Anforderungen und die Integration von Drittanbietertools.
Split View und Drag and Drop: Sie können die Benutzeroberfläche von JupyterLab anpassen, indem Sie Fenster und Tabs in verschiedene Bereiche ziehen oder aufteilen. Das erleichtert die Organisation von Arbeitsbereichen.
Kommentare und Diskussionen: JupyterLab bietet die Möglichkeit, Kommentare und Diskussionen direkt im Code und in Textzellen zu hinterlassen. Das ist nützlich für die Zusammenarbeit und das Teilen von Feedback.
Suche und Navigation: JupyterLab enthält eine Suchfunktion, mit der Sie nach Dateien und Texten suchen können. Sie können auch eine interaktive Dateinavigation verwenden, um schnell zu den benötigten Ressourcen zu gelangen.
Export und teilen: Sie können Dateien und Notebooks in verschiedene Formate exportieren, einschließlich PDF, HTML, Markdown und mehr, um Ihre Arbeit mit anderen zu teilen.
Versionskontrolle: JupyterLab ist kompatibel mit Versionskontrollsystemen wie Git, was die Zusammenarbeit in Teams erleichtert und die Nachverfolgung von Änderungen ermöglicht.
Integrierte Hilfe und Dokumentation: Sie können auf integrierte Hilfe und Dokumentation zugreifen, um JupyterLab besser zu verstehen und die Funktionen effektiver zu nutzen.

Wie man mit der Entwicklungsumgebung JupyterLab arbeitet, demonstrieren wir später noch an einem Beispiel. Nun geht es zunächst um die Neuerungen und Verbesserungen in Version 4.

Neuerungen in Version 4

JupyterLab hat im vergangenen Juni ein Update auf Version 4.* bekommen. Sofern auf Ihrem Rechner eine ältere Version vorhanden ist, können Sie über die Kommandozeile ein Update anstoßen. Entweder mit:

pip install --upgrade jupyterlab

oder über

conda install -c conda-forge jupyterlab

Folgende Neuerungen sind in JupyterLab 4 erwähnenswert [1]:

Performance: Dank Verbesserungen wie CSS-Optimierung, CodeMirror 6, MathJax 3 und Notebook-Fenstersteuerung ist JupyterLab jetzt schneller. Da nur die Teile eines Notebooks gerendert werden, die in das Ansichtsfenster des Webbrowsers passen, ist JupyterLab 4 bei der Arbeit mit großen Notebook-Dokumenten viel effizienter als JupyterLab 3.
Aktualisierter Texteditor: CodeMirror, der für Zellen- und Dateieditoren verwendete Texteditor, wurde auf Version 6 aktualisiert. Das bringt wichtige Zugänglichkeits- und Leistungsverbesserungen sowie bessere Anpassungsmöglichkeiten mit sich. Auch die Editoreinstellungen wurden verbessert, um sie leistungsfähiger und flexibler zu machen.
Real-time Collaboration (RTC): Zu den Features gehören die Unterstützung für die Anzeige mehrerer Cursor und Auswahlmöglichkeiten sowie für die Registrierung neuer gemeinsam genutzter Modelltypen.
Neuer Erweiterungsmanager: In JupyterLab 4 enthält der Extension Manager sowohl vorgefertigte Python-Erweiterungen als auch Erweiterungen von https://pypi.org. Durch die Installation über PyPI entfällt die Notwendigkeit, bei der Installation einer Erweiterung mit dem Extension Manager einen Build durchzuführen. Entwickler können ein alternatives Paket-Repository bereitstellen, um ihre eigenen Erweiterungen anzuzeigen.
Verbesserte Dokumentensuche: Die Suchen-und-Ersetzen-Funktion wurde durch neue Funktionen beim Suchen in einem Notizbuch verbessert, einschließlich des Hervorhebens von Übereinstimmungen in gerenderten Markdown-Zellen, der Suche in der aktuellen Auswahl, der mehrzeiligen Suche, der Ersetzung mit Hilfe von Referenzen in regulären Ausdrücken und der Ersetzung unter Beibehaltung der Groß- und Kleinschreibung.
Verbesserungen der Benutzeroberfläche: Es gibt einige Verbesserungen, die die Handhabung der Notebook-Dokumente vereinfachen. Auch die Barrierefreiheit, einschließlich Fokus- und Tastaturnavigation, wurde verbessert.

In JupyterLab 4 wurden zudem mehr als hundert Fehler behoben, wovon Stabilität und Leistung profitieren. Alle weiteren Informationen zu den Änderungen in JupyterLab ab Version 4.* findet man auf GitHub unter [2].

Mit JuypterLab arbeiten

Am besten zeigen wir die typische Arbeit mit JupyterLab an einem konkreten Beispiel für die Datenauswertung aus dem Bereich der Marktforschung. Dem liegt folgende hypothetische Aufgabe zugrunde: Es geht um die Analyse von Kundenumfragedaten für ein Unternehmen, das Produkte im Einzelhandel verkauft. In dieser Aufgabe möchten wir herausfinden, wie Kunden die Produkte bewerten und welche Faktoren die Kundenzufriedenheit beeinflussen.

Dazu benötigen wir zunächst Daten. Da es sich um eine fiktive Problemstellung handelt, generieren wir diese Daten mit Hilfe eines Python-Skripts in JupyterLab. Um eine CSV-Datei mit beispielsweise 500 Datensätzen zu erstellen, die für eine Kundenumfrage repräsentativ sein könnten, benötigen wir zufällige Daten. Öffnen Sie ein neues Notebook in JuypterLab. Wir verwenden die Faker-Bibliothek aus Python, um einige fiktive Kundendaten zu generieren. Den Quellcode sehen Sie in Listing 1.

Listing 1

import pandas as pd
from faker import Faker
import random
 
# Fake-Daten-Generator
fake = Faker()
 
# Leere Listen für die Daten
kundennummer = []
name = []
geschlecht = []
alter = []
zufriedenheit = []
produktkategorie = []
 
# Generiere 500 Datensätze
for i in range(500):
  kundennummer.append(i + 1)
  name.append(fake.name())
  geschlecht.append(random.choice(['Männlich', 'Weiblich']))
  alter.append(random.randint(18, 70))
  zufriedenheit.append(random.randint(1, 5))
  produktkategorie.append(random.choice(['Elektronik', 'Kleidung', 'Haushalt']))
 
# Erstelle ein DataFrame
df = pd.DataFrame({
  'Kundennummer': kundennummer,
  'Name': name,
  'Geschlecht': geschlecht,
  'Alter': alter,
  'Zufriedenheit': zufriedenheit,
  'Produktkategorie': produktkategorie
})
 
# CSV-Datei speichern
df.to_csv('kundenumfragedaten.csv', index=False)
 
print("CSV-Datei mit 500 Datensätzen erstellt.")

Faker ist ein Python-Paket, das Fake-Daten für Sie generiert [3]. Diese Bibliothek müssen Sie vor der Ausführung des Skripts installieren. Das geschieht über die Kommandozeile:

pip install Faker

Danach kann das Skript erfolgreich ausgeführt werden und die Datentabelle wird generiert und in das Arbeitsverzeichnis Ihrer JupyterLab-Installation geschrieben. Sofern Sie nicht genau wissen, wo sich das Arbeitsverzeichnis befindet, bekommen Sie die Installation mit

import os
current_directory = os.getcwd()
print("Das aktuelle Arbeitsverzeichnis ist:", current_directory)

heraus. Die generierte Datendatei enthält nun 500 fiktive Datensätze. Mit Hilfe dieser Daten wollen wir nun einige Auswertungen vornehmen, wie sie für Problemstellungen der Marktforschung typisch sind. Öffnen Sie ein neues Notebook-Dokument und durchlaufen Sie die folgenden Schritte:

Datenimport und -vorbereitung: Zunächst müssen Sie die Kundenumfragedaten importieren. Wir nutzen die eben generierte CSV-Datei namens kundenumfragedaten.csv. Verwenden Sie den JupyterLab-Dateibrowser, um die Datei in Ihr Projektverzeichnis zu laden. Das erledigen Sie über das Symbol zum Hochladen von Dateien:
```
import pandas as pd
df = pd.read_csv('kundenumfragedaten.csv')
```
Explorative Datenanalyse: Nutzen Sie JupyterLab, um eine explorative Datenanalyse durchzuführen und die Daten besser zu verstehen. Mögliche Kennwerte sind beispielsweise: die Berechnung grundlegender Statistiken wie Mittelwert, Median, Standardabweichung usw., das Erstellen von Histogrammen und Diagrammen oder das Durchführen von Korrelationsanalysen, um zu untersuchen, wie verschiedene Merkmale miteinander korrelieren. Um diese Art von Analysen durchzuführen, importieren Sie die Bibliotheken Matplotlib und Seaborn. Beispielsweise können wir uns mit print(df.describe()) einige relevante Merkmalswerte der Datensätze wie minimaler Wert, maximaler Wert oder die Quartilswerte ausgeben lassen. Das alles kann man direkt im JupyterLab vornehmen (Abb. 2).
Datenvisualisierung und Berichterstellung: Verwenden Sie JupyterLab, um Daten zu visualisieren und Ergebnisse zu dokumentieren. Erstellen Sie Textzellen, um Ihre Erkenntnisse zu erklären und Schlussfolgerungen zu ziehen. Wir können Sie die Ergebnisse direkt in JuypterLab dokumentieren oder Diagramme plotten.
Statistische Analysen und Modellierung: Falls erforderlich, können Sie in JupyterLab statistische Analysen oder maschinelles Lernen durchführen, um Zusammenhänge und Trends in den Daten zu identifizieren. Das kann die Verwendung von Bibliotheken wie SciPy oder scikit-learn umfassen. Wandeln Sie beispielsweise die Werte der Spalte mit den Angaben zu den Produktkategorien von Textwerten (Zeichenkette) in numerische Werte um (Listing 2).

Abb. 2: Die Arbeit mit den Daten und die Anzeige der Ergebnisse erfolgt direkt in JupyterLab

Listing 2

import pandas as pd
# Erstellen einer Mapping-Tabelle von Kategorien zu Zahlen
kategorie_mapping = {
  'Elektronik': 1,
  'Kleidung': 2,
  'Haushalt': 3
}
# Die 'Produktkategorie' Spalte umwandeln
df['Produktkategorie'] = df['Produktkategorie'].map(kategorie_mapping)
 
# Anzeigen des aktualisierten DataFrames
print(df)

Wenn Sie dann die Datensätze neu ausgeben, werden Sie feststellen, dass die Spalte Produktkategorien nun Zahlenwerte im definierten Wertebereich aufweist. Diese modifizierten Daten können wir dann verwenden, um beispielsweise den Zusammenhang zwischen den Datenspalten Produktkategorie und Zufriedenheit mittels einer linearen Regression zu bestimmen (Listing 3). Das Ergebnis wird direkt in der aktuellen Notebook-Datei von JupyterLab angezeigt.

Listing 3

import pandas as pd
from sklearn.linear_model import LinearRegression
# Daten vorbereiten
X = df[['Produktkategorie']]  # Unabhängige Variable (Produktkategorie)
y = df['Zufriedenheit']  # Abhängige Variable (Zufriedenheit)
 
# Lineare Regression erstellen und anpassen
regressor = LinearRegression()
regressor.fit(X, y)
 
# Steigung (Koeffizient) und Intercept (Y-Achsenabschnitt) abrufen
slope = regressor.coef_[0]
intercept = regressor.intercept_
 
# Ergebnisse anzeigen
print("Regressionskoeffizient (Steigung):", slope)
print("Y-Achsenabschnitt (Intercept):", intercept)

JupyterLab kann mehr

Die Funktionen des Notebooks funktionieren also auch im JupyterLab. Das konnten wir am Beispiel sehr gut nachvollziehen. JupyterLab bietet jedoch weitere Funktionen. Wir können über den Dateibrowser alle Dateien des aktuellen Projektes einsehen und mit ihnen arbeiten. Klicken wir auf eine Datendatei (CSV), wird sie direkt im Viewer geöffnet (Abb. 3). Ebenso können wir beispielsweise ein Terminal in JupyterLab öffnen, eine Markdown-Datei editieren oder mit Textdateien arbeiten. Wir müssen daher – im Gegensatz zur reinen Nutzung des Notebooks – das Werkzeug für diese Arbeiten nicht wechseln.

Abb. 3: Integrierte Datei-Preview in JupyterLab

Fazit und Ausblick

JupyterLab bietet viele Möglichkeiten, um die typischen Aufgaben des Datenwissenschaftlers zu unterstützen. Im Zentrum steht nach wie vor die Arbeit an einer oder mehreren Jupyter-Dateien. Jedoch lassen sich mit den integrierten Tools (Dateibrowser, Terminal, Datei-Viewer) viele Arbeiten direkt in JupyterLab erledigen, ohne dass man das Tool wechseln muss. Mit Version 4 hat das Softwaretool ein umfassendes Update erfahren und dürfte damit nach und nach zur Nummer eins für interaktive Datenauswertungen für viele Wissenschaftsbereiche werden.

Quellcode

Die Python-Datei zur Ausführung in JupyterLab und die fiktive Datendatei (kundenumfragedaten.csv) können Sie von [4] herunterladen.

krypczyk_veikko_dr_sw.tif_fmt1.jpg Dr. Veikko Krypczyk ist Softwareentwickler, Trainer und Fachautor und u. a. auf die Themen Mobile Development, WinUI 3 und .NET MAUI spezialisiert. Sein Wissen gibt er über Fachartikel, Seminare und Workshops gern an Interessierte weiter und steht mit seiner Expertise auch für eine individuelle Unterstützung in Projekten zur Verfügung.

Links & Literatur

[1] https://blog.jupyter.org/jupyterlab-4-0-is-here-388d05e03442

[2] https://github.com/jupyterlab/jupyterlab/releases/

[3] https://faker.readthedocs.io/en/master/

[4] https://larinet.com/?page_id=760

Veikko Krypczyk

Dr. Veikko Krypczyk ist begeisterter Entwickler und Fachautor. Er ist stets auf der Suche nach neuen innovativen Lösungen und liebt die Arbeit in der Entwicklungsumgebung. Er bietet Seminare und Workshops zu unterschiedlichen Themen der Softwareentwicklung.

JupyterLab in Version 4 im Überblick

JupyterLab in Version 4 im Überblick

Nutzung von Jupyter Notebook im Bereich der Marktforschung

Jupyter Notebook und JupyterLab

Installation

Features und Funktionen

Neuerungen in Version 4

Mit JuypterLab arbeiten

JupyterLab kann mehr

Fazit und Ausblick

Quellcode

Links & Literatur

Weitere Artikel zu diesem Thema

STARTEN

Weitere Artikel zu diesem Thema