Beschreiben und Schließen

Datenanalyse und Statistik: Problemlösung durch Simulation
Kommentare

Statistik genießt keinen besonders guten Ruf. Das unterstreicht unter anderem die Tatsache, dass sich das fälschlicherweise Winston Churchill zugeschriebene Bonmot „Traue keiner Statistik, die du nicht selbst gefälscht hast“ im Laufe der Jahre in das Gehirn der Menschheit eingebrannt hat.

Es steht außer Frage, dass Zusammenfassungen – eine Statistik ist im Grunde genommen nichts anderes – immer einen Teil der ursprünglichen Datenmenge kaschieren. Dass man bei der Erfassung tricksen kann, lernt jeder Psychoanalytiker im Fach „Grundlagen des Verkaufs der Angst vor Internetsucht“. Dies gilt allerdings auch für andere Entitäten: Ein Brotmesser ergibt in den Händen einer Person mit üblen Intentionen eine wunderbare Waffe. Allem negativen Image zum Trotz: Bei korrekter Anwendung erlaubt die Statistik das Ermitteln einer Vielzahl von interessanten Kennwerten. Diese erleichtern die Analyse der durch Befragungen oder Beobachtungen erhaltenen Datenmengen.

Von der Urliste

Wer einen Test durchführt, bekommt eine mehr oder weniger lange Liste von Ergebnissen. Diese werden vom Mathematiker als Urliste bezeichnet. Für die folgenden Schritte wollen wir die Werte aus dem im Artikel „Willkommen in Monte Carlo“ [1] erstellten Tesco-Test als Urliste benutzen. Der Test beschäftigte sich mit der Frage, wie viele Sammelkartenpakete man beim Lebensmitteleinzelhändler Tesco kaufen müsste, um ein komplettes Album zu erhalten. Abbildung 1 zeigt, wie mit steigender Anzahl der Durchläufe die „Devianz“ geringer wird.

Abb. 1: Der Kauf von Sammelkartensets wird durch diese Kurve beschrieben

Abb. 1: Der Kauf von Sammelkartensets wird durch diese Kurve beschrieben

 

Als erste – und mit Abstand einfachste – Kennzahl gilt der arithmetische Mittelwert. Ihre Berechnung erfolgt nach der in der Abbildung 2 gezeigten Formel.

Abb. 2: Diese Formel liefert den arithmetischen Mittelwert zurück

Abb. 2: Diese Formel liefert den arithmetischen Mittelwert zurück

 

An sich findet sich hier keine Raketenphysik. Alle Einzelwerte werden in einem gemeinsamen Speicher gesammelt, der dort enthaltene Wert wird sodann auf alle Elemente fair verteilt. Das Endresultat davon ist, dass alle Elemente den „gleichen Teil“ der Gesamtmenge erhalten haben.

Das Ende des Durchschnitts

Diese von Finanzmathematikern für den SMA-Indikator verwendete Kennzahl ist aufgrund ihrer vergleichsweise einfachen Berechnung weit verbreitet. Leider stößt sie oft an ihre Grenzen. Als Beispiel dafür wollen wir eine fiktive Luftwaffe annehmen, die aus den in Tabelle 1gezeigten Flugzeugen zusammengestellt ist:

Flugzeug Typ Anzahl Geschwindigkeit
An-2 Beobachter 20 258 km/h
MiG-25 Interceptor 20 3 470 km/h

Tabelle 1: Die Luftwaffe der Republik Bananistan ist sehr ungleich aufgebaut

Das Ermitteln der Durchschnittsgeschwindigkeit der bananischen Luftwaffe würde einen Wert von 1 864 km/h ergeben. Leider ist dieses Wissen nur wenig nützlich: Wer einen Angriff auf Basis dieser Geschwindigkeit planen würde, bekäme es mit vielen zu schnellen und vielen zu langsamen Flugzeugen zu tun. Es wäre weitaus sinnvoller, neben dem arithmetischen Mittelwert auch ein Maß für die Stärke der Abweichung zu erhalten. Das ist die Rolle der Standardabweichung, deren Berechnung in Abbildung 3 gezeigt ist.

Abb. 3: Diese Formel liefert die Standardabweichung einer Datenmenge zurück

Abb. 3: Diese Formel liefert die Standardabweichung einer Datenmenge zurück

 

Bei der Berechnung der Standardabweichung wird im ersten Schritt der gleitende Durchschnitt der zu analysierenden Urliste ermittelt. Danach bilden Sie den „Durchschnitt der Differenzen“. Dabei handelt es sich um einen Wert, der den Unterschied des einzelnen Samples vom arithmetischen Mittelwert angibt. Der Durchschnitt dieser Ergebnisse ist dann die Standardabweichung. Erfahrene Mathematiker fragen sich mitunter, warum das Einzelergebnis quadriert und danach durch „Wurzelziehen“ bearbeitet wird. Zum Verständnis dieses Zusammenhangs ist ein kleiner mentaler Umweg notwendig. Die einzelnen Samples können sich nämlich sowohl positiv als auch negativ voneinander unterscheiden. Ohne Quadrierung ergäbe die Standardabweichung einer aus den Werten 2 und 6 bestehenden Urliste den Wert von 0 – die beiden Teile heben sich gegenseitig auf. Beim Quadrieren von Zahlen werden negative Werte „in den positiven Bereich gespiegelt“. Das Multiplizieren der potenzierten Werte lässt sich durch ein Wurzelziehen über die Gesamtsumme rückgängig machen, wodurch Sie wieder normale Daten erhalten.

In mathematischen Publikationen treffen Sie manchmal auf den Wert Varianz. Dabei handelt es sich um das Quadrat der Standardabweichung. Dem Autor ist nicht klar, warum sich diese Art des Anschreibens durchgesetzt hat – ein einfaches Ziehen der Quadratwurzel löst das Problem.

Wahrscheinlichkeit herbei

Damit können wir Datenreihen auf „Trends“ analysieren. Leider reicht diese Information in vielen Fällen nicht aus: Es ist oftmals gewünscht, Informationen über die Häufigkeit des Auftretens eines bestimmten Ereignisses zu bekommen. Diese Information wird als Wahrscheinlichkeit bezeichnet. Ihre Berechnung ist an der vor einigen Wochen besprochenen Prozentrechnung [1] angelehnt und erfolgt über die in der Abbildung 4 gezeigte Formel.

Abb. 4: Die Eintrittswahrscheinlichkeit eines Ereignisses ist eine normale Prozentrechnung

Abb. 4: Die Eintrittswahrscheinlichkeit eines Ereignisses ist eine normale Prozentrechnung

 

Rechnen mit Wahrscheinlichkeiten

Beim Aufbau eines Rechenclusters steht man als Entwickler immer wieder vor der Frage nach der Anzahl der für eine gewisse Redundanz notwendigen Systeme. Jeder Rechner hat – für sich alleine – eine gewisse Wahrscheinlichkeit für einen Ausfall, die von den Ausfällen anderer Rechner unabhängig ist. Das bedeutet, dass das Abrauchen der ersten Anlage alle anderen nicht beeindruckt: Ihre Ausfallwahrscheinlichkeit bleibt unter Nichtberücksichtigung der gesteigerten Rechenlast identisch. In diesem Fall entsteht der in der Abbildung 5 gezeigte Wahrscheinlichkeitsbaum. Er gibt an, wie wahrscheinlich es ist, dass mehrere Anlagen in Folge ausfallen.

Abb. 5: Die Ausfallswahrscheinlichkeit in Baumform

Abb. 5: Die Ausfallswahrscheinlichkeit in Baumform

 

Daraus folgt eine wichtige Regel. Die Wahrscheinlichkeit für das Eintreffen mehrerer voneinander unabhängiger (!) Ereignisse entspricht der Multiplikation der Wahrscheinlichkeitswerte. Dies ist durch die Formel P(A und B) = P(A)*P(B) beschrieben.

Verteilung von Zufallsprozessen

Nach diesen eher „einfachen“ Analysen wollen wir uns abermals dem in der ersten Abbildung gezeigten Diagramm zuwenden. Es zeigt eine charakteristische „Glockenform“ des Ergebnisses. Die Erfahrung lehrt, dass die Resultate eines aus vielen verschiedenen gleichwertigen Zufallsprozessen zusammengesetzten Systems meist eine derartige, als Normalverteilung bezeichnete Glockenform annehmen (Grenzwertsatz von Lindeberg/Levy). Die genaue Begründung dieses Zusammenhangs würde den Rahmen dieses Artikels sprengen und ist hier auch nicht von gesteigerter Relevanz. Zur Ermittlung der Verteilungskurve sind zwei Parameter notwendig. Erstens der Erwartungswert, der den gewünschten und idealen Zielwert angibt. Der zweite Wert ist die weiter oben beschriebene Varianz, die die Stärke der Divergenz angibt. Diese Informationen lassen sich sodann zum Berechnen der Glockenkurve nutzen. Die dabei eingesetzte Formel ist in Abbildung 6 gezeigt – sie hat in der Praxis allerdings nur untergeordnete Bedeutung und wird hier nur der Vollständigkeit halber angeführt.

Abb. 6: Die „Verteilungsglocke“ entsteht durch die hier gezeigte Funktion

Abb. 6: Die „Verteilungsglocke“ entsteht durch die hier gezeigte Funktion

 

Der praktische Wert der Funktion liegt darin, dass die Fläche „unter dem Graphen“ immer dem Wert eins entspricht. Das bedeutet, dass die Gesamtheit aller Elemente der Stichprobe unter dem Diagramm liegt. Zur Ermittlung der Wahrscheinlichkeit für ein bestimmtes Ereignis müssen Sie normalerweise auf das mathematische Verfahren der Integration zurückgreifen. Dabei handelt es sich um ein System, das die Fläche unter einer Kurve ermittelt – leider ist es vergleichsweise komplex, weshalb sich eine numerische Integration als weitaus effektiver erweist. Als Beispiel dafür soll die als klassische Normalverteilung bezeichnete Funktion analysiert werden. Sie hat einen Erwartungswert von Null und eine Varianz von Eins. In Summe entsteht dadurch die in der Abbildung 7 gezeigte Kurve.

Abb. 7: Die „klassische Normalverteilung“ als Plot (erstellt mit TouchCalc für Windows Phone)

Abb. 7: Die „klassische Normalverteilung“ als Plot (erstellt mit TouchCalc für Windows Phone)

 

Für uns ist die Wahrscheinlichkeit interessant, mit der Werte im Bereich von -1 bis +1 auftreten. Dazu müssen wir die Fläche unter der Kurve ermitteln, die in diesem Bereich liegt. Dies lässt sich am einfachsten erledigen, indem wir der Funktion geometrische Formen „einschreiben“ und deren Fläche sodann berechnen. Desto kleiner die Figuren werden, desto genauer wird das abschließende Ergebnis. Wir wollen im vorliegenden Fall mit zwei Rechtecken pro Seite arbeiten. Die „Höhe“ wird durch den Wert der Funktion bestimmt, die Breite entsteht durch das Aufteilen des Bereichs durch vier – das ist in Abbildung 8 gezeigt.

Abb. 8: Das Einschreiben von Rechtecken erleichtert die Berechnung der Funktionswerte

Abb. 8: Das Einschreiben von Rechtecken erleichtert die Berechnung der Funktionswerte

 

Je nach Genauigkeit der Wahl und der Ermittlung sollten Sie einen Wert im Bereich von rund 0,68 bekommen. Das bedeutet, dass ungefähr 70 Prozent der Ergebnisse in einem Bereich von +/- 1 vom Idealwert liegen.

Verbesserte numerische Integration

Mathematiker lösen die Aufgabe der Ermittlung des Flächeninhalts unter einer Funktion normalerweise durch das Integrieren. Leider ist das in vielen Fällen nicht möglich, da Ihnen entweder die Quellfunktion fehlt oder diese schlichtweg nicht integrierbar ist. Die im vorigen Beispiel angerissene Methode der numerischen Integration erlaubt das Ermitteln von Näherungswerten. Wenn Sie die Funktion am Rechner implementieren können, so fallen die Ergebnisse bei ausreichend kleinen Schritten sehr genau aus. Eine weitere Erleichterung besteht darin, statt auf Rechtecke auf Trapeze zu setzen. Diese schmiegen sich wie in der Abbildung 9 gezeigt „noch näher“ an die vorgegebene Funktion an, was zu geringerem „Verschnitt“ führt.

Abb. 9: Sinus, mit Trapez und Rechteck „umschrieben“ (erstellt mit TouchCalc für Windows Phone)

Abb. 9: Sinus, mit Trapez und Rechteck „umschrieben“ (erstellt mit TouchCalc für Windows Phone)

 

Fazit

Es steht außer Frage, dass Statistik ein sowohl faszinierendes als auch komplexes mathematisches Fachgebiet darstellt. Die immer stärker steigende Rechenleistung erlaubt das Realisieren von immer umfangreicheren Modellen und Korrelationen – diese sind aufgrund ihres Umfangs für Außenstehende oft nur schwer verständlich. Das bedeutet allerdings nicht, dass Sie mit Hausmitteln keine brauchbaren Ergebnisse erreichen können. Die hier vorgestellten Methoden erlauben Ihnen das Zusammenfassen von Daten und erleichtern zudem die Abschätzung des Verhaltens von Zufallssystemen.

Aufmacherbild: Image of workplace with paper and electronic documents on desk von Shutterstock / Urheberrecht: Pressmaster

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -