
12 Deskriptive Statistik
Deskriptive Statistik ist ein Weg, große Datensätze quantitativer (numerischer) Informationen zusammen zu fassen. Wenn Sie eine große Anzahl an Messergebnissen haben, ist es das Beste, eine Graphik mit all den möglichen Messergebnissen auf der unteren Achse (x-Achse) und der Häufigkeit jedes Ergebnisses auf der vertikalen Achse (y-Achse) in Form eines Balkens zu erstellen. Doch ein solcher Graph ist einfach schwierig statistisch zu analysieren, also haben wir noch weitere numerische Wege, die Daten zusammen zu fassen.
Hier ein kleiner Datensatz: Die Noten für 15 Studierende. Für unsere Zwecke reichen sie von 0 (durchgefallen) bis 4 (eine Eins) und gehen aufwärts in Schritten von 0,2.
John – 3.0
Mary — 2.8
George — 2.8
Beth — 2.4
Sam — 3.2
Judy — 2.8
Fritz — 1.8
Kate — 3.8
Dave — 2.6
Jenny — 3.4
Mike — 2.4
Sue — 4.0
Don — 3.4
Ellen — 3.2
Orville — 2.2
Hier die Information in Form eines Graphen.
Zentrale Tendenz
Zentrale Tendenz bezieht sich auf den Gedanken, dass es eine Zahl gibt, die den gesamten Datensatz am besten zusammenfasst, eine Zahl, die in gewisser Hinsicht für den Satz “zentral” ist.
Der statistische Mittelwert (Modus). Der Mittelwert ist das Messergebnis mit größter Häufigkeit, jenes, das Sie am häufigsten angetroffen haben. Obwohl er nicht so oft verwendet wird, ist er nützlich, wenn Differenzen selten sind oder nicht numerisch ausfallen. Das prototypische Beispiel einer Sache ist meist der statistische Mittelwert.
In unserem Beispiel ist der statistische Mittelwert 3,2. Es ist die Benotung, der die meisten Personen (3) zugeordnet sind.
Der Median. Der Median ist jene Zahl, oberhalb welcher die Hälfte Ihrer Messungen und unterhalb welcher die andere Hälfte liegt. Der Median ist eigentlich eine bessere Messung der Zentralität als der statistische Mittelwert, wenn Ihre Daten verzerrt, das heißt einseitig verteilt, sind. Wenn Sie beispielsweise ein Dutzend gewöhnlicher Leute und einen Millionär haben, wäre die Reichtumverteilung einseitig zu den gewöhnlichen Leuten hin verteilt, und der Millionär wäre ein Außenwert oder ein bedeutend abweichendes Mitglied der Gruppe. Der Millionär würde sich stark auf den statistischen Mittelwert auswirken, so dass es ausschaut, als seien alle Gruppenmitglieder recht wohlhabend. Der Median läge tatsächlich näher am Mittelwert aller anderen Personen abgesehen von Millionär.
In unserem Beispiel ist der Median 3,0. Die Hälfte der Leute erhielt schlechtere Noten und die andere Hälfte bessere (und eine Person exakt 3,0).
Arithmetisches Mittel. Das arithmetische Mittel ist einfach der Durchschnitt. Es ist die Summe all Ihrer Messungen dividiert durch die Anzahl der Messungen. Dies ist wegen der mathematischen Qualität die am häufigsten verwendete Messung der zentralen Tendenz. Es funktioniert am besten, wenn die Daten sehr gleichmäßig über die gesamte Bandbreite oder in Form einer Normal- oder Glockenkurve verteilt sind (vgl. unten). Ein interessanter Punkt zum arithmetischen Mittel ist, dass es den erwarteten Wert repräsentiert, wenn die Verteilung der Messungen zufällig gewesen wäre! Hier sehen Sie, wie die Formel ausschaut.
Also 3.0 + 2.8 + 2.8 + 2.4 + 3.2 + 2.8 + 1.8 + 3.8 + 2.6 + 3.4 + 2.4 + 4.0 + 3.4 + 3.2 + 3.2 ergibt 43.8. Dividieren Sie das durch 15 und Sie erhalten das arithmetische Mittel oder den Durchschnitt für unser Beispiel: 2.92.
Statistische Dispersionsmaße
Dispersion bezieht sich auf den Gedanken, dass es eine zweite Zahl gibt, die uns sagt, wie sich alle Messungen von dieser zentralen Zahl aus “verteilen”.
Die Spannweite [engl.: range]. Die Spannweite ist die Messung vom kleinsten Messergebnis zum größten. Dies ist die einfachste Messung statistischer Dispersion oder “Verteilung”.
In unserem Beispiel beträgt die Spannweite 2,2 – die Entfernung zwischen dem niedrigsten Wert (1,8) zum höchsten (4,0).
Interperzentilbereich. Eine etwas raffiniertere Messung ist der Interperzentilbereich. Wenn Sie die Daten in Interquartilbereiche einteilen, was bedeutet, dass ein Viertel der Messungen in Quartil 1 liegen, ein Viertel in 2, ein Viertel in 3 und ein Viertel in 4, erhalten Sie eine Zahl, die 1 und 2 teilt und eine Zahl, die 3 und 4 teilt. Dann messen Sie die Entfernung zwischen diesen beiden Zahlen, welche folglich die Hälfte der Daten betrifft. Beachten Sie, dass die Zahl zwischen Quartil 2 und 3 der Median ist!
In unseren Beispiel beträgt der Interperzentilbereich 0,9, weil die Quartile ungefähr bei 2,45 und 3,35 geteilt sind. Der Grund für die merkwürdigen Trennlinien besteht darin, dass es 15 Datensätze sind, die natürlich nicht sauber in Quartile aufzuteilen sind!
Die Standardabweichung [engl.: standard deviation]. Die Standardabweichung ist das “Durchschnittsmaß”, zu welchem Ergebnisse vom Mittel abweichen. Präziser formuliert berechnen Sie, wie weit all Ihre Messungen vom Mittel entfernt sind, quadrieren jeden Wert und addieren anschließend alle. Das Ergebnis wird als Varianz bezeichnet. Nehmen Sie die Quadratwurzel der Varianz und Sie erhalten die Standardabweichung. Wie das arithmetische Mittel ist dies der “erwartete Wert” dessen, wie weit die Noten vom Mittel abweichen. Hier sehen Sie, wie die Formel ausschaut.
Also, subtrahieren Sie das Mittel von jeder Note, quadrieren Sie sie und summieren Sie: 5.1321. Dann dividieren Sie durch 15 und ziehen die Quadratwurzel und Sie erhalten die Standardabweichung für unser Beispiel: 0,5849…. Eine Standardabweichung über dem Mittel liegt bei etwa 3.5; eine Standardabweichung darunter liegt bei etwa 2.3.
Die Normalverteilung
Im einfachsten Falle beschreiben zentrale Tendenz und Dispersionsmaße ein Rechteck, welches die Zusammenfassung des Datensatzes darstellt. Auf anspruchsvollerer Ebene beschreiben diese Maße eine Kurve wie etwa die Normalverteilung, welche die Daten am effizientesten wider gibt.
Diese Kurve, die auch Glockenkurve genannt wird, repräsentiert eine Verteilung, die bestimmte wahrscheinlichkeitsbezogene Ereignisse reflektiert, wenn sie auf eine unendliche Zahl an Messungen ausgedehnt ist. Es ist eine idealisierte Version dessen, was im Falle zahlreicher großer Datensätze geschieht: Die meisten Messergebnisse fallen in den Mittelbereich, wenige entfallen auf weiter von der Mitte entfernte Punkte. Ein einfaches Beispiel ist die Körpergröße: Sehr wenige Menschen sind unter 3 Fuß groß; sehr wenige sind über 8 Fuß groß; die meisten von uns liegen irgendwo zwischen 5 und 6 Fuß. Ebensolches gilt für Gewicht, IQ und SATs! In der Normalverteilung sind arithmetisches Mittel, Median und statistischer Mittelwert alle identisch.
Eine Standardabweichung [engl.: standard deviation, sd] unterhalb des arithmetischen Mittel beinhaltet 34,1% der Messungen, ebenso wie eine Standardabweichung oberhalb des arithmetischen Mittel. Unten zwischen eins uns zwei liegen 13.6%, ebenso oben. Zwischen zwei und drei Standardabweichungen liegen 2,1% auf jeder Seite. Um es einmal anders zu betrachten: zwischen einer Standardabweichung oberhalb und unterhalb haben wir 68% der Daten; zwischen zwei unterhalb und zwei oberhalb haben wir 95%; zwischen drei unterhalb und drei oberhalb haben wir 99,7%.
Wegen ihrer mathematischen Eigenschaften, insbesondere der engen Verbindungen zur Wahrscheinlichkeitstheorie, wird die Normalverteilung häufig unter der Annahme in der Statistik verwendet, dass Mittel und Standardabweichung eines Datensatzes die Verteilung definieren. Hoffentlich ist erkennbar, dass dies nicht annähernd für alle Fälle wahr ist. Die beste Darstellung Ihrer Messungen ist ein Diagramm, welches alle Messergebnisse beinhaltet, nicht nur ihr Mittel und ihre Standardabweichung! Unser obiges Beispiel ist ein deutliches Beispiel – eine Normalverteilung mit einem Mittel von 2,92 und einer Standardabweichung von 0,58 unterschiedet sich beträchtlich vom Muster der ursprünglichen Daten. Ein gutes lebensnahes Beispiel sind IQ und Intelligenz: IQ-Tests sind absichtlich so berechnet, dass sie eine Normalverteilung generieren, und weil wir eben mit IQ-Tests Intelligenz messen, gehen wir oft davon aus, dass Intelligenz normal verteilt ist, was überhaupt nicht notwendiger Weise zutreffen muss!
Weitere Details finden Sie hier.
Zitation
11 Qualitative Methoden « | » 13 Korrelation
© dt. 2006-2008: d.wieser für social-psychology.de. All rights reserved.



