Mit Hilfe der linearen Regression und der Korrelation wirst du lernen, wie man gewissen Voraussagen treffen kann, was statistische Werte angeht. Das wird dir bei vielen Aufgaben sehr weiterhelfen.
Die Korrelation (von lat. correlatio für „Wechselbeziehung“) beschreibt den Zusammenhang zwischen zwei oder mehreren Ereignissen, Merkmalen etc. Hierbei interessiert nicht nur, ob zwei oder mehrere Elemente eines Systems zusammenhängen, sondern auch wie stark dieser Zusammenhang ist. Wichtig ist, zu verstehen, dass eine Korrelation nicht zwingend eine „Ursache & Wirkung“-Beziehung beschreibt. Eine starke Korrelation bedeutet nicht zwangsläufig, dass das eine Element des betrachteten Systems das andere bedingt.
Beispiel: Im Winter werden mehr Heißgetränke (Tee, Kakao, Kaffee) konsumiert als im Sommer. Außerdem treten im Winter mehr Erkältungen auf.
a) Gibt es eine Korrelation zwischen dem erhöhten Konsum von Heißgetränken und der erhöhten Anzahl an Erkältungen?
Ja, statistisch scheint ein Zusammenhang vorzuliegen.
b) Liegt eine „Ursache & Wirkung“-Beziehung vor?
Bemerkung: Die Messgrößen (Heißgetränkkonsum und Erkältung) hängen hier über eine dritte Größe kausal zusammen, und zwar über die kälteren Temperaturen im Winter, welche sowohl den Konsum von Heißgetränken anregt, als auch Erkältungen begünstigt.
Wichtig: Das wohl bekannteste Maß, mit dem man solche Zusammenhänge misst, ist der Korrelationskoeffizient (von Bravais-Pearson). Diesen zu berechnen, erfordert allerdings Methoden der höheren Statistik und ist nicht Gegenstand des Schulunterrichts.
Unter linearer Regression versteht man ein mathematisches Verfahren, um eine Gerade möglichst genau an gegebene Messwerte anzupassen. Ein genaues Verfahren soll hier nicht Thema sein, da man dafür Methoden der höheren Mathematik benötigen würde. Ein anschauliches Beispiel soll aber gegeben werden.
Beispiel: Wie könnte eine Regressionsgerade zu den Punkten A(2|1), B(2,5|2) und C(4,5|2) aussehen?
Nach Augenmaß könnte man wie in der Abbildung die Gerade g einzeichnen, mit g:y=0,3x+1. |
Wenn man möchte, kann man nun ein Maß für die Qualität dieser Gerade finden. Dazu geht man wie folgt vor:
In diesem Beispiel wäre die Summe der quadratischen Abweichungen 0,36+0,0625+0,1225=0,545. Kein schlechter Wert, aber es geht noch besser. Die ideale Regressionsgerade würde lauten: y=0,29x+0,81. Diese zu bestimmen, ist mit Mitteln der Schulmathematik jedoch nicht möglich.
Vorbemerkung: Vorab sollte das Wiki zum Satz der totalen Wahrscheinlichkeit gelesen und nachvollzogen werden.
Theorem: (Satz von Bayes) Sei Ω ein Ergebnisraum und seien B1,B2,...,Bi eine Zerlegung von Ω, d.h. B1∪B2...∪Bi=Ω (d.h. die B’s sind Teilmengen von Ω, die vereinigt insgesamt wieder Ω ergeben) und Bi∩Bj=O für i=j, dann gilt für jedes Ereignis A mit P(A)>0 und jedes Bi aus der Zerlegung:
Da der Satz von Bayes und der Satz der totalen Wahrscheinlichkeit die gleichen Voraussetzungen haben, kann auf den Ausdruck im Nenner der Satz der totalen Wahrscheinlichkeit angewendet werden. Der Term im Nenner ist genau derjenige, den der Satz der totalen Wahrscheinlichkeit als P(A) bezeichnet, also folgt:
Wir sehen also, dass zur erfolgreichen Anwendung des Satzes von Bayes zunächst der Satz der totalen Wahrscheinlichkeit benötigt wird.
Beispiel: Ausgehend von den gleichen Urnen und den gleichen Ereignissen wie im Beispiel zum Satz der totalen Wahrscheinlichkeit: Es wurde eine schwarze Kugel gezogen. Mit welcher Wahrscheinlichkeit stammt sie aus Urne Uj?
Gefragt ist nach dem Ereignis P(Bj|A).
Mit dem Satz von Bayes folgt:
P(Bj|A)=P(A|Bj)⋅P(Bj)P(A|B0)⋅P(B0)+P(A|B1)⋅P(B1)+...+P(A|B5)⋅P(B5)
P(Bj|A)=P(A|Bj)⋅P(Bj)P(A)
P(Bi|A)=j5⋅1612=j15
Demnach ist die Kugel mit einer Wahrscheinlichkeit von j15 aus Urne j. Für Urne U3 wäre es also z.B.:
P(B3|A)=315=15
Die mittlere lineare Abweichung e einer Menge von Datenwerten gibt an, wie sehr die einzelnen Werte vom Mittelwert abweichen. Sie ermöglicht es, verschiedene Stichproben miteinander zu vergleichen.
Um die mittlere lineare Abweichung zu bestimmen, muss man folgendermaßen vorgehen:
Es ist dabei sinnvoll, sich die Daten in einer Tabelle anzuordnen.
Als Beispiel dient die Datengruppe 2,4,6,6,8,16.
Mittelwert: ¯x=2+4+6+6+8+166=7
Datenwert | Differenz zu ¯x | Betrag der Differenz |
2 | 7−2=5 | |5|=5 |
4 | 7−4=3 | |3|=3 |
6 | 7−6=1 | |1|=1 |
6 | 7−6=1 | |1|=1 |
8 | 7−8=−1 | |−1|=1 |
16 | 7−16=−9 | |−9|=9 |
Mittlere lineare Abweichung:
e=5+3+1+1+1+96=206=3,¯3
Zusatzinfo:
Als Formel fasst man die mittlere lineare Abweichung mit Hilfe des Summenzeichens ∑ zusammen. Die einzelnen Datenwerte heißen xi.
Für n Datenwerte lautet die Formel damit
e=1nn∑i=1|¯x−xi|
Die mittlere quadratische Abweichung einer Menge von Datenwerten gibt an, wie sehr die einzelnen Datenwerte vom Mittelwert abweichen. Man nennt sie auch Varianz (V). Sie ermöglicht es, verschiedene Stichproben miteinander zu vergleichen.
Um die Varianz zu bestimmen, muss man folgendermaßen vorgehen:
Es ist dabei sinnvoll, sich die Daten in einer Tabelle anzuordnen.
Als Beispiel dient die Datengruppe 2,4,6,6,8,16.
Mittelwert: ¯x=2+4+6+6+8+166=7
Datenwert | Differenz zu ¯x | Quadrat der Differenz |
2 | 7−2=5 | 52=25 |
4 | 7−4=3 | 32=9 |
6 | 7−6=1 | 12=1 |
6 | 7−6=1 | 12=1 |
8 | 7−8=−1 | (−1)2=1 |
16 | 7−16=−9 | (−9)2=81 |
Varianz: V=25+9+1+1+1+816=1186=19,¯6
Zusatzinfo:
Als Formel fasst man die Varianz mit Hilfe des Summenzeichens ∑ zusammen. Die einzelnen Datenwerte heißen xi.
Für n Datenwerte lautet die Formel damit
V=1nn∑i=1(¯x−xi)2
Lineare Regression und Korrelation
Schwierigkeitsgrad 1
Arbeitsblatt-Nr. 5763
Beschreibende Statistik | Schwierigkeitsgrad: 1 | ||||||||||||||||||||||||||||||||
Lineare Regression und Korrelation | Serie 02 | ||||||||||||||||||||||||||||||||
Aufgabe 1 | |||||||||||||||||||||||||||||||||
Bei einem Stadtfest wurden zufällig 15 Leute nach ihrer Körpergröße in cm und Gewicht in kg befragt. | |||||||||||||||||||||||||||||||||
a) Besteht eine Korrelation zwischen der Körpergröße und dem Gewicht? b) Trage die Daten in das untere Koordinatensystem ein. Nehme die x-Achse für die Körpergröße und die y-Achse für das Gewicht. c) Zeichne nun eine Regressionsgrade ein und bestimme die Gradengleichung. d) Treffe eine Vorhersage für folgende Personen: Person A: 177cm, Person B: 140cm, Person C: 83kg, Person D: 49kg | |||||||||||||||||||||||||||||||||
Lineare Regression und Korrelation
Schwierigkeitsgrad 1
Arbeitsblatt-Nr. 916
Schwierigkeitsgrad 2
Arbeitsblatt-Nr. 917
Schwierigkeitsgrad 2
Arbeitsblatt-Nr. 5764
Schwierigkeitsgrad 3
Arbeitsblatt-Nr. 918
Schwierigkeitsgrad 3
Arbeitsblatt-Nr. 5765