Schülerhilfe Logo
Online-LernCenter

Lineare Regression – online lernen

Mit Hilfe der linearen Regression und der Korrelation wirst du lernen, wie man gewissen Voraussagen treffen kann, was statistische Werte angeht. Das wird dir bei vielen Aufgaben sehr weiterhelfen.

Wiki zum Thema: Lineare Regression & Korrelation

Korrelation


Die Korrelation (von lat. correlatio für „Wechselbeziehung“) beschreibt den Zusammenhang zwischen zwei oder mehreren Ereignissen, Merkmalen etc. Hierbei interessiert nicht nur, ob zwei oder mehrere Elemente eines Systems zusammenhängen, sondern auch wie stark dieser Zusammenhang ist. Wichtig ist, zu verstehen, dass eine Korrelation nicht zwingend eine „Ursache & Wirkung“-Beziehung beschreibt. Eine starke Korrelation bedeutet nicht zwangsläufig, dass das eine Element des betrachteten Systems das andere bedingt.


Beispiel: Im Winter werden mehr Heißgetränke (Tee, Kakao, Kaffee) konsumiert als im Sommer. Außerdem treten im Winter mehr Erkältungen auf.

a) Gibt es eine Korrelation zwischen dem erhöhten Konsum von Heißgetränken und der erhöhten Anzahl an Erkältungen?

  • Ja, statistisch scheint ein Zusammenhang vorzuliegen.

b) Liegt eine „Ursache & Wirkung“-Beziehung vor?

  • Nein, man kann nicht folgern, dass der Konsum von Heißgetränken Erkältungen zur Folge hat.


Bemerkung: Die Messgrößen (Heißgetränkkonsum und Erkältung) hängen hier über eine dritte Größe kausal zusammen, und zwar über die kälteren Temperaturen im Winter, welche sowohl den Konsum von Heißgetränken anregt, als auch Erkältungen begünstigt.

Wichtig: Das wohl bekannteste Maß, mit dem man solche Zusammenhänge misst, ist der Korrelationskoeffizient (von Bravais-Pearson). Diesen zu berechnen, erfordert allerdings Methoden der höheren Statistik und ist nicht Gegenstand des Schulunterrichts.

Lineare Regression


Unter linearer Regression versteht man ein mathematisches Verfahren, um eine Gerade möglichst genau an gegebene Messwerte anzupassen. Ein genaues Verfahren soll hier nicht Thema sein, da man dafür Methoden der höheren Mathematik benötigen würde. Ein anschauliches Beispiel soll aber gegeben werden.


Beispiel: Wie könnte eine Regressionsgerade zu den Punkten A(2|1), B(2,5|2) und C(4,5|2) aussehen?

Nach Augenmaß könnte man wie in der Abbildung die Gerade g einzeichnen, mit g:y=0,3x+1.

Wenn man möchte, kann man nun ein Maß für die Qualität dieser Gerade finden. Dazu geht man wie folgt vor:

  • Für jeden gegebenen x-Wert berechnen wir mit Hilfe der Geradengleichung einen y-Wert.
  • Für jeden gegebenen Punkt wird die Differenz des gegebenen y-Wertes mit dem berechneten y-Wert bestimmt.
  • Um negative Differenzen nutzbar zu machen und den einzelnen Werten mehr Gewichtung zu geben, werden die Differenzen quadriert.
  • Die quadratischen Abweichungen werden nun aufaddiert. Je kleiner der Wert, desto besser die Regressionsgerade.

In diesem Beispiel wäre die Summe der quadratischen Abweichungen 0,36+0,0625+0,1225=0,545. Kein schlechter Wert, aber es geht noch besser. Die ideale Regressionsgerade würde lauten: y=0,29x+0,81. Diese zu bestimmen, ist mit Mitteln der Schulmathematik jedoch nicht möglich.

Satz von Bayes


Vorbemerkung: Vorab sollte das Wiki zum Satz der totalen Wahrscheinlichkeit gelesen und nachvollzogen werden.

Theorem: (Satz von Bayes) Sei Ω ein Ergebnisraum und seien B1,B2,...,Bi eine Zerlegung von Ω, d.h. B1B2...Bi=Ω (d.h. die B’s sind Teilmengen von Ω, die vereinigt insgesamt wieder Ω ergeben) und BiBj=O für i=j, dann gilt für jedes Ereignis A mit P(A)>0 und jedes Bi aus der Zerlegung:

  • P(Bi|A)=P(A|Bi)P(Bi)P(A|B1)P(B1)+P(A|B2)P(B2)+...+P(A|Bi)P(Bi)

Da der Satz von Bayes und der Satz der totalen Wahrscheinlichkeit die gleichen Voraussetzungen haben, kann auf den Ausdruck im Nenner der Satz der totalen Wahrscheinlichkeit angewendet werden. Der Term im Nenner ist genau derjenige, den der Satz der totalen Wahrscheinlichkeit als P(A) bezeichnet, also folgt:

  • P(Bi|A)=P(A|Bi)P(Bi)P(A)

Wir sehen also, dass zur erfolgreichen Anwendung des Satzes von Bayes zunächst der Satz der totalen Wahrscheinlichkeit benötigt wird.


Beispiel: Ausgehend von den gleichen Urnen und den gleichen Ereignissen wie im Beispiel zum Satz der totalen Wahrscheinlichkeit: Es wurde eine schwarze Kugel gezogen. Mit welcher Wahrscheinlichkeit stammt sie aus Urne Uj?

Gefragt ist nach dem Ereignis P(Bj|A)

Mit dem Satz von Bayes folgt: 

P(Bj|A)=P(A|Bj)P(Bj)P(A|B0)P(B0)+P(A|B1)P(B1)+...+P(A|B5)P(B5)

P(Bj|A)=P(A|Bj)P(Bj)P(A)

P(Bi|A)=j51612=j15

Demnach ist die Kugel mit einer Wahrscheinlichkeit von j15 aus Urne j. Für Urne U3 wäre es also z.B.: 

P(B3|A)=315=15

Mittlere lineare Abweichung


Die mittlere lineare Abweichung e einer Menge von Datenwerten gibt an, wie sehr die einzelnen Werte vom Mittelwert abweichen. Sie ermöglicht es, verschiedene Stichproben miteinander zu vergleichen.

Um die mittlere lineare Abweichung zu bestimmen, muss man folgendermaßen vorgehen:

  • Man bestimmt das arithmetische Mittel x¯ (den Mittelwert) der Daten.
  • Man berechnet für jeden Datenwert den Betrag der Differenz zum Mittelwert.
    (Betrag bedeutet, dass man bei negativen Ergebnissen das Minus weglässt.)
  • Man bestimmt das arithmetische Mittel dieser Beträge. Das Ergebnis ist die gesuchte mittlere lineare Abweichung.

Es ist dabei sinnvoll, sich die Daten in einer Tabelle anzuordnen.


Als Beispiel dient die Datengruppe 2,4,6,6,8,16.

Mittelwert:  x¯=2+4+6+6+8+166=7 

Datenwert

Differenz zu x¯ 

Betrag der Differenz

 2 72=5|5|=5
 4 74=3|3|=3
 6 76=1|1|=1
 6 76=1|1|=1
 8 78=1|1|=1
 16 716=9|9|=9

Mittlere lineare Abweichung:

e=5+3+1+1+1+96=206=3,3¯

Zusatzinfo:
Als Formel fasst man die mittlere lineare Abweichung mit Hilfe des Summenzeichens  zusammen. Die einzelnen Datenwerte heißen xi.

Für n Datenwerte lautet die Formel damit

e=1ni=1n|x¯xi|

Mittlere quadratische Abweichung


Die mittlere quadratische Abweichung einer Menge von Datenwerten gibt an, wie sehr die einzelnen Datenwerte vom Mittelwert abweichen. Man nennt sie auch Varianz (V). Sie ermöglicht es, verschiedene Stichproben miteinander zu vergleichen.

Um die Varianz zu bestimmen, muss man folgendermaßen vorgehen:

  • Man bestimmt das arithmetische Mittel x¯ (den Mittelwert) der Daten.
  • Man berechnet für jeden Datenwert die Differenz zum Mittelwert.
  • Man nimmt jede dieser Differenzen zum Quadrat.
  • Man bestimmt das arithmetische Mittel dieser Quadrate. Das Ergebnis ist die gesuchte Varianz.

Es ist dabei sinnvoll, sich die Daten in einer Tabelle anzuordnen.


Als Beispiel dient die Datengruppe 2,4,6,6,8,16.

Mittelwert:  x¯=2+4+6+6+8+166=7 

Datenwert

Differenz zu x¯ 

Quadrat der Differenz

2 72=552=25
4 74=332=9
6 76=112=1
6 76=112=1
8 78=1(1)2=1
16 716=9(9)2=81

 
Varianz: V=25+9+1+1+1+816=1186=19,6¯

Zusatzinfo:
Als Formel fasst man die Varianz mit Hilfe des Summenzeichens  zusammen. Die einzelnen Datenwerte heißen xi.

Für n Datenwerte lautet die Formel damit

V=1ni=1n(x¯xi)2

Arbeitsblätter

Beschreibende Statistik

Schwierigkeitsgrad: 1

Lineare Regression und Korrelation

Serie 02


Aufgabe 1

Bei einem Stadtfest wurden zufällig 15 Leute nach ihrer Körpergröße in cm und Gewicht in kg befragt.

Größe

190

187

196

193

182

165

188

177

197

195

181

178

194

174

163

Gewicht

100

92

108

103

85

63

95

78

107

102

68

80

99

74

60

a) Besteht eine Korrelation zwischen der Körpergröße und dem Gewicht?

b) Trage die Daten in das untere Koordinatensystem ein. Nehme die x-Achse für die Körpergröße und die y-Achse für das Gewicht.

c) Zeichne nun eine Regressionsgrade ein und bestimme die Gradengleichung.

d) Treffe eine Vorhersage für folgende Personen:

Person A: 177cm, Person B: 140cm, Person C: 83kg, Person D: 49kg




Interaktive Aufgaben
Mache jetzt einen Wissens-Check und teste deinen Lernstand direkt online.
Du kannst diesen Inhalt sehen, wenn du eingeloggt bist. Hier geht es zum Login. Wenn du noch keinen Zugang hast, kannst du dich jetzt hier registrieren.
Videos
Korrelation mit Kristina
Korrelation Sachaufgabe mit Kristina
Regression mit Kristina