Berechne die Ergebnisse einer linearen Regression, ganz ohne eigene Programmierkenntnisse! Wähle einen Beispieldatensatz, eine unabhängige Variable (X) und eine abhängige Variable (Y). Schätze zum Beispiel mit dem Catholic Datensatz, ob das Einkommen einer Familie (faminc8) einen Einfluss auf die Leseleistung (read12) von Kinder hat.


Beginnen wir mit einem Blick auf die vorliegenden Daten. Diese zwei Variablen des Datensatzes sind momentan ausgewählt:


              
Zu Beginn der Datenanalyse sollten wir uns mit den Daten vertraut machen. Was wurde gemessen und mit welcher Skalierung? Als nächstes sehen wir Summary Statistics für die unabhängige Variable und die abhängige Variable. Diese geben uns einen ersten Eindruck über die Skalierung und Verteilung der Variablen.

Ein Histogramm zeigt uns, wie die abhängige Variablen verteilt sind:

Und das ganze nochmal für die unabhängige Variable:

Das Ziel, einer linearen Regression ist es, den Einfluss einer unabhängigen Variable X auf ein Outcome Y vorauszusagen. Oft werden mehrere unabhängige Variablen zur Vorhersage verwendet, wir bleiben aber bei dem bivariaten Beispiel mit zwei Variablen. Die Prinzipien einer linearen Regression lassen sich auf diese Weise leichter erklären.

Was wird also durch die Regression erreicht? Wir versuchen einen Gerade zu finden, die möglichst gut die einzelnen Datenpunkte beschreibt. Dafür berechnen wir die lineare Assoziation zwischen X und Y. Um zu überprüfen, ob die Variablen überhaupt linear assoziiert sind, können wir ein Scatterplot verwenden. Schauen wir uns die ausgewählten Variablen einmal an:

Was würdest Du sagen? Gibt es eine lineare Assoziation zwischen X und Y in deinem Fall?


              
Zur Veranschaulichung der Regression können wir erstmal bei diesen Variablen bleiben und eine Regression durchführen. Wir können verschiedene Statistikprogramme verwenden, um erstens den Y-Achsenabschnitt (engl. intercept) und zweitens eine Schätzer für den Effekt der unabhängigen Variable auf Y, den Beta-Koeffizienten, zu berechnen. Der Output der Statistiksoftware sieht wie folgt aus:


              
Könnest Du die Ergebnisse interpretieren? Könnest Du auch den vorhergesagten Wert berechnen, wenn X um 1 Einheit ansteigt?

Tipp: Denk an die Regressionsgleichung! $$y_i=\beta_1+\beta_2*x_i$$

                

                

              
Jetzt wissen wir ja, ob X und Y korreliert sind. Doch wie stark ist der Effekt? Wir verwenden die Regressionsergebnisse und visualisieren beide Punktschätzungen aus der Regression. Kannst du anhand des gezeigten Punktschätzers erkennen, ob X eine starken Effekt auf Y hat?


              
Nachdem wir uns mit der statistischen Signifikanz und der Effektgröße beschäftigt haben, bleibt eine Frage offen: Wie gut wird Y durch X erklärt?

In vielen Fällen ist die Vorhersage der Regression nicht perfekt, wir machen einen Fehler in der Vorhersage. Hier sind die Fehler in der Grafik in rot eingezeichnet, also die Abweichungen der Daten von der Regressionslinie. Es handelt sich um die Differenz zwischen dem vorhergesagten Wert (Regressionsgerade) und den beobachteten Werten. Was würdest du in Deinem Fall sagen? Wie gut kann X das Outcome erklären?

Vielleicht denkst Du jetzt, kleine Fehler sind okay. Um zu verstehen, ob der Fehler nicht doch groß ist, müssen wir mehrere Aspekte prüfen. Zuerst sollten wir wissen, was R² bedeutet. R² ist ein Indikator der uns hilft zu beurteilen, wie groß der Fehler ist oder wie gut das Modell das Outcome erklärt.

Um R² zu verstehen, müssen wir zuerst die Gesamtvarianz von Y betrachten. Hierfür nehmen wir an, dass X gar nicht zur Erklärung von Y beiträgt. Was würdest Du sagen, wie würde eine entsprechende Regressionsgerade verlaufen?

Unterstellt man, dass X keinen Einfluss auf Y hat, wäre der Beta-Koeffizient und damit die Steigung der Geraden gleich 0. Egal welcher X-Wert vorliegt, wir würden immer den gleichen Y-Wert beobachten. Die Gerade wäre flach. Das einzige zur Verfügung stehende Mittel um y vorherzusagen wäre beispielsweise das arithmetische Mittel von Y. Die blauen Linien in der obigen Grafik zeigt Dir die Gesamtabweichung der beobachteten Werte vom arithmetischen Mittel. Das wäre der Gesamtfehler, den wir in diesem Fall machen könnten, wenn wir keine erklärende Variable X aufnehmen bzw. X nicht zur Erklärung von Y beiträgt.


Aber wir haben in den vorherigen Schritten ja bereits eine Regressionslinie angepasst. Auf Grundlage der beobachteten Werte von X können wir Y bis zu einem gewissen Grad erklären. Hier siehst Du die in grün eingefärbte erklärte Varianz. Das ist der Betrag von Y, der tatsächlich durch X erklärt werden kann:

Wir kennen also die Gesamtvarianz und die erklärte Varianz. Mit diesen zwei Werten können wir R-Quadrat berechnen und somit den Fehler bewerten. R-Quadrat ist der Anteil (%) der Varianz von Y, der mit der Regression vorhersagbar ist. Also die erklärte Varianz geteilt durch die Gesamtvarianz. Das letzte Balkendiagramm zeigt alle drei Varianzkomponenten.

Jetzt bist Du dran! Wie gut erklärt X Dein Outcome?