Bestimmtheitsmaß

Eine gesichtete Version dieser Seite, die am 11. November 2013 freigegeben wurde, basiert auf dieser Version.

Das Bestimmtheitsmaß (abk. $R^{2}$ oder $B$ , auch Determinationskoeffizient) ist ein Maß der Statistik für den erklärten Anteil der Variabilität (Varianz) einer abhängigen Variablen $Y$ durch ein statistisches Modell. Indirekt wird damit auch der Zusammenhang zwischen der abhängigen und der/den unabhängigen Variablen gemessen (siehe Fehlerreduktionsmaße)^[1]^[2].

Nur im Fall eines linearen Regressionsmodells, d.h. $Y_{i}=b_{0}+b_{1}X_{i1}+...+b_{p}X_{ip}+U_{i}$ , gibt es eine eindeutige Definition: das Quadrat des multiplen Korrelationskoeffizienten. Ansonsten existieren meist mehrere unterschiedliche Definitionen (siehe Pseudo-Bestimmtheitsmaß).

Das Bestimmtheitsmaß $R^{2}$

Zusammenhang von Korrelations- und Determinationskoeffizient

Interpretation

Die Maßzahl $R^{2}$ ist der Anteil der Variation von $Y$ (oder auch der Varianz von $Y$ , da gilt ${\mbox{Variation}}(Y)=n*{\mbox{Var}}(Y)$ ), der durch die lineare Regression erklärt wird, und liegt daher zwischen

0 (oder 0 %): kein linearer Zusammenhang und

1 (oder 100%): perfekter linearer Zusammenhang.

Ist $R^{2}=0$ , dann besteht das "beste" lineare Regressionsmodell nur aus der Konstanten $b_{0}$ , alle anderen Koeffizienten $b_{i}$ sind Null. Ist $R^{2}=1$ , dann lässt sich die Variable $Y$ vollständig durch das lineare Regressionsmodell erklären.

Konstruktion

Die Variation von $Y$ wird zerlegt in die Variation der Residuen (durch das Modell nicht erklärte Variation) und die Variation der Regresswerte (durch das Modell erklärte Variation):

$\underbrace {\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}} _{\mbox{Variation von Y}}=\underbrace {\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}} _{\mbox{Variation der Residuen}}+\underbrace {\sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}} _{\mbox{Variation der Regresswerte}}$

mit ${\bar {Y}}$ der Mittelwert der $Y$ 's, ${\hat {Y}}_{i}$ die geschätzten Regresswerte aus dem Regressionsmodell ( ${\hat {Y}}_{i}={\hat {b}}_{0}+{\hat {b}}_{1}X_{i1}+...+{\hat {b}}_{p}X_{ip}$ ). Dies folgt in zwei Schritten

1. $\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}=\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i}+{\hat {Y}}_{i}-{\bar {Y}})^{2}$

=\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}+2\underbrace {\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})} _{=0}+\sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}

2. Wenn die Residuen $U_{i}=Y_{i}-{\hat {Y}}_{i}$ sind, dann gilt

\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})({\hat {Y}}_{i}-{\bar {Y}})=\sum _{i=1}^{n}U_{i}({\hat {Y}}_{i}-{\bar {Y}})=\underbrace {\sum _{i=1}^{n}U_{i}{\hat {Y}}_{i}} _{=0}-{\bar {Y}}\underbrace {\sum _{i=1}^{n}U_{i}} _{=0}=0

und

\sum _{i=1}^{n}U_{i}{\hat {Y}}_{i}={\hat {b}}_{0}\underbrace {\sum _{i=1}^{n}U_{i}} _{=0}+{\hat {b}}_{1}\underbrace {\sum _{i=1}^{n}U_{i}X_{i1}} _{=0}+...+{\hat {b}}_{p}\underbrace {\sum _{i=1}^{n}U_{i}X_{ip}} _{=0}=0

Dass alle Ausdrücke Null sind, folgt aus den verwendeten Schätzverfahren (Maximum-Likelihood-Methode mit normalverteilten Fehlern oder Kleinste-Quadrate-Methode). Denn die ersten Ableitungen nach

b_{i}

müssen gleich Null gesetzt werden um das Maximum bzw. Minimum zu finden, also für

{\hat {b}}_{0}

:

-2\sum _{i=1}^{n}U_{i}=0

bzw. für

{\hat {b}}_{k}

mit

k>0

:

-2\sum _{i=1}^{n}U_{i}X_{ik}=0

.

Damit wird das Bestimmtheitsmaß $R^{2}$ definiert als:

$R^{2}=1-{\frac {\displaystyle \sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}}{\displaystyle \sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}=1-{\frac {\mbox{Variation der Residuen}}{\mbox{Variation von Y}}}={\frac {\mbox{Variation der Regresswerte}}{\mbox{Variation von Y}}}={\frac {\displaystyle \sum _{i=1}^{n}({\hat {Y}}_{i}-{\bar {Y}})^{2}}{\displaystyle \sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}$

In der Literatur findet man auch folgende Notation für die

Variation von $Y$ : $TSS=SS_{Total}$ (total sum of squares),
Variation der Residuen: $RSS=SS_{Residuen}$ (sum of squared residual) und
Variation der Regresswerte: $ESS=SS_{Regression}$ (estimated sum of squares).

Zusammenhang mit Korrelationskoeffizienten

Bei einer einfachen Regression (nur eine unabhängige Variable) entspricht $R^{2}$ dem Quadrat des Pearson'schen Korrelationskoeffizienten $r_{xy}$ und lässt sich aus der Kovarianz $s_{xy}$ und den Einzelvarianzen $s_{x}^{2}$ und $s_{y}^{2}$ berechnen:

R^{2}=r_{xy}^{2}={\frac {s_{xy}^{2}}{s_{x}^{2}s_{y}^{2}}}.

Bei einer multiplen Regression (mehr als eine unabhängige Variable) entspricht $R^{2}$ dem Quadrat des multiplen Korrelationskoeffizienten, also der Korrelation zwischen $Y$ und $b_{1}X_{1}+...+b_{p}X_{p}$ .

Beispiel

Streudiagramm von Längen und Breiten von zehn zufällig ausgewählten Kriegsschiffen

Folgendes Beispiel soll die Berechnung des Bestimmtheitsmaßes zeigen. Es wurden zufällig zehn Kriegsschiffe ausgewählt und zwei Merkmale, Länge (m) und Breite (m), analysiert. Das Streudiagramm zeigt, dass zwischen Länge und Breite eines Schiffs offensichtlich ein linearer Zusammenhang besteht:

{\mbox{Geschätzte Breite}}=0,1612339286\times {\mbox{Länge}}-8,645057143

,

d.h. die Breite der ausgewählten Kriegsschiffe entspricht grob einem Sechstel der Länge.

Nummer	Länge (m)	Breite (m)	Abweichung vom Mittelwert	Quadrierte Abweichung	Geschätzte Breite	Residuum	Quadriertes Residuum
i	$x_{i}$	$y_{i}$	$y_{i}-{\bar {y}}$	$(y_{i}-{\bar {y}})^{2}$	${\hat {y}}_{i}$	$u_{i}=y_{i}-{\hat {y}}_{i}$	$u_{i}^{2}$
1	208	21,6	3,19	10,1761	24,8916	-3,2916	10,8347
2	152	15,5	-2,91	8,4681	15,8625	-0,3625	0,1314
3	113	10,4	-8,01	64,1601	9,5744	0,8256	0,6817
4	227	31,0	12,59	158,5081	27,9550	3,045	9,2720
5	137	13,0	-5,41	29,2681	13,4440	-0,4440	0,1971
6	238	32,4	13,99	195,7201	29,7286	2,6714	7,1362
7	178	19,0	0,59	0,3481	20,0546	-1,0546	1,1122
8	104	10,4	-8,01	64,1601	8,1233	2,2767	5,1835
9	191	19,0	0,59	0,3481	22,1506	-3,1506	9,9265
10	130	11,8	-6,61	43,6921	12,3154	-0,5154	0,2656
$\Sigma$		184,1		574,8490		0,0000	44,7405

Der Mittelwert der Breite ist ${\bar {y}}=18,41$ m, die Variation von $y$ ist gleich $574,849$ m² und die Variation der Residuen $44,7405$ m². Daher ergibt sich das Bestimmtheitsmaß zu

R^{2}=1-{\frac {44,7405}{574,8490}}=0,92217

,

d.h. ca. 92 % der Variation der Breite der ausgewählten Kriegsschiffe kann mit Hilfe der Länge der ausgewählten Kriegsschiffe erklärt werden. Nur knapp 8% der Variation der Breite bleiben unerklärt, d.h. hier könnte man z.B. nach weiteren Faktoren suchen, die die Breite eines Kriegsschiffes beeinflussen.

Auch mit der Schätzung der Standardabweichung der Residuen könnte die Qualität der Regression eingeschätzt werden:

s_{u}={\begin{cases}{\sqrt {{\tfrac {1}{n}}\sum _{i=1}^{n}u_{i}^{2}}}=2,1152&{\mbox{ (verzerrte Schätzung)}}\\{\sqrt {{\tfrac {1}{n-2}}\sum _{i=1}^{n}u_{i}^{2}}}=2,3649&{\mbox{ (unverzerrte Schätzung)}}\end{cases}}

Zum Vergleich ist jedoch die Kenntnis der Variation der Y-Werte notwendig. Beim normierten Bestimmtheitsmaß kann man, ohne Kenntnis der Variation der Y-Werte, aufgrund des Wertes von 92 % sehen, dass die lineare Regression sehr gut ist.

Grenzen und Kritik

Beispiele für Daten mit einem hohen (pink) und einem niedrigen (blau) Bestimmtheitsmaß bei einem zugrundegelegten linearen Modell

Das Bestimmtheitsmaß zeigt zwar die Qualität der linearen Approximation, jedoch nicht, ob das Modell richtig spezifiziert wurde. Modelle, die mittels kleinster Quadrate geschätzt wurden, werden daher die höchsten $R^{2}$ erhalten.

Übliche Missverständnisse sind:
- Ein hohes $R^{2}$ erlaubt eine gute Vorhersage. Die pinken Daten in der Grafik rechts legen nahe, dass sich die Richtung der Daten für höhere Werte von $X$ ändert.
- Ein hohes $R^{2}$ gibt an, dass die geschätzte Regressionslinie eine gute Approximation an die Daten darstellt; die roten Daten legen auch hier etwas anderes nahe.
- Ein $R^{2}$ nahe bei Null zeigt an, dass es keinen Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt. Die blauen Daten in der Grafik rechts zeigen einen deutlichen, allerdings nicht-linearen (nämlich quadratischen) Zusammenhang, obwohl $R^{2}$ gleich Null ist. Ein vollständigeres Bild kann man hier bekommen, indem man nichtlineare Regressionen berechnet, die dann auch solche Zusammenhänge erfassen.
Es sagt nichts darüber aus, ob die unabhängigen Variablen $X_{i}$ wirklich der Grund (die kausale Ursache) für die Änderungen in $Y$ sind. Z.B. gibt es tatsächlich einen statistischen Zusammenhang zwischen der Anzahl der Störche und der Anzahl der neugeborenen Kinder in einem Gebiet. Der Grund für den Zusammenhang könnte sein, dass in einem mehr ländlichen Gebiet sowohl die Zahl der Störche als auch die Zahl der neugeborenen Kinder größer ist als in einem mehr städtisch geprägten Gebiet (empirisch ist dies allerdings nicht der Fall). Eine solche, den Zusammenhang vermittelnde Variable, wird als intervenierende Variable bezeichnet. Sinnvollerweise würde man dann statt einer Regression ${\mbox{Zahl der Kinder}}=b_{0}+b_{1}{\mbox{Zahl der Störche}}$ eine Regression ${\mbox{Zahl der Kinder}}=b_{0}+b_{1}{\mbox{Städtische Ausprägung}}$ durchführen, oder die intervenierende Variable aus dem Zusammenhang herauspartialisieren.
Außerdem sagt es nichts über die statistische Signifikanz des ermittelten Zusammenhangs und der einzelnen Regressoren aus. Dazu müsste die Stichprobengröße bekannt sein und ein Signifikanztest durchgeführt werden.
Es macht keine Aussage über Multikollinearität der unabhängigen Variablen $X_{i}$ .
Es macht keine Aussage, ob eine Transformation der Daten die Erklärungskraft der Regression verbessert.
Ein weiterer Nachteil liegt in der Empfindlichkeit gegenüber Trends: Sofern sich eine exogene Variable parallel zu einer erklärenden entwickelt, werden unabhängig von der wahren Erklärungskraft des Modells hohe $R^{2}$ ausgewiesen.

Das korrigierte Bestimmtheitsmaß

Definition

Das Bestimmtheitsmaß $R^{2}$ hat die Eigenschaft, dass es umso größer wird, je größer die Zahl der unabhängigen Variablen ist. Und zwar unabhängig davon, ob weitere unabhängige Variablen wirklich einen Beitrag zur Erklärungskraft liefern. Daher ist es ratsam, das korrigierte Bestimmtheitsmaß (auch bereinigtes, adjustiertes oder angepasstes Bestimmtheitsmaß genannt) zu Rate zu ziehen. Es berechnet sich wie folgt:

{\bar {R}}^{2}=1-(1-R^{2}){\frac {n-1}{n-p-1}}=R^{2}-(1-R^{2}){\frac {p}{n-p-1}}.

Hierbei wird die Erklärungskraft des Modells, repräsentiert durch $R^{2}$ , ausbalanciert mit der Komplexität des Modells, repräsentiert durch $p$ , die Anzahl der unabhängigen Variablen. Je komplexer das Modell ist, desto mehr "bestraft" ${\bar {R}}^{2}$ jede neu hinzugenommene unabhängige Variable.

Das angepasste Bestimmtheitsmaß ${\bar {R}}^{2}$ steigt nur, wenn $R^{2}$ ausreichend steigt, um den gegenläufigen Effekt des Quotienten ${\frac {n-1}{n-p-1}}$ auszugleichen und kann auch sinken. Auf diese Weise lässt sich ${\bar {R}}^{2}$ als Entscheidungskriterium bei der Auswahl zwischen zwei alternativen Modellspezifikationen (etwa einem restringierten und einem unrestringierten Modell) verwenden.

Das korrigierte Bestimmtheitsmaß ${\bar {R}}^{2}$ kann auch negative Werte annehmen und ist kleiner als das unbereinigte, außer falls $R^{2}=1\;$ , dann ist auch ${\bar {R}}^{2}=1$ .

Konstruktion

Aus der obigen Definition von $R^{2}$ folgt, dass

R^{2}=1-{\frac {\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}}{\displaystyle {\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}.

Wir wissen jedoch, dass ${\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}$ und ${\frac {1}{n}}\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}$ keine unverzerrten Schätzer für die Varianzen sind. Setzt man oben und unten unverzerrte Schätzer ein, so erhält man das korrigierte Bestimmtheitsmaß:

{\bar {R}}^{2}=1-{\frac {\displaystyle {\frac {1}{n-p-1}}\sum _{i=1}^{n}(Y_{i}-{\hat {Y}}_{i})^{2}}{\displaystyle {\frac {1}{n-1}}\sum _{i=1}^{n}(Y_{i}-{\bar {Y}})^{2}}}

.

Pseudo-Bestimmtheitsmaß

Im Falle einer linearen Regression mit einer abhängigen metrischen Variablen $Y$ beschreibt das Bestimmtheitsmaß den erklärten Anteil der Variabilität (Varianz) einer abhängigen Variablen $Y$ durch ein statistisches Modell. Bei einem nominalen oder ordinalen Skalenniveau von $Y$ existiert jedoch kein Äquivalent, da man die Varianz und damit ein $R^{2}$ nicht berechnen kann. Für diese wurden verschiedene Pseudo-Bestimmtheitsmaße vorgeschlagen.

Prognose-Bestimmtheitsmaß

Während das Bestimmtheitsmaß, das korrigierte Bestimmtheitsmaß oder auch die Pseudo-Bestimmtheitsmaße eine Aussage über die Modellgüte machen, zielt das Prognose-Bestimmtheitsmaß auf die Vorhersagequalität des Modells. Im Allgemeinen wird das Prognose-Bestimmtheitsmaß kleiner als das Bestimmtheitsmaß sein.

Zunächst wird der PRESS Wert (engl.: PREdiction Sum of Squares) berechnet

PRESS=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i,-i})^{2}.

$y_{i}$ ist der beobachtete Wert und ${\hat {y}}_{i,-i}$ der Wert, der sich als Schätzung von $y_{i}$ ergibt, wenn alle Beobachtungen außer der iten in das Regressionmodell einfliessen. D.h. zur Berechnung des PRESS Wertes müssten $n$ lineare Regressionsmodelle mit jeweils $n-1$ Beobachtungen berechnet werden.

Es lässt sich jedoch zeigen, dass das Residuum $y_{i}-{\hat {y}}_{i,-i}$ aus den Regressionsresiduen $y_{i}-{\hat {y}}_{i}$ (bei Benutzung aller $n$ Beobachtungen) berechnet werden kann.

Das Prognose-Bestimmtheitsmaß ergibt sich dann als

R_{\text{prog.}}^{2}=1-{\frac {PRESS}{\sum _{i=1}^{n}(y_{i}-{\bar {y}})^{2}}}

mit ${\bar {y}}$ der Mittelwert aller y Werte.

Literatur

Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W. (1996), Applied linear statistical models (Fourth edition), McGraw-Hill

Einzelnachweise

↑ Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249-295
↑ Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423-469

[1] Yule, G.U. (1897), On the theory of correlation, Journal of the Royal Statistical Society, 62, S. 249-295

[2] Pearson, K., Lee, A. (1897), On the Distribution of Frequency (Variation and Correlation) of the Barometric Height at Divers Stations, Philosophical Transactions of the Royal Society of London. Series A, Vol. 190, S. 423-469

[1]

[2]

Bestimmtheitsmaß

Inhaltsverzeichnis

Das Bestimmtheitsmaß $R^{2}$

Interpretation

Konstruktion

Zusammenhang mit Korrelationskoeffizienten

Beispiel

Grenzen und Kritik

Das korrigierte Bestimmtheitsmaß

Definition

Konstruktion

Pseudo-Bestimmtheitsmaß

Prognose-Bestimmtheitsmaß

Literatur

Einzelnachweise

Navigationsmenü

Bestimmtheitsmaß

Das Bestimmtheitsmaß R 2 {\displaystyle R^{2}}

Interpretation

Konstruktion

Zusammenhang mit Korrelationskoeffizienten

Beispiel

Grenzen und Kritik

Das korrigierte Bestimmtheitsmaß

Definition

Konstruktion

Pseudo-Bestimmtheitsmaß

Prognose-Bestimmtheitsmaß

Literatur

Einzelnachweise

Navigationsmenü

Suche

Das Bestimmtheitsmaß $R^{2}$