Kapitel 3

3 Deskriptive Statistik II

Die bisherigen Auswertungsmethoden beschränkten sich auf die Betrachtung eines Merkmals. Will man gleichzeitig mehrere Merkmale in die Auswertung einbeziehen, um deren Abhängigkeit zu untersuchen, braucht man andere Methoden.

3.1 Lernziele zu Kapitel 3

- Abhängigkeit zweier Merkmale
- Kontingenztafel
- Regression
- Korrelation
- Überlebenszeiten
- zensierte Überlebenszeiten
- Kaplan-Meier-Schätzer

3.2 Kontingenztafel

Zur Untersuchung der Abhängigkeit zweier qualitativer Merkmale eignet sich die Kontingenztafel, in der die gemeinsame Häufigkeitsverteilung zweier Merkmale tabellarisch dargestellt wird. Sind A und B zwei qualitative Merkmale mit den Ausprägungen A₁,A₂,...,A_p bzw. B₁,B₂,...,B_q, dann ist die zugehörige Kontingenztafel ein rechteckiges Zahlenschema, das in der i-ten Zeile und der j-ten Spalte die absolute Häufigkeit n_ij enthält, mit der die Ausprägungskombination A_iB_j bei den n Beobachtungseinheiten einer Stichprobe beobachtet wurde.

Ergänzt wird das Schema um je zwei Zeilen und zwei Spalten, die die Ausprägung der Merkmale und die Spaltensummen bzw. die Zeilensummen enthalten.

Tabelle 3.1: Allgemeine Kontingenztafel

B A	B₁	B₂	...	B_j	...	B_q	Zeilensumme
A₁	n₁₁	n₁₂	...	n_1j	...	n_1q	n_1.
A₂	n₂₁	n₂₂	...	n_2j	...	n₂_q	n_2.
. . .	. . .	. . .	...	. . .	...	. . .	. . .
A_i	n_i1	n_i2	...	n_ij	...	n_i_q	n_i.
. . .	. . .	. . .	...	. . .	...	. . .	. . .
A_p	n_p1	n_p2	...	n_pj	...	n_p_q	n_p.
Spaltensumme	n_.1	n_.2	...	n_.j	...	n_._q	n=n_..

Tabelle 3.1 kann man die allgemein üblichen Bezeichnungen entnehmen. Mit den Zeilen- bzw. den Spaltensummen erhält man wieder die absoluten Häufigkeiten des Merkmals A bzw. die des Merkmals B. In analoger Weise stellt man Kontingenztafeln für diskrete und klassierte stetige Merkmale auf. Häufig werden zusätzlich zu den absoluten Häufigkeiten auch die relativen Häufigkeiten in die Kontingenztafel eingetragen.

Je nach Fragestellung interessiert man sich für die

- Gesamtprozente, das sind die relativen Häufigkeiten bezogen auf den Stichprobenumfang n
- Zeilenprozente, das sind die relativen Häufigkeiten bezogen auf die jeweiligen Zeilensummen. Sie müssen sich in jeder Zeile zu 100 % addieren
- Spaltenprozente, das sind die relativen Häufigkeiten bezogen auf die jeweilige Spaltensumme. Sie addieren sich in jeder Spalte zu 100 %.

Beispiel 3.1

Tabelle 3.2 enthält von 20 Patienten einer Klinischen Studie die Daten zu den Merkmalen Therapie (TAD/TAD, TAD/HAM), Therapieergebnis (PR=Partial Remission, ED = Early Death, NR= Non Responder, CR= Complete Remission), Geschlecht und Alter.

Tabelle 3.2: Therapie, Therapieergebnis, Geschlecht und Alter für 20 Patienten

ld.	Therapie	Therapieergebnis	Geschlecht	Alter
1	TAD/TAD	PR	WEIBLICH	19
2	TAD/HAM	ED	MÄNNLICH	55
3	TAD/TAD	NR	WEIBLICH	48
4	TAD/TAD	CR	WEIBLICH	49
5	TAD/HAM	PR	MÄNNLICH	32
6	TAD/HAM	CR	WEIBLICH	22
7	TAD/TAD	CR	WEIBLICH	43
8	TAD/TAD	CR	MÄNNLICH	44
9	TAD/HAM	CR	WEIBLICH	24
10	TAD/TAD	CR	WEIBLICH	36
11	TAD/HAM	ED	MÄNNLICH	38
12	TAD/TAD	CR	MÄNNLICH	55
13	TAD/TAD	CR	WEIBLICH	28
14	TAD/HAM	CR	MÄNNLICH	48
15	TAD/HAM	NR	WEIBLICH	35
16	TAD/TAD	CR	WEIBLICH	43
17	TAD/HAM	CR	WEIBLICH	37
18	TAD/HAM	CR	WEIBLICH	49
19	TAD/TAD	CR	WEIBLICH	36
20	TAD/HAM	ED	WEIBLICH	29

Mit den Angaben aus Tabelle 3.2 erhält man für die beiden qualitativen Merkmale "Therapie" und "Therapieergebnis" die folgende Kontingenztafel

Tabelle 3.3: Therapie und Therapieergebnis

	Ergebnis
Therapie	CR	PR	NR	ED	Zeilensumme
TAD/TAD Zeilenprozent	8 80	1 10	1 10	0 0	10 100
TAD/HAM Zeilenprozent	5 50	1 10	1 10	3 30	10 100
Spaltensumme Zeilenprozent	13 65	2 10	2 10	3 15	20 100

Tabelle 3.4 enthält die Daten für die Merkmale "Therapie" und "Therapieergebnis" von allen 140 Patienten.

Tabelle 3.4: Therapie und Therapieergebnis bei 140 Patienten einer Klinischen Studie

	Ergebnis
Therapie	CR	PR	NR	ED	Zeilensumme
TAD/TAD Zeilenprozent	48 65.75	5 6.85	13 17.81	7 9.59	73 100
TAD/HAM Zeilenprozent	47 70.15	3 4.48	12 17.91	5 7.46	67 100
Spaltensumme Zeilenprozent	95 67.86	8 5.71	25 17.86	12 8.57	140 100

Bei gleich guten Therapien würde man gleiche Zeilenprozente in beiden Therapiearmen erwarten. Bei der vorliegenden Tabelle müsste man untersuchen, ob die Abweichungen von der Gleichheit so groß sind, dass sie vernünftigerweise nicht mehr durch den Zufall erklärt werden können. Diese Untersuchung ist Gegenstand des Chi-Quadrat-Tests.

Applet - Explorative Datenanalyse -- Datensatz "AML" - Kontingenztafel "Therapie" gegen "Ergebnis"

3.3 Regression und Korrelation

An n Beobachtungseinheiten werden zwei stetige Merkmale X und Y beobachtet, die nicht klassiert werden. Es ist ratsam, die Untersuchung der gemeinsamen Verteilung zweier stetiger Merkmale mit der Zeichnung einer Punktwolke (Scatterplot) zu beginnen; denn die Punktwolke liefert auf einen Blick Informationen, die für das weitere Vorgehen wichtig sind. Dazu trägt man das Merkmal X an der x-Achse, das Merkmal Y an der y-Achse ab und zeichnet das an der i-ten Beobachtungseinheit festgestellte Wertepaar (x,_i, y_i) als Punkt in das Koordinatensystem ein (i=1,2,....,n). Jede Beobachtungseinheit liefert also genau einen Punkt für die Punktwolke.

Beispiel 3.2

Tabelle 3.5 enthält von 15 Patienten die Angaben zum diastolischen und zum systolischen Blutdruck, die in Abbildung 3.1 als Punktwolke dargestellt sind. Der diastolische Blutdruck (RR_dias) ist an der x-Achse, der systolische (RR_sys) an der y-Achse abgetragen.

Tabelle 3.5: Diastolischer und systolischer Blutdruck von 15 Patienten

Lfd. Nr.	RR_dias	RR_sys
1	80	120
2	70	115
3	80	125
4	70	110
5	70	115
6	80	130
7	85	140
8	75	120
9	75	125
10	90	150
11	80	140
12	70	135
13	95	140
14	75	130
15	90	145

Abbildung 3.1: Punktwolke Diastolischer und systolischer Blutdruck

Applet - Explorative Datenanalyse -- Datensatz "Blutdruck" - Scatterplot "RRdias" gegen "RRsyst"

Applet - dreidimensionale Scatterplots

Zur Untersuchung der Abhängigkeit von zwei oder mehr stetigen Merkmalen dient die Regressionsrechnung. Hier wird nur der Fall der linearen Regression für zwei Merkmale betrachtet.

X (= RR_dias) und Y (= RR_sys) seien die beiden stetigen Merkmale und es soll Y in Abhängigkeit von X untersucht werden. Oft ist aus dem inhaltlichen Zusammenhang nicht unmittelbar klar, ob man Y in Abhängigkeit von X, oder X in Abhängigkeit von Y untersuchen soll. Wenn man Y in Abhängigkeit von X untersucht, spricht man von der "Regression von Y auf X", wenn man X in Abhängigkeit von Y untersucht, spricht man von der "Regression von X auf Y".

Zur Veranschaulichung trägt man die Daten als Punktwolke in ein Koordinatensystem ein (Abbildung 3.1). Bei der linearen Regression von Y auf X geht man davon aus, dass zwischen den beiden Merkmalen ein linearer Zusammenhang der Form

Y = b₀+b₁X

besteht. Die Abweichung der tatsächlich festgestellten Wertepaare von der durch die Gleichung beschriebenen Geraden führt man auf den Einfluss nicht erfasster Störgrößen zurück. Es stellt sich die Aufgabe, b₀ und b₁ vernünftig aus den Daten zu schätzen.

Dieses Problem wurde mathematisch von C. F. Gauß gelöst. Man erhält die Schätzwerte b₁ bzw. b₀, die aus den Daten mithilfe der Formeln

bzw.

berechnet werden.

Die Gerade

y = b₀+b₁x

heißt (empirische) Regressionsgerade der Regression von Y auf X; b₁, der Anstieg der Regressionsgeraden, heißt (empirischer) Regressionskoeffizient. Außerdem hat sich für den Zähler des Regressionskoeffizienten

die Bezeichnung "(empirische) Kovarianz von X und Y" eingebürgert. Sie wird analog zur empirischen Varianz

gebildet.

Wer will, kann sich durch Ausmultiplizieren der Quadrate davon überzeugen, dass gilt

Mithilfe von Varianz und Kovarianz lässt sich die Formel für den Regressionskoeffizienten zu

vereinfachen.

Für die Beispieldaten aus Tabelle 3.5 sind alle für die Regression wichtigen Kenngrößen in Tabelle 3.6 zusammengetragen.

Tabelle 3.6: Regressions- und Korrelationsrechnung

RR_dias		RR_sys
(1)	1185	(1)	1940
(2)	79.00	(2)	129.33
(3)	94525	(3)	252950
(4)	93615	(4)	250907
(5)	910	(5)	2043
(6)	65.00	(6)	145.93
(7)	8.0623	(7)	12.0811
(8)	1.1703	(8)	0.5212
(9)	36.8773	(9)	11.5905
(10)	y=36.88+1.17x	(10)	x=11.59+0.52y
(11)		154325
(12)		153260
(13)		1065
(14)		0.781

Abbildung 3.2 zeigt noch einmal die Punktwolke mit der berechneten Regressionsgerade.

Abbildung 3.2: Punktwolke und Regressionsgerade - y = 36.88 + 1.17x

Applet-Korrelation und Regression I

Applet-Korrelation und Regression II

Man kann mathematisch zeigen, dass die so berechnete Regressionsgerade die eindeutig bestimmte Gerade ist, die die Summe der Abstandsquadrate der Punkte von der Geraden minimiert. Hierbei werden die Abstände parallel zur y-Achse gemessen.

Abbildung 3.3: Schema einer linearen Regression - Methode der kleinsten Quadrate

Applet - Regression Methode der kleinsten Quadrate

Nach der Durchführung der Rechnung stellt sich die Frage, wie "gut" die ermittelte Gerade zu den Punkten passt oder - etwas spezifischer - wieviel von der Streuung der Y-Werte durch ihre angenommene Abhängigkeit der Korrelation von den X-Werten erklärt wird.

Eine Maßzahl hierfür ist der (empirische) Korrelationskoeffizient r, der durch

oder mit den eingeführten Abkürzungen vereinfacht

erklärt ist.

Man kann zeigen, dass immer

-1r+1

gilt.

Die Grenzfälle r=+1 und r=-1 treten auf, wenn schon alle gemessenen Punkte (x_i, y_i) auf einer Geraden liegen, wobei die Gerade für r=+1 steigt und für r=-1 fällt. Für r=0 verläuft die Gerade parallel zur x-Achse.

Applet zur Korrelation

Übungen zum Schätzen von Korrelationen

r², das Quadrat des Korrelationskoeffizienten, heißt Bestimmtheitsmaß. r² lässt sich interpretieren als Anteil der durch die Regression erklärten Streuung der Y-Werte. Hat man z. B. r=0.7 erhalten, dann ist r²=0.49, d.h., 49 % der Streuung der Y-Werte werden durch die lineare Abhängigkeit von X erklärt. Damit ist r bzw. r²das gesuchte Maß. Man darf sich aber nicht zu dem Trugschluss verleiten lassen, dass ein r²nahe bei 1 einen linearen Zusammenhang "beweist". Es wird nur ausgesagt, dass ein angenommener linearer Zusammenhang einen großen Anteil der Streuung der Y-Werte erklärt.

Die bisherigen Rechnungen gelten für die Regression von Y auf X, bei der Y das abhängige und X das unabhängige Merkmal ist. Durch Vertauschung der Rollen von X und Y kommt man zur Regression von X auf Y, bei der X das abhängige und Y das unabhängige Merkmal ist. Die Gleichung der Regressionsgeraden sei

x = a₀+a₁y.

Ganz analog zu den Rechnungen oben erhält man die Schätzwerte

Die Kenngrößen für die Regression von X auf Y sind ebenfalls in Tabelle 3.6 aufgeführt.

Trägt man beide Regressionsgeraden in das gleiche Koordinatensystem ein, erkennt man, dass sich die beiden Geraden im Punkt - dem sogenannten Schwerpunkt - schneiden. Der Korrelationskoeffizient r ist symmetrisch in X und Y. Daher erhält man für beide Regressionen das gleiche r.

Für r²=1 sind beide Regressionsgeraden identisch.

Abbildung 3.4: Punktwolke und Regressionsgeraden - y = 36.88 + 1.17x und x = 11.59 + 0.52y

Applet - Explorative Datenanalyse -- Datensatz "Blutdruck" - Scatterplot "RRdias" gegen "RRsyst"

3.4 Schätzung der Überlebensraten nach Kaplan-Meier

In der Medizin werden häufig Merkmale vom Typ einer Überlebenszeit betrachtet. Man versteht darunter Merkmale, die wie eine Überlebenszeit durch ein Anfangs- und ein Enddatum charakterisiert sind.

Beide Angaben sind jeweils durch das Eintreten eines Ereignisses gekennzeichnet. Bei den eigentlichen Überlebenszeiten ist das Anfangsdatum z. B. das Datum der Erstdiagnose einer Erkrankung, das Enddatum ist das Todesdatum. Es kann aber auch das Anfangsdatum das Datum einer Operation, und das Enddatum das Datum der Entlassung aus dem Krankenhaus sein. Die Überlebenszeit ist jeweils die Zeitspanne zwischen beiden Daten.

Man spricht von einer zensierten Überlebenszeit, wenn das Endereignis am Stichtag der Auswertung noch nicht eingetreten ist. In diesem Fall steht für die Auswertung nur eine untere Schranke für die noch nicht bekannte tatsächliche Überlebenszeit zur Verfügung.

Unter der Überlebensrate S(t) versteht man den Anteil der Individuen, deren Überlebenszeit größer als t ist (S für engl.: survival). Es besteht die Aufgabe, diesen Anteil aus den Daten zu schätzen. Den errechneten Schätzwert bezeichnet man üblicherweise mit .

Die zensierten Überlebenszeiten bilden ein Problem bei der Berechnung von . Ein Verfahren, das es gestattet, die zensierten Überlebenszeiten sinnvoll einzubeziehen, ist das Schätzverfahren von E. Kaplan und P. Meier.

Das Verfahren soll anhand der Beispieldaten aus Tabelle 3.7 beschrieben werden. Die Tabelle enthält in Spalte (2) die Überlebenszeiten von 20 Tieren aus einem Tierversuch. Die Überlebenszeiten sind bereits als Differenz von Anfangs- und Enddatum ausgerechnet und in Tagen angegeben. Da die Tiere im allgemeinen nicht alle am gleichen Tag in den Versuch aufgenommen werden, müssen die Versuchstage für jedes Tier individuell gezählt werden. Versuchstag 20 für Tier A kann z. B. für Tier B der Versuchstag 5 sein. Zensierte Zeiten sind durch "+" gekennzeichnet. Die Zeiten sind - gleichgültig ob zensiert oder nicht - der Größe nach geordnet.

t₀ = 0<t₁<t₂< ... <t_n .

Die verschiedenen Zeiten sind in Spalte (1) durchnumeriert. Zwei Tiere sind gleichzeitig an Versuchstag 70 eingegangen.

Spalte (3) enthält die Anzahl n_i derjenigen Versuchstiere, die den jeweiligen Versuchstag t_i lebend erreichen, man sagt auch, die zum Zeitpunkt t_i im Risiko stehen.

Diese Zahlen

n₁,n₂,n₃ ...

errechnet man sukzessive mit Hilfe der Angaben in Spalte (4). Dort steht die Anzahl d_i der zum Zeitpunkt t_ieingegangenen Tiere. Immer wenn t_i nicht zensiert ist, ist ein Tier eingegangen. Daher ist z. B. d₃=0, denn t₃=43 ist eine zensierte Überlebenszeit. Zum Zeitpunkt t₆=70 sind 2 Versuchstiere eingegangen, d.h. d₆=2.

Offenbar gilt

n_i= n_i-1- d_i-1(i = 1,2,...).

Nach diesen Vorbereitungen besteht die Grundidee des Kaplan-Meier-Verfahrens darin, zunächst für jeden Zeitpunkt t_i die bedingten Überlebensraten q_i auszurechnen:

^{^{^.}}

Das ist der Anteil derer, die den Zeitpunkt t_i überleben, von all denen, die ihn erreichen. Die q_i werden in Spalte (5) berechnet. Die geschätzte Überlebensrate erhält man durch Aufmultiplizieren aller q_i. Dies ist in Spalte (6) notiert:

Beispiel 3.3

Tabelle 3.7 enthält aus einem Tierversuch 20 Überlebenszeiten in Tagen. Die Zeiten sind bereits aufsteigend sortiert. An den mit (⁺) gekennzeichneten Zeitpunkten endet die Beobachtungszeit, ohne dass das betrachtete Ereignis (hier Tod des Versuchstiers) eingetreten ist. Solche am Stichtag der Auswertung noch anhaltenden Überlebenszeiten nennt man zensiert.

Tabelle 3.7: Rechenschema zum Kaplan-Meier-Schätzer

(1) Nr. i	(2) Tage t_i	(3) im Risiko n_i	(4) Ereignisse d_i	(5) Anteil Überlebender q_i=(n_i-d_i)/n_i	(6) kumulative Überlebensrate *q_1q_2*..._q_i*
0	0	20	0	20/20 =1	1.0000
1	30	20	1	19/20 =0.9500	0.9500
2	40	19	1	18/19 =0.9474	0.9000
3	43⁺	18	0	18/18 =1	0.9000
4	50	17	1	16/17 =0.9412	0.8471
5	65⁺	16	0	16/16 =1	0.8471
6	70	15	2	13/15 =0.8667	0.7341
7	85	13	1	12/13 =0.9231	0.6776
8	90	12	1	11/12 =0.9167	0.6212
9	120	11	1	10/11 =0.9091	0.5647
10	125⁺	10	0	10/10 =1	0.5647
11	135⁺	9	0	9/9 =1	0.5647
12	140⁺	8	0	8/8 =1	0.5647
13	150	7	1	6/7 =0.8571	0.4840
14	160	6	1	5/6 =0.8333	0.4034
15	175⁺	5	0	5/5 =1	0.4034
16	220⁺	4	0	4/4 =1	0.4034
17	225⁺	3	0	3/3 =1	0.4034
18	235⁺	2	0	2/2 =1	0.4034
19	250⁺	1	0	1/1 =1	0.4034

Aus Tabelle 3.7 kann man ablesen, dass der empirische Median der Überlebenszeiten = 150 Tage beträgt.

Abbildung 3.5 zeigt die geschätzte Überlebensrate in Abhängigkeit von der Überlebenszeit t als Treppenfunktion. Es ist üblich, die Zensierungszeitpunkte durch einen senkrechten Strich zu markieren. Den empirischen Median = 150 Tage kann man am Schnittpunkt der blauen Linie mit der Treppenfunktion ablesen.

Abbildung 3.5: Kaplan-Meier-Plot für zensierte Überlebenszeiten