Übungen zur medizinischen Biometrie


3 Deskriptive Statistik II

Die bisherigen Auswertungsmethoden beschränkten sich auf die Betrachtung eines Merkmals. Will man gleichzeitig mehrere Merkmale in die Auswertung einbeziehen, um deren Abhängigkeit zu untersuchen, braucht man andere Methoden.

3.1 Lernziele zu Kapitel 3

- Abhängigkeit zweier Merkmale
-
Kontingenztafel
-
Regression
-
Korrelation
-
Überlebenszeiten
-
zensierte Überlebenszeiten
-
Kaplan-Meier-Schätzer

3.2 Kontingenztafel

Zur Untersuchung der Abhängigkeit zweier qualitativer Merkmale eignet sich die Kontingenztafel, in der die gemeinsame Häufigkeitsverteilung zweier Merkmale tabellarisch dargestellt wird. Sind A und B zwei qualitative Merkmale mit den Ausprägungen A1,A2,...,Ap bzw. B1,B2,...,Bq, dann ist die zugehörige Kontingenztafel ein rechteckiges Zahlenschema, das in der i-ten Zeile und der j-ten Spalte die absolute Häufigkeit nij enthält, mit der die Ausprägungskombination AiBj bei den n Beobachtungseinheiten einer Stichprobe beobachtet wurde.

Ergänzt wird das Schema um je zwei Zeilen und zwei Spalten, die die Ausprägung der Merkmale und die Spaltensummen bzw. die Zeilensummen enthalten.

Tabelle 3.1: Allgemeine Kontingenztafel

B
A

B1

B2

...

Bj

...

Bq

Zeilensumme

A1

n11

n12

...

n1j

...

n1q

n1.

A2

n21

n22

...

n2j

...

n2q

n2.

.
.
.

.
.
.

.
.
.

...

.
.
.

...

.
.
.

.
.
.

Ai

ni1

ni2

...

nij

...

niq

ni.

.
.
.

.
.
.

.
.
.

...

.
.
.

...

.
.
.

.
.
.

Ap

np1

np2

...

npj

...

npq

np.

Spaltensumme

n.1

n.2

...

n.j

...

n.q

n=n..

Tabelle 3.1 kann man die allgemein üblichen Bezeichnungen entnehmen. Mit den Zeilen- bzw. den Spaltensummen erhält man wieder die absoluten Häufigkeiten des Merkmals A bzw. die des Merkmals B. In analoger Weise stellt man Kontingenztafeln für diskrete und klassierte stetige Merkmale auf. Häufig werden zusätzlich zu den absoluten Häufigkeiten auch die relativen Häufigkeiten in die Kontingenztafel eingetragen.

Je nach Fragestellung interessiert man sich für die

- Gesamtprozente, das sind die relativen Häufigkeiten bezogen auf den Stichprobenumfang n
- Zeilenprozente, das sind die relativen Häufigkeiten bezogen auf die jeweiligen Zeilensummen. Sie müssen sich in jeder Zeile zu 100 % addieren
- Spaltenprozente, das sind die relativen Häufigkeiten bezogen auf die jeweilige Spaltensumme. Sie addieren sich in jeder Spalte zu 100 %.

Beispiel 3.1

Tabelle 3.2 enthält von 20 Patienten einer Klinischen Studie die Daten zu den Merkmalen Therapie (TAD/TAD, TAD/HAM), Therapieergebnis (PR=Partial Remission, ED = Early Death, NR= Non Responder, CR= Complete Remission), Geschlecht und Alter.

Tabelle 3.2: Therapie, Therapieergebnis, Geschlecht und Alter für 20 Patienten

ld. Therapie Therapieergebnis Geschlecht Alter
1 TAD/TAD PR WEIBLICH 19
2 TAD/HAM ED MÄNNLICH 55
3 TAD/TAD NR WEIBLICH 48
4 TAD/TAD CR WEIBLICH 49
5 TAD/HAM PR MÄNNLICH 32
6 TAD/HAM CR WEIBLICH 22
7 TAD/TAD CR WEIBLICH 43
8 TAD/TAD CR MÄNNLICH 44
9 TAD/HAM CR WEIBLICH 24
10 TAD/TAD CR WEIBLICH 36
11 TAD/HAM ED MÄNNLICH 38
12 TAD/TAD CR MÄNNLICH 55
13 TAD/TAD CR WEIBLICH 28
14 TAD/HAM CR MÄNNLICH 48
15 TAD/HAM NR WEIBLICH 35
16 TAD/TAD CR WEIBLICH 43
17 TAD/HAM CR WEIBLICH 37
18 TAD/HAM CR WEIBLICH 49
19 TAD/TAD CR WEIBLICH 36
20 TAD/HAM ED WEIBLICH 29

Mit den Angaben aus Tabelle 3.2 erhält man für die beiden qualitativen Merkmale "Therapie" und "Therapieergebnis" die folgende Kontingenztafel

Tabelle 3.3: Therapie und Therapieergebnis

 

Ergebnis

 
Therapie

CR

PR

NR

ED

Zeilensumme
TAD/TAD
Zeilenprozent
8
80
1
10
1
10
0
0
10
100
TAD/HAM
Zeilenprozent
5
50
1
10
1
10
3
30
10
100
Spaltensumme
Zeilenprozent
13
65
2
10
2
10
3
15
20
100

Tabelle 3.4 enthält die Daten für die Merkmale "Therapie" und "Therapieergebnis" von allen 140 Patienten.

Tabelle 3.4: Therapie und Therapieergebnis bei 140 Patienten einer Klinischen Studie

 

Ergebnis

 
Therapie

CR

PR

NR

ED

Zeilensumme
TAD/TAD
Zeilenprozent
48
65.75
5
6.85
13
17.81
7
9.59
73
100
TAD/HAM
Zeilenprozent
47
70.15
3
4.48
12
17.91
5
7.46
67
100
Spaltensumme
Zeilenprozent
95
67.86
8
5.71
25
17.86
12
8.57
140
100

Bei gleich guten Therapien würde man gleiche Zeilenprozente in beiden Therapiearmen erwarten. Bei der vorliegenden Tabelle müsste man untersuchen, ob die Abweichungen von der Gleichheit so groß sind, dass sie vernünftigerweise nicht mehr durch den Zufall erklärt werden können. Diese Untersuchung ist Gegenstand des Chi-Quadrat-Tests.


Applet - Explorative Datenanalyse -- Datensatz "AML" - Kontingenztafel "Therapie" gegen "Ergebnis"





3.3 Regression und Korrelation

An n Beobachtungseinheiten werden zwei stetige Merkmale X und Y beobachtet, die nicht klassiert werden. Es ist ratsam, die Untersuchung der gemeinsamen Verteilung zweier stetiger Merkmale mit der Zeichnung einer Punktwolke (Scatterplot) zu beginnen; denn die Punktwolke liefert auf einen Blick Informationen, die für das weitere Vorgehen wichtig sind. Dazu trägt man das Merkmal X an der x-Achse, das Merkmal Y an der y-Achse ab und zeichnet das an der i-ten Beobachtungseinheit festgestellte Wertepaar (x,i, yi) als Punkt in das Koordinatensystem ein (i=1,2,....,n). Jede Beobachtungseinheit liefert also genau einen Punkt für die Punktwolke.

Beispiel 3.2

Tabelle 3.5 enthält von 15 Patienten die Angaben zum diastolischen und zum systolischen Blutdruck, die in Abbildung 3.1 als Punktwolke dargestellt sind. Der diastolische Blutdruck (RRdias) ist an der x-Achse, der systolische (RRsys) an der y-Achse abgetragen.

Tabelle 3.5: Diastolischer und systolischer Blutdruck von 15 Patienten

Lfd. Nr.

RRdias

RRsys

1

80

120

2

70

115

3

80

125

4

70

110

5

70

115

6

80

130

7

85

140

8

75

120

9

75

125

10

90

150

11

80

140

12

70

135

13

95

140

14

75

130

15

90

145

Abbildung 3.1: Punktwolke Diastolischer und systolischer Blutdruck


Applet - Explorative Datenanalyse -- Datensatz "Blutdruck" - Scatterplot "RRdias" gegen "RRsyst"




Applet - dreidimensionale Scatterplots



Zur Untersuchung der Abhängigkeit von zwei oder mehr stetigen Merkmalen dient die Regressionsrechnung. Hier wird nur der Fall der linearen Regression für zwei Merkmale betrachtet.

X (= RRdias) und Y (= RRsys) seien die beiden stetigen Merkmale und es soll Y in Abhängigkeit von X untersucht werden. Oft ist aus dem inhaltlichen Zusammenhang nicht unmittelbar klar, ob man Y in Abhängigkeit von X, oder X in Abhängigkeit von Y untersuchen soll. Wenn man Y in Abhängigkeit von X untersucht, spricht man von der "Regression von Y auf X", wenn man X in Abhängigkeit von Y untersucht, spricht man von der "Regression von X auf Y".

Zur Veranschaulichung trägt man die Daten als Punktwolke in ein Koordinatensystem ein (Abbildung 3.1). Bei der linearen Regression von Y auf X geht man davon aus, dass zwischen den beiden Merkmalen ein linearer Zusammenhang der Form

Y = b0+b1X

besteht. Die Abweichung der tatsächlich festgestellten Wertepaare von der durch die Gleichung beschriebenen Geraden führt man auf den Einfluss nicht erfasster Störgrößen zurück. Es stellt sich die Aufgabe, b0 und b1 vernünftig aus den Daten zu schätzen.

Dieses Problem wurde mathematisch von C. F. Gauß gelöst. Man erhält die Schätzwerte b1 bzw. b0, die aus den Daten mithilfe der Formeln

bzw.

berechnet werden.

Die Gerade

y = b0+b1x

heißt (empirische) Regressionsgerade der Regression von Y auf X; b1, der Anstieg der Regressionsgeraden, heißt (empirischer) Regressionskoeffizient. Außerdem hat sich für den Zähler des Regressionskoeffizienten

die Bezeichnung "(empirische) Kovarianz von X und Y" eingebürgert. Sie wird analog zur empirischen Varianz

gebildet.

Wer will, kann sich durch Ausmultiplizieren der Quadrate davon überzeugen, dass gilt

Mithilfe von Varianz und Kovarianz lässt sich die Formel für den Regressionskoeffizienten zu

vereinfachen.

Für die Beispieldaten aus Tabelle 3.5 sind alle für die Regression wichtigen Kenngrößen in Tabelle 3.6 zusammengetragen.

Tabelle 3.6: Regressions- und Korrelationsrechnung

RRdias

RRsys

(1) 1185 (1) 1940
(2) 79.00 (2) 129.33
(3) 94525 (3) 252950
(4) 93615 (4) 250907
(5) 910 (5) 2043
(6) 65.00 (6) 145.93
(7) 8.0623 (7) 12.0811
(8) 1.1703 (8) 0.5212
(9) 36.8773 (9) 11.5905
(10) y=36.88+1.17x (10) x=11.59+0.52y
(11) 154325
(12) 153260
(13) 1065
(14) 0.781

Korrelation und Regression

Reihe-1 Reihe-2 Reihe-1 Reihe-2 Reihe-1 Reihe-2

01 11 21
02 12 22
03 13 23
04 14 24
05 15 25
06 16 26
07 17 27
08 18 28
09 19 29
10 20 30


n1= n2=

  Mittelwerte: Reihe-1 = Reihe-2 =

  Standardabweichung: Reihe-1 = Reihe-2 =

  b0 = b1 = a0 = a1 =

  r =

Abbildung 3.2 zeigt noch einmal die Punktwolke mit der berechneten Regressionsgerade.

Abbildung 3.2: Punktwolke und Regressionsgerade - y = 36.88 + 1.17x


Applet-Korrelation und Regression I




Applet-Korrelation und Regression II



Man kann mathematisch zeigen, dass die so berechnete Regressionsgerade die eindeutig bestimmte Gerade ist, die die Summe der Abstandsquadrate der Punkte von der Geraden minimiert. Hierbei werden die Abstände parallel zur y-Achse gemessen.

Abbildung 3.3: Schema einer linearen Regression - Methode der kleinsten Quadrate


Applet - Regression Methode der kleinsten Quadrate



Nach der Durchführung der Rechnung stellt sich die Frage, wie "gut" die ermittelte Gerade zu den Punkten passt oder - etwas spezifischer - wieviel von der Streuung der Y-Werte durch ihre angenommene Abhängigkeit der Korrelation von den X-Werten erklärt wird.

Eine Maßzahl hierfür ist der (empirische) Korrelationskoeffizient r, der durch

oder mit den eingeführten Abkürzungen vereinfacht

erklärt ist.

Man kann zeigen, dass immer

-1r+1

gilt.

Die Grenzfälle r=+1 und r=-1 treten auf, wenn schon alle gemessenen Punkte (xi, yi) auf einer Geraden liegen, wobei die Gerade für r=+1 steigt und für r=-1 fällt. Für r=0 verläuft die Gerade parallel zur x-Achse.



Applet zur Korrelation




Übungen zum Schätzen von Korrelationen



r2, das Quadrat des Korrelationskoeffizienten, heißt Bestimmtheitsmaß. r2 lässt sich interpretieren als Anteil der durch die Regression erklärten Streuung der Y-Werte. Hat man z. B. r=0.7 erhalten, dann ist r2=0.49, d.h., 49 % der Streuung der Y-Werte werden durch die lineare Abhängigkeit von X erklärt. Damit ist r bzw. r2 das gesuchte Maß. Man darf sich aber nicht zu dem Trugschluss verleiten lassen, dass ein r2 nahe bei 1 einen linearen Zusammenhang "beweist". Es wird nur ausgesagt, dass ein angenommener linearer Zusammenhang einen großen Anteil der Streuung der Y-Werte erklärt.

Die bisherigen Rechnungen gelten für die Regression von Y auf X, bei der Y das abhängige und X das unabhängige Merkmal ist. Durch Vertauschung der Rollen von X und Y kommt man zur Regression von X auf Y, bei der X das abhängige und Y das unabhängige Merkmal ist. Die Gleichung der Regressionsgeraden sei

x = a0+a1y.

Ganz analog zu den Rechnungen oben erhält man die Schätzwerte

Die Kenngrößen für die Regression von X auf Y sind ebenfalls in Tabelle 3.6 aufgeführt.

Trägt man beide Regressionsgeraden in das gleiche Koordinatensystem ein, erkennt man, dass sich die beiden Geraden im Punkt - dem sogenannten Schwerpunkt - schneiden. Der Korrelationskoeffizient r ist symmetrisch in X und Y. Daher erhält man für beide Regressionen das gleiche r.

Für r2=1 sind beide Regressionsgeraden identisch.

Abbildung 3.4: Punktwolke und Regressionsgeraden - y = 36.88 + 1.17x und x = 11.59 + 0.52y


Applet - Explorative Datenanalyse -- Datensatz "Blutdruck" - Scatterplot "RRdias" gegen "RRsyst"



3.4 Schätzung der Überlebensraten nach Kaplan-Meier

In der Medizin werden häufig Merkmale vom Typ einer Überlebenszeit betrachtet. Man versteht darunter Merkmale, die wie eine Überlebenszeit durch ein Anfangs- und ein Enddatum charakterisiert sind.

Beide Angaben sind jeweils durch das Eintreten eines Ereignisses gekennzeichnet. Bei den eigentlichen Überlebenszeiten ist das Anfangsdatum z. B. das Datum der Erstdiagnose einer Erkrankung, das Enddatum ist das Todesdatum. Es kann aber auch das Anfangsdatum das Datum einer Operation, und das Enddatum das Datum der Entlassung aus dem Krankenhaus sein. Die Überlebenszeit ist jeweils die Zeitspanne zwischen beiden Daten.

Man spricht von einer zensierten Überlebenszeit, wenn das Endereignis am Stichtag der Auswertung noch nicht eingetreten ist. In diesem Fall steht für die Auswertung nur eine untere Schranke für die noch nicht bekannte tatsächliche Überlebenszeit zur Verfügung.

Unter der Überlebensrate S(t) versteht man den Anteil der Individuen, deren Überlebenszeit größer als t ist (S für engl.: survival). Es besteht die Aufgabe, diesen Anteil aus den Daten zu schätzen. Den errechneten Schätzwert bezeichnet man üblicherweise mit .

Die zensierten Überlebenszeiten bilden ein Problem bei der Berechnung von . Ein Verfahren, das es gestattet, die zensierten Überlebenszeiten sinnvoll einzubeziehen, ist das Schätzverfahren von E. Kaplan und P. Meier.

Das Verfahren soll anhand der Beispieldaten aus Tabelle 3.7 beschrieben werden. Die Tabelle enthält in Spalte (2) die Überlebenszeiten von 20 Tieren aus einem Tierversuch. Die Überlebenszeiten sind bereits als Differenz von Anfangs- und Enddatum ausgerechnet und in Tagen angegeben. Da die Tiere im allgemeinen nicht alle am gleichen Tag in den Versuch aufgenommen werden, müssen die Versuchstage für jedes Tier individuell gezählt werden. Versuchstag 20 für Tier A kann z. B. für Tier B der Versuchstag 5 sein. Zensierte Zeiten sind durch "+" gekennzeichnet. Die Zeiten sind - gleichgültig ob zensiert oder nicht - der Größe nach geordnet.

t0 = 0<t1<t2< ... <tn .

Die verschiedenen Zeiten sind in Spalte (1) durchnumeriert. Zwei Tiere sind gleichzeitig an Versuchstag 70 eingegangen.

Spalte (3) enthält die Anzahl ni derjenigen Versuchstiere, die den jeweiligen Versuchstag ti lebend erreichen, man sagt auch, die zum Zeitpunkt ti im Risiko stehen.

Diese Zahlen

n1,n2,n3 ...

errechnet man sukzessive mit Hilfe der Angaben in Spalte (4). Dort steht die Anzahl di der zum Zeitpunkt ti eingegangenen Tiere. Immer wenn ti nicht zensiert ist, ist ein Tier eingegangen. Daher ist z. B. d3=0, denn t3=43 ist eine zensierte Überlebenszeit. Zum Zeitpunkt t6=70 sind 2 Versuchstiere eingegangen, d.h. d6=2.

Offenbar gilt

ni = ni-1 - di-1    (i = 1,2,...).

Nach diesen Vorbereitungen besteht die Grundidee des Kaplan-Meier-Verfahrens darin, zunächst für jeden Zeitpunkt ti die bedingten Überlebensraten qi auszurechnen:

.

Das ist der Anteil derer, die den Zeitpunkt ti überleben, von all denen, die ihn erreichen. Die qi werden in Spalte (5) berechnet. Die geschätzte Überlebensrate erhält man durch Aufmultiplizieren aller qi. Dies ist in Spalte (6) notiert:

.

Beispiel 3.3

Tabelle 3.7 enthält aus einem Tierversuch 20 Überlebenszeiten in Tagen. Die Zeiten sind bereits aufsteigend sortiert. An den mit (+) gekennzeichneten Zeitpunkten endet die Beobachtungszeit, ohne dass das betrachtete Ereignis (hier Tod des Versuchstiers) eingetreten ist. Solche am Stichtag der Auswertung noch anhaltenden Überlebenszeiten nennt man zensiert.

Tabelle 3.7: Rechenschema zum Kaplan-Meier-Schätzer

(1)

Nr.

i

(2)

Tage

ti

(3)

im Risiko

ni

(4)

Ereignisse

di

(5)

Anteil Überlebender

qi=(ni-di)/ni

(6)

kumulative Überlebensrate

q1*q2*...*qi

0

0

20

0

20/20 =1 1.0000

1

30

20

1

19/20 =0.9500 0.9500

2

40

19

1

18/19 =0.9474 0.9000

3

43+

18

0

18/18 =1 0.9000

4

50

17

1

16/17 =0.9412 0.8471

5

65+

16

0

16/16 =1 0.8471

6

70

15

2

13/15 =0.8667 0.7341

7

85

13

1

12/13 =0.9231 0.6776

8

90

12

1

11/12 =0.9167 0.6212

9

120

11

1

10/11 =0.9091 0.5647

10

125+

10

0

10/10 =1 0.5647

11

135+

9

0

9/9 =1 0.5647

12

140+

8

0

8/8 =1 0.5647

13

150

7

1

6/7 =0.8571 0.4840

14

160

6

1

5/6 =0.8333 0.4034

15

175+

5

0

5/5 =1 0.4034

16

220+

4

0

4/4 =1 0.4034

17

225+

3

0

3/3 =1 0.4034

18

235+

2

0

2/2 =1 0.4034

19

250+

1

0

1/1 =1 0.4034

Aus Tabelle 3.7 kann man ablesen, dass der empirische Median der Überlebenszeiten = 150 Tage beträgt.

Abbildung 3.5 zeigt die geschätzte Überlebensrate in Abhängigkeit von der Überlebenszeit t als Treppenfunktion. Es ist üblich, die Zensierungszeitpunkte durch einen senkrechten Strich zu markieren. Den empirischen Median = 150 Tage kann man am Schnittpunkt der blauen Linie mit der Treppenfunktion ablesen.

Abbildung 3.5: Kaplan-Meier-Plot für zensierte Überlebenszeiten


Applet - Kaplan-Meier Schätzer




Applet - Explorative Datenanalyse -- Datensatz "AML" - Kaplan-Meier-Plot "Überleben" und "Rez/Tod" mit Split "Geschlecht"




Applet-Explorative Datenanalyse

Javascript - Korrelation und Regression

Applet - Regression - Methode der kleinsten Quadrate

Applet - Korrelation und Regression I

Applet - Korrelation und Regression II

Applet - Korrelation

Applet - Raten von Korrelationen

Applet - Kaplan-Meier Schätzer

Applet - dreidimensionale Scatterplots

Applet - MC-Fragen zu Kapitel 3

Übungen zu Kapitel 3

Musterlösung zu den Übungen

Ein Kapitel weiter

Ein Kapitel zurück

Zurück zum Inhaltsverzeichnis