Übungen zur medizinischen Biometrie
Die bisherigen Auswertungsmethoden beschränkten sich auf die Betrachtung eines Merkmals. Will man gleichzeitig mehrere Merkmale in die Auswertung einbeziehen, um deren Abhängigkeit zu untersuchen, braucht man andere Methoden.
- Abhängigkeit zweier Merkmale
- Kontingenztafel
- Regression
- Korrelation
- Überlebenszeiten
- zensierte Überlebenszeiten
- Kaplan-Meier-Schätzer
3.2 Kontingenztafel
Zur Untersuchung der Abhängigkeit zweier qualitativer Merkmale eignet sich die Kontingenztafel, in der die gemeinsame Häufigkeitsverteilung zweier Merkmale tabellarisch dargestellt wird. Sind A und B zwei qualitative Merkmale mit den Ausprägungen A1,A2,...,Ap bzw. B1,B2,...,Bq, dann ist die zugehörige Kontingenztafel ein rechteckiges Zahlenschema, das in der i-ten Zeile und der j-ten Spalte die absolute Häufigkeit nij enthält, mit der die Ausprägungskombination AiBj bei den n Beobachtungseinheiten einer Stichprobe beobachtet wurde.
Ergänzt wird das Schema um je zwei Zeilen und zwei Spalten, die die Ausprägung der Merkmale und die Spaltensummen bzw. die Zeilensummen enthalten.
Tabelle 3.1: Allgemeine Kontingenztafel
| B A |
B1 |
B2 |
... |
Bj |
... |
Bq |
Zeilensumme |
| A1 | n11 |
n12 |
... |
n1j |
... |
n1q |
n1. |
| A2 | n21 |
n22 |
... |
n2j |
... |
n2q |
n2. |
| . . . |
. |
. |
... |
. |
... |
. |
. |
| Ai | ni1 |
ni2 |
... |
nij |
... |
niq |
ni. |
| . . . |
. |
. |
... |
. |
... |
. |
. |
| Ap | np1 |
np2 |
... |
npj |
... |
npq |
np. |
| Spaltensumme | n.1 |
n.2 |
... |
n.j |
... |
n.q |
n=n.. |
Tabelle 3.1 kann man die allgemein üblichen Bezeichnungen entnehmen. Mit den Zeilen- bzw. den Spaltensummen erhält man wieder die absoluten Häufigkeiten des Merkmals A bzw. die des Merkmals B. In analoger Weise stellt man Kontingenztafeln für diskrete und klassierte stetige Merkmale auf. Häufig werden zusätzlich zu den absoluten Häufigkeiten auch die relativen Häufigkeiten in die Kontingenztafel eingetragen.
Je nach Fragestellung interessiert man sich für die
- Gesamtprozente, das sind die relativen Häufigkeiten bezogen auf den Stichprobenumfang n
- Zeilenprozente, das sind die relativen Häufigkeiten bezogen auf die jeweiligen Zeilensummen. Sie müssen sich in jeder Zeile zu 100 % addieren
- Spaltenprozente, das sind die relativen Häufigkeiten bezogen auf die jeweilige Spaltensumme. Sie addieren sich in jeder Spalte zu 100 %.
Beispiel 3.1
Tabelle 3.2 enthält von 20 Patienten einer Klinischen Studie die Daten zu den Merkmalen Therapie (TAD/TAD, TAD/HAM), Therapieergebnis (PR=Partial Remission, ED = Early Death, NR= Non Responder, CR= Complete Remission), Geschlecht und Alter.
Tabelle 3.2: Therapie, Therapieergebnis, Geschlecht und Alter für 20 Patienten
| ld. | Therapie | Therapieergebnis | Geschlecht | Alter |
| 1 | TAD/TAD | PR | WEIBLICH | 19 |
| 2 | TAD/HAM | ED | MÄNNLICH | 55 |
| 3 | TAD/TAD | NR | WEIBLICH | 48 |
| 4 | TAD/TAD | CR | WEIBLICH | 49 |
| 5 | TAD/HAM | PR | MÄNNLICH | 32 |
| 6 | TAD/HAM | CR | WEIBLICH | 22 |
| 7 | TAD/TAD | CR | WEIBLICH | 43 |
| 8 | TAD/TAD | CR | MÄNNLICH | 44 |
| 9 | TAD/HAM | CR | WEIBLICH | 24 |
| 10 | TAD/TAD | CR | WEIBLICH | 36 |
| 11 | TAD/HAM | ED | MÄNNLICH | 38 |
| 12 | TAD/TAD | CR | MÄNNLICH | 55 |
| 13 | TAD/TAD | CR | WEIBLICH | 28 |
| 14 | TAD/HAM | CR | MÄNNLICH | 48 |
| 15 | TAD/HAM | NR | WEIBLICH | 35 |
| 16 | TAD/TAD | CR | WEIBLICH | 43 |
| 17 | TAD/HAM | CR | WEIBLICH | 37 |
| 18 | TAD/HAM | CR | WEIBLICH | 49 |
| 19 | TAD/TAD | CR | WEIBLICH | 36 |
| 20 | TAD/HAM | ED | WEIBLICH | 29 |
Mit den Angaben aus Tabelle 3.2 erhält man für die beiden qualitativen Merkmale "Therapie" und "Therapieergebnis" die folgende Kontingenztafel
Tabelle 3.3: Therapie und Therapieergebnis
Ergebnis |
||||||
| Therapie | CR |
PR |
NR |
ED |
Zeilensumme | |
| TAD/TAD Zeilenprozent |
8 80 |
1 10 |
1 10 |
0 0 |
10 100 |
|
| TAD/HAM Zeilenprozent |
5 50 |
1 10 |
1 10 |
3 30 |
10 100 |
|
| Spaltensumme Zeilenprozent |
13 65 |
2 10 |
2 10 |
3 15 |
20 100 |
|
Tabelle 3.4 enthält die Daten für die Merkmale "Therapie" und "Therapieergebnis" von allen 140 Patienten.
Tabelle 3.4: Therapie und Therapieergebnis bei 140 Patienten einer Klinischen Studie
Ergebnis |
||||||
| Therapie | CR |
PR |
NR |
ED |
Zeilensumme | |
| TAD/TAD Zeilenprozent |
48 65.75 |
5 6.85 |
13 17.81 |
7 9.59 |
73 100 |
|
| TAD/HAM Zeilenprozent |
47 70.15 |
3 4.48 |
12 17.91 |
5 7.46 |
67 100 |
|
| Spaltensumme Zeilenprozent |
95 67.86 |
8 5.71 |
25 17.86 |
12 8.57 |
140 100 |
|
Bei gleich guten Therapien würde man gleiche Zeilenprozente in beiden Therapiearmen erwarten. Bei der vorliegenden Tabelle müsste man untersuchen, ob die Abweichungen von der Gleichheit so groß sind, dass sie vernünftigerweise nicht mehr durch den Zufall erklärt werden können. Diese Untersuchung ist Gegenstand des Chi-Quadrat-Tests.
Applet - Explorative Datenanalyse -- Datensatz "AML" - Kontingenztafel "Therapie" gegen "Ergebnis"
3.3 Regression und Korrelation
An n Beobachtungseinheiten werden zwei stetige Merkmale X und Y beobachtet, die nicht klassiert werden. Es ist ratsam, die Untersuchung der gemeinsamen Verteilung zweier stetiger Merkmale mit der Zeichnung einer Punktwolke (Scatterplot) zu beginnen; denn die Punktwolke liefert auf einen Blick Informationen, die für das weitere Vorgehen wichtig sind. Dazu trägt man das Merkmal X an der x-Achse, das Merkmal Y an der y-Achse ab und zeichnet das an der i-ten Beobachtungseinheit festgestellte Wertepaar (x,i, yi) als Punkt in das Koordinatensystem ein (i=1,2,....,n). Jede Beobachtungseinheit liefert also genau einen Punkt für die Punktwolke.
Tabelle 3.5 enthält von 15 Patienten die Angaben zum diastolischen und zum systolischen Blutdruck, die in Abbildung 3.1 als Punktwolke dargestellt sind. Der diastolische Blutdruck (RRdias) ist an der x-Achse, der systolische (RRsys) an der y-Achse abgetragen.
Tabelle 3.5: Diastolischer und systolischer Blutdruck von 15 Patienten
Lfd. Nr. |
RRdias |
RRsys |
1 |
80 |
120 |
2 |
70 |
115 |
3 |
80 |
125 |
4 |
70 |
110 |
5 |
70 |
115 |
6 |
80 |
130 |
7 |
85 |
140 |
8 |
75 |
120 |
9 |
75 |
125 |
10 |
90 |
150 |
11 |
80 |
140 |
12 |
70 |
135 |
13 |
95 |
140 |
14 |
75 |
130 |
15 |
90 |
145 |
Abbildung 3.1: Punktwolke Diastolischer und systolischer Blutdruck

Applet - Explorative Datenanalyse -- Datensatz "Blutdruck" - Scatterplot "RRdias" gegen "RRsyst" 
Applet - dreidimensionale Scatterplots
Zur Untersuchung der Abhängigkeit von zwei oder mehr stetigen Merkmalen dient die Regressionsrechnung. Hier wird nur der Fall der linearen Regression für zwei Merkmale betrachtet.
X (= RRdias) und Y (= RRsys) seien die beiden stetigen Merkmale und es soll Y in Abhängigkeit von X untersucht werden. Oft ist aus dem inhaltlichen Zusammenhang nicht unmittelbar klar, ob man Y in Abhängigkeit von X, oder X in Abhängigkeit von Y untersuchen soll. Wenn man Y in Abhängigkeit von X untersucht, spricht man von der "Regression von Y auf X", wenn man X in Abhängigkeit von Y untersucht, spricht man von der "Regression von X auf Y".
Zur Veranschaulichung trägt man die Daten als Punktwolke in ein Koordinatensystem ein (Abbildung 3.1). Bei der linearen Regression von Y auf X geht man davon aus, dass zwischen den beiden Merkmalen ein linearer Zusammenhang der Form
Y = b0+b1X
besteht. Die Abweichung der tatsächlich festgestellten Wertepaare von der durch die Gleichung beschriebenen Geraden führt man auf den Einfluss nicht erfasster Störgrößen zurück. Es stellt sich die Aufgabe, b0 und b1 vernünftig aus den Daten zu schätzen.
Dieses Problem wurde mathematisch von C. F. Gauß gelöst. Man erhält die Schätzwerte b1 bzw. b0, die aus den Daten mithilfe der Formeln

bzw.
![]()
berechnet werden.
Die Gerade
y = b0+b1x
heißt (empirische) Regressionsgerade der Regression von Y auf X; b1, der Anstieg der Regressionsgeraden, heißt (empirischer) Regressionskoeffizient. Außerdem hat sich für den Zähler des Regressionskoeffizienten

die Bezeichnung "(empirische) Kovarianz von X und Y" eingebürgert. Sie wird analog zur empirischen Varianz

gebildet.
Wer will, kann sich durch Ausmultiplizieren der Quadrate davon überzeugen, dass gilt

Mithilfe von Varianz und Kovarianz lässt sich die Formel für den Regressionskoeffizienten zu

vereinfachen.
Für die Beispieldaten aus Tabelle 3.5 sind alle für die Regression wichtigen Kenngrößen in Tabelle 3.6 zusammengetragen.
Tabelle 3.6: Regressions- und Korrelationsrechnung
RRdias |
RRsys |
||
| (1) |
1185 | (1) |
1940 |
| (2) |
79.00 | (2) |
129.33 |
| (3) |
94525 | (3) |
252950 |
| (4) |
93615 | (4) |
250907 |
| (5) |
910 | (5) |
2043 |
| (6) |
65.00 | (6) |
145.93 |
| (7) |
8.0623 | (7) |
12.0811 |
| (8) |
1.1703 | (8) |
0.5212 |
| (9) |
36.8773 | (9) |
11.5905 |
| (10) |
y=36.88+1.17x | (10) |
x=11.59+0.52y |
| (11) |
154325 | ||
| (12) |
153260 | ||
| (13) |
1065 | ||
| (14) |
0.781 | ||
Abbildung 3.2 zeigt noch einmal die Punktwolke mit der berechneten Regressionsgerade.
Abbildung 3.2: Punktwolke und Regressionsgerade - y = 36.88 + 1.17x

Applet-Korrelation und Regression I
Applet-Korrelation und Regression II
Man kann mathematisch zeigen, dass die so berechnete Regressionsgerade die eindeutig bestimmte Gerade ist, die die Summe der Abstandsquadrate der Punkte von der Geraden minimiert. Hierbei werden die Abstände parallel zur y-Achse gemessen.
Abbildung 3.3: Schema einer linearen Regression - Methode der kleinsten Quadrate

Applet - Regression Methode der kleinsten Quadrate
Nach der Durchführung der Rechnung stellt sich die Frage, wie "gut" die ermittelte Gerade zu den Punkten passt oder - etwas spezifischer - wieviel von der Streuung der Y-Werte durch ihre angenommene Abhängigkeit der Korrelation von den X-Werten erklärt wird.
Eine Maßzahl hierfür ist der (empirische) Korrelationskoeffizient r, der durch

oder mit den eingeführten Abkürzungen vereinfacht

erklärt ist.
Man kann zeigen, dass immer
-1
r
+1
gilt.
Die Grenzfälle r=+1 und r=-1 treten auf, wenn schon alle gemessenen Punkte (xi, yi) auf einer Geraden liegen, wobei die Gerade für r=+1 steigt und für r=-1 fällt. Für r=0 verläuft die Gerade parallel zur x-Achse.

Übungen zum Schätzen von Korrelationen
r2, das Quadrat des Korrelationskoeffizienten, heißt Bestimmtheitsmaß. r2 lässt sich interpretieren als Anteil der durch die Regression erklärten Streuung der Y-Werte. Hat man z. B. r=0.7 erhalten, dann ist r2=0.49, d.h., 49 % der Streuung der Y-Werte werden durch die lineare Abhängigkeit von X erklärt. Damit ist r bzw. r2 das gesuchte Maß. Man darf sich aber nicht zu dem Trugschluss verleiten lassen, dass ein r2 nahe bei 1 einen linearen Zusammenhang "beweist". Es wird nur ausgesagt, dass ein angenommener linearer Zusammenhang einen großen Anteil der Streuung der Y-Werte erklärt.
Die bisherigen Rechnungen gelten für die Regression von Y auf X, bei der Y das abhängige und X das unabhängige Merkmal ist. Durch Vertauschung der Rollen von X und Y kommt man zur Regression von X auf Y, bei der X das abhängige und Y das unabhängige Merkmal ist. Die Gleichung der Regressionsgeraden sei
x = a0+a1y.
Ganz analog zu den Rechnungen oben erhält man die Schätzwerte

Die Kenngrößen für die Regression von X auf Y sind ebenfalls in Tabelle 3.6 aufgeführt.
Trägt man beide Regressionsgeraden in
das gleiche Koordinatensystem ein, erkennt man, dass sich
die beiden Geraden im Punkt
- dem sogenannten Schwerpunkt - schneiden.
Der Korrelationskoeffizient r ist symmetrisch in X
und Y. Daher erhält man für beide Regressionen
das gleiche r.
Für r2=1 sind beide Regressionsgeraden identisch.
Abbildung 3.4: Punktwolke und Regressionsgeraden - y = 36.88 + 1.17x und x = 11.59 + 0.52y

Applet - Explorative Datenanalyse -- Datensatz "Blutdruck" - Scatterplot "RRdias" gegen "RRsyst" 
3.4 Schätzung der Überlebensraten nach Kaplan-Meier
In der Medizin werden häufig Merkmale vom Typ einer Überlebenszeit betrachtet. Man versteht darunter Merkmale, die wie eine Überlebenszeit durch ein Anfangs- und ein Enddatum charakterisiert sind.
Beide Angaben sind jeweils durch das Eintreten eines Ereignisses gekennzeichnet. Bei den eigentlichen Überlebenszeiten ist das Anfangsdatum z. B. das Datum der Erstdiagnose einer Erkrankung, das Enddatum ist das Todesdatum. Es kann aber auch das Anfangsdatum das Datum einer Operation, und das Enddatum das Datum der Entlassung aus dem Krankenhaus sein. Die Überlebenszeit ist jeweils die Zeitspanne zwischen beiden Daten.
Man spricht von einer zensierten Überlebenszeit, wenn das Endereignis am Stichtag der Auswertung noch nicht eingetreten ist. In diesem Fall steht für die Auswertung nur eine untere Schranke für die noch nicht bekannte tatsächliche Überlebenszeit zur Verfügung.
Unter der Überlebensrate S(t)
versteht man den Anteil der Individuen, deren Überlebenszeit
größer als t ist (S für engl.:
survival). Es besteht die Aufgabe, diesen Anteil aus den
Daten zu schätzen. Den errechneten Schätzwert
bezeichnet man üblicherweise mit
.
Die zensierten Überlebenszeiten bilden
ein Problem bei der Berechnung von
. Ein Verfahren, das es gestattet, die
zensierten Überlebenszeiten sinnvoll einzubeziehen, ist
das Schätzverfahren
von E. Kaplan und P. Meier.
Das Verfahren soll anhand der
Beispieldaten aus Tabelle 3.7 beschrieben werden. Die
Tabelle enthält in Spalte (2) die Überlebenszeiten von
20 Tieren aus einem Tierversuch. Die Überlebenszeiten
sind bereits als Differenz von Anfangs- und Enddatum
ausgerechnet und in Tagen angegeben. Da die Tiere im
allgemeinen nicht alle am gleichen Tag in den Versuch
aufgenommen werden, müssen die Versuchstage für jedes
Tier individuell gezählt werden. Versuchstag 20 für
Tier A kann z. B. für Tier B der Versuchstag 5 sein.
Zensierte Zeiten sind durch "+" gekennzeichnet.
Die Zeiten sind - gleichgültig ob zensiert oder nicht -
der Größe nach geordnet. t0 = 0<t1<t2<
... <tn .
Spalte (3) enthält die Anzahl ni derjenigen Versuchstiere, die den jeweiligen Versuchstag ti lebend erreichen, man sagt auch, die zum Zeitpunkt ti im Risiko stehen.
Diese Zahlen
n1,n2,n3 ...
errechnet man sukzessive mit Hilfe der Angaben in Spalte (4). Dort steht die Anzahl di der zum Zeitpunkt ti eingegangenen Tiere. Immer wenn ti nicht zensiert ist, ist ein Tier eingegangen. Daher ist z. B. d3=0, denn t3=43 ist eine zensierte Überlebenszeit. Zum Zeitpunkt t6=70 sind 2 Versuchstiere eingegangen, d.h. d6=2.
Offenbar gilt
ni = ni-1 - di-1 (i = 1,2,...).
Nach diesen Vorbereitungen besteht die Grundidee des Kaplan-Meier-Verfahrens darin, zunächst für jeden Zeitpunkt ti die bedingten Überlebensraten qi auszurechnen:
.
Das ist der Anteil derer, die den
Zeitpunkt ti überleben, von
all denen, die ihn erreichen. Die qi
werden in Spalte (5) berechnet. Die geschätzte
Überlebensrate
erhält man
durch Aufmultiplizieren aller qi.
Dies ist in Spalte (6) notiert:
.
Tabelle 3.7 enthält aus einem Tierversuch 20 Überlebenszeiten in Tagen. Die Zeiten sind bereits aufsteigend sortiert. An den mit (+) gekennzeichneten Zeitpunkten endet die Beobachtungszeit, ohne dass das betrachtete Ereignis (hier Tod des Versuchstiers) eingetreten ist. Solche am Stichtag der Auswertung noch anhaltenden Überlebenszeiten nennt man zensiert.
Tabelle 3.7: Rechenschema zum Kaplan-Meier-Schätzer
(1) Nr. i |
(2) Tage ti |
(3) im Risiko ni |
(4) Ereignisse di |
(5) Anteil Überlebender qi=(ni-di)/ni |
(6) kumulative Überlebensrate q1*q2*...*qi |
0 |
0 |
20 | 0 |
20/20 =1 | 1.0000 |
1 |
30 |
20 | 1 |
19/20 =0.9500 | 0.9500 |
2 |
40 |
19 | 1 |
18/19 =0.9474 | 0.9000 |
3 |
43+ |
18 | 0 |
18/18 =1 | 0.9000 |
4 |
50 |
17 | 1 |
16/17 =0.9412 | 0.8471 |
5 |
65+ |
16 | 0 |
16/16 =1 | 0.8471 |
6 |
70 |
15 | 2 |
13/15 =0.8667 | 0.7341 |
7 |
85 |
13 | 1 |
12/13 =0.9231 | 0.6776 |
8 |
90 |
12 | 1 |
11/12 =0.9167 | 0.6212 |
9 |
120 |
11 | 1 |
10/11 =0.9091 | 0.5647 |
10 |
125+ |
10 | 0 |
10/10 =1 | 0.5647 |
11 |
135+ |
9 | 0 |
9/9 =1 | 0.5647 |
12 |
140+ |
8 | 0 |
8/8 =1 | 0.5647 |
13 |
150 |
7 | 1 |
6/7 =0.8571 | 0.4840 |
14 |
160 |
6 | 1 |
5/6 =0.8333 | 0.4034 |
15 |
175+ |
5 | 0 |
5/5 =1 | 0.4034 |
16 |
220+ |
4 | 0 |
4/4 =1 | 0.4034 |
17 |
225+ |
3 | 0 |
3/3 =1 | 0.4034 |
18 |
235+ |
2 | 0 |
2/2 =1 | 0.4034 |
19 |
250+ |
1 | 0 |
1/1 =1 | 0.4034 |
Aus Tabelle 3.7 kann man ablesen, dass der empirische Median der Überlebenszeiten
= 150 Tage beträgt.
Abbildung 3.5 zeigt die geschätzte Überlebensrate
in Abhängigkeit von der Überlebenszeit t als Treppenfunktion. Es ist üblich, die Zensierungszeitpunkte durch einen senkrechten Strich zu markieren. Den empirischen Median
= 150 Tage kann man am Schnittpunkt der blauen Linie mit der Treppenfunktion ablesen.

Applet - Kaplan-Meier Schätzer
Applet - Explorative Datenanalyse -- Datensatz "AML" - Kaplan-Meier-Plot "Überleben" und "Rez/Tod" mit Split "Geschlecht" 

Applet-Explorative Datenanalyse
Javascript - Korrelation und Regression
Applet - Regression - Methode der kleinsten Quadrate
Applet - Korrelation und Regression I
Applet - Korrelation und Regression II
Applet - Raten von Korrelationen
Applet - Kaplan-Meier Schätzer
Applet - dreidimensionale Scatterplots