Übungen zur medizinischen Biometrie
- Fehler 1. und 2. Art
- Nullhypothese, Alternativhypothese
- einseitige und zweiseitige Alternative
- Irrtumswahrscheinlichkeiten
- Spezielle Tests
· Vorzeichentest
· Wilcoxontest
6.2 Grundlagen
Das Prinzip des statistischen Tests wurde schon in Beispiel 5.3 erwähnt. Eine vorgegebene Annahme (Nullhypothese H0) wird anhand von Daten überprüft. Wenn die Daten "stark" von dem abweichen, was man unter der Nullhypothese erwartet, lässt man die Nullhypothese fallen.
Im statistischen Test wird dieses plausible Vorgehen formalisiert.
Nachdem die Nullhypothese H0 und die Alternativhypothese H1 so formuliert sind, dass sie sich gegenseitig ausschließen und keine dritte Möglichkeit zulassen, ergibt sich das einfache Entscheidungsschema der Tabelle 6.1.
Tabelle 6.1: Entscheidungsschema beim statistischen Test
Test- |
Wirklichkeit |
|
H0 |
richtig |
Fehler 2. Art |
H1 |
Fehler 1. Art |
richtig |
Der Fehler 1. Art ist der Fehler, die Nullhypothese zu verwerfen, obwohl sie richtig ist.
Der Fehler 2. Art ist der Fehler, die Nullhypothese zu behalten, obwohl sie falsch ist.
Die Entscheidung, H0 zu verwerfen oder zu behalten, wird von der Realisation der Zufallsvariablen abhängig gemacht, die man als Teststatistik gewählt hat. Hierfür kommt im Prinzip jede Zufallsvariable in Frage, deren Verteilungsfunktion unter der Nullhypothese bekannt ist. Die Realisation der Teststatistik nennt man auch Prüfgröße des Tests.
In der Wahl der geeigneten Teststatistik liegt die eigentliche Kunst des Testens. In den folgenden Abschnitten werden mit dem Vorzeichentest und dem Wilcoxontest zwei einfache Beispiele gegeben, die das allgemeine Prinzip erläutern sollen. Kapitel 8 enthält weitere spezielle Tests.
Der Wertebereich der Teststatistik wird in zwei Teilmengen zerlegt, den Verwerfungsbereich und den Annahmebereich. Wenn die Prüfgröße in den Verwerfungsbereich fällt, wird die Nullhypothese verworfen, ansonsten wird sie behalten.
Da die Verteilungsfunktion der
Teststatistik unter der Nullhypothese bekannt ist, kann
man den Verwerfungsbereich so wählen, dass unter H0
seine Wahrscheinlichkeit unter einen vorgegebenen Wert
fällt.
, das
sogenannte Signifikanzniveau des Tests, ist damit die Obergrenze für die
Wahrscheinlichkeit, den Fehler 1. Art zu begehen.
wird vom
Versuchsleiter vorgegeben. Übliche Werte für
sind 0.05,
0.01 und 0.001. Welches
man wählt, hängt
von den Konsequenzen ab, die der Fehler 1. Art hat. Der
naheliegende Wunsch,
= 0 zu wählen, scheitert daran, dass dann ß , die
Wahrscheinlichkeit für den Fehler 2. Art, groß wird.
Man überlegt sich leicht, dass man
= 0
erreicht, wenn man die Nullhypothese immer behält. Aber
dann behält man sie auch, wenn sie falsch ist und
erhält ß = 1.
und ß sind die Irrtumswahrscheinlichkeiten des Tests. Es ist im allgemeinen nicht zu erreichen,
dass die Verteilungsfunktion der Teststatistik auch unter
der Alternativhypothese bekannt ist. Daher lässt sich ß nicht
genauso behandeln wie
. Man hat für ß nur die
unbefriedigende Obergrenze
ß
1-![]()
Das hat zur Folge, dass die Entscheidung H0 behalten möglicherweise mit einer großen Irrtumswahrscheinlichkeit behaftet ist. Daher interpretiert man diese Entscheidung meist im Sinne eines Unentschiedens und sagt H0 kann nicht verworfen werden.
Beispiel 6.1
Es wird vermutet, dass eine bestimmte
Behandlung einen Einfluss auf den Hämoglobinwert eines
Patienten hat. Um dies zu überprüfen, wird bei einer
Stichprobe von 10 Patienten, die sich dieser Behandlung
unterziehen müssen, der Hämoglobinwert unter
standardisierten Bedingungen vor und nach der Behandlung
bestimmt (Tabelle 6.3).
Die Formulierung von Null- und Alternativhypothese lautet:
H0: Die Behandlung hat keinen Einfluss auf den Hb.
H1: Die Behandlung beeinflusst den Hb.
In Tabelle 6.2 ist die Entscheidungssituation dargestellt.
Tabelle 6.2: Entscheidungssituation beim speziellen Test
Testentscheidung: |
Wirklichkeit:
der Hämoglobinwert Hb |
|
| ...wird nicht beeinflusst | richtig | Fehler 2. Art |
| ...wird beeinflusst | Fehler 1. Art | richtig |
Die Entscheidung ist richtig, wenn die Testentscheidung mit der Wirklichkeit übereinstimmt.
Der Fehler 1. Art bedeutet, dass die Nullhypothese verworfen wird, obwohl sie richtig ist. Der Fehler 2. Art bedeutet, dass die Nullhypothese nicht verworfen wird, obwohl sie falsch ist.
Beim statistischen Test gibt man eine
obere Schranke
(z. B.
= 0.05) für die Wahrscheinlichkeit des Fehlers
1. Art vor und versucht nach dieser Vorgabe die
Wahrscheinlichkeit b für den Fehler 2. Art möglichst klein zu
halten.
Im allgemeinen wächst die Wahrscheinlichkeit des Fehlers 2. Art, wenn man die des Fehlers 1. Art verkleinert. Die beschriebene Behandlung der
Fehlerwahrscheinlichkeiten hat zur Folge, dass die
Wahrscheinlichkeit für den Fehler 1. Art unter
Kontrolle ist (
), die für den Fehler 2. Art
aber nicht. Wenn die Nullhypothese fallen
gelassen werden muss, kann nur der Fehler 1. Art
auftreten. Die Fehlerwahrscheinlichkeit ist unter
Kontrolle. Das Testergebnis darf entsprechend sicher
formuliert werden ( "H0 kann auf dem
vorgegebenen Signifikanzniveau
verworfen werden" ). Wenn die Nullhypothese nicht
fallen gelassen werden darf, kann möglicherweise der
Fehler 2. Art auftreten. Die Fehlerwahrscheinlichkeit
ist nicht unter Kontrolle. Das Testergebnis muss
entsprechend vorsichtig formuliert werden (
"kein Widerspruch zur Nullhypothese" ).
Der Versuchsleiter muss vor der Durchführung des Versuchs entscheiden, wie die Fragestellung als Alternative für den statistischen Test formuliert werden soll. Diese Entscheidung erfolgt nicht unter statistischen Gesichtspunkten, sondern aufgrund inhaltlicher Überlegungen.
Beispiel 6.2
Zur Behandlung einer bestimmten Erkrankung stehen zwei Medikamente A und B zur Verfügung, die beide in der Praxis angewandt werden. Im einfachen Fall einer qualitativen Zielgröße, die nur die Ausprägungen Erfolg und Misserfolg hat, ist es naheliegend, den Anteil pA der Patienten, die mit Medikament A erfolgreich behandelt werden, mit dem entsprechenden Anteil pB bei Medikament B zu vergleichen.
Hat der Versuchsleiter a priori keine Vorkenntnisse darüber, ob pA größer, kleiner oder auch gleich pB ist, prüft er zweckmäßig die Alternative
H0: pA = pB,
H1: pA
pB,
Man nennt diese Alternative zweiseitig, weil die interessierende Differenz pA - pB der Erfolgswahrscheinlichkeiten unter H1 sowohl positiv als auch negativ sein kann.
Ist aufgrund inhaltlicher Überlegungen von vornherein klar, dass pB mindestens gleich pA ist oder größer sein sollte, prüft man zweckmäßig die Alternative
H0: pA
pB
H1: pA < pB.
Man nennt diese Alternative einseitig, weil die interessierende Differenz pA - pB der Erfolgswahrscheinlichkeiten unter H1 nur auf einer Seite der möglichen Werte sein kann.
Statistischer Test - Power und Fallzahl
Applet - Statistischer Test von Erfolgsraten
6.3 Vorzeichentest
Beim Vorzeichentest geht man bei der zweiseitigen Fragestellung unter H0 davon aus, dass in jedem Einzelfall die Differenz zwischen dem Hämoglobinwert vor Therapie und dem nach Therapie jeweils mit der Wahrscheinlichkeit 0.5 entweder positiv oder negativ ist. Die Gleichheit beider Werte hält man praktisch für ausgeschlossen und ordnet ihr die Wahrscheinlichkeit 0 zu.
Unter diesen Annahmen folgt die Zufallsvariable D+, die die Anzahl der positiven Differenzen angibt, einer Binomialverteilung mit den Parametern n = Anzahl aller Differenzen und p = 0.5, d.h., D+: B(n, 0.5). Damit ist D+ eine Zufallsvariable, deren Verteilung unter der Nullhypothese bekannt ist. Sie lässt sich daher als Teststatistik einsetzen. D+ ist die Teststatistik des Vorzeichentests (engl.: sign test).
Tabelle 6.3: Hämoglobinwerte vor und nach der Behandlung
Hämoglobinwerte
Pat.-Nr.
vorher
nachher
Differenz (vorher - nachher)
1
11.2
9.9
1.3
2
9.4
10.8
-1.4
3
9.9
10.3
-0.4
4
9.3
9.9
-0.6
5
8.9
7.5
1.4
6
8.2
8.9
-0.7
7
10.5
10.4
0.1
8
8.8
8.5
0.3
9
10.3
8.2
2.1
10
9.8
10.1
-0.3
Beispiel 6.3
Aus den Differenzen (vorher - nachher) der Tabelle 6.3 ergibt sich die Anzahl d+ der positiven Differenzen:
d+: = 5.
Die Null- und Alternativhypothese als Aussagen über p für die einseitige bzw. die zweiseitige Fragestellung lauten:
Einseitig:
H0: Der Hb wird durch die Behandlung nicht gesenkt (bzw. nicht angehoben).
H1: Der Hb wird durch die Behandlung gesenkt (bzw. angehoben).Zweiseitig:
H0: Der Hb ändert sich unter der Behandlung nicht.
H1: Der Hb ändert sich unter der Behandlung.Als obere Grenze für die Irrtumswahrscheinlichkeit für den Fehler 1. Art wird
=0.05 festgelegt.
Tabelle 6.4: Wahrscheinlichkeitsfunktion f und Verteilungsfunktion F der Binomialverteilung B(10, 0.5)
| x | 0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
| f(x) | 0.001 |
0.010 |
0.044 |
0.117 |
0.205 |
0.246 |
0.205 |
0.117 |
0.044 |
0.010 |
0.001 |
| F(x) | 0.001 |
0.011 |
0.055 |
0.172 |
0.377 |
0.623 |
0.828 |
0.945 |
0.989 |
0.999 |
1 |
Anhand der Tabelle 6.4, der Abbildung 6.3 und der Javascript-Prozedur erkennt man, dass {d+ >8}={9,10} der Verwerfungsbereich für die einseitige und {d+ <2}
{d+ >8} = {0,1,9,10} der Verwerfungsbereich für die zweiseitige Fragestellung ist. Im Beispiel mit d+=5 wird die Nullhypothese beibehalten. Dieses Ergebnis wird durch die folgende Javascript-Prozedur noch einmal bestätigt.
Der Vorzeichentest berücksichtigt nur das Vorzeichen, nicht aber den Betrag der Differenzen. Daher ist er nicht sehr scharf, d. h. der Unterschied muss schon sehr deutlich sein, damit der Vorzeichentest die Nullhypothese verwirft.
Unter der Schärfe g (auch Macht oder Güte, engl.: power) eines Tests versteht man in der Statistik die Wahrscheinlichkeit dafür, dass der Test die Nullhypothese verwirft, wenn sie wirklich falsch ist, als bedingte Wahrscheinlichkeit geschrieben:
g = P(H0 verwerfen | H0 falsch). Zwischen der Schärfe eines Tests g und der Wahrscheinlichkeit für den Fehler 2. Art ß besteht folgender Zusammenhang : g=1-ß.
6.4 Wilcoxontest für verbundene Stichproben
Ein Test mit im allgemeinen größerer Schärfe als der Vorzeichentest ist der Wilcoxontest, der nicht nur das Vorzeichen sondern auch die Größe der Differenz zwischen den gemessenen Werten berücksichtigt.
Dies geschieht, indem den Absolutbeträgen der Differenzen Rangzahlen zugeordnet werden. Die kleinste Differenz erhält die Rangzahl 1, die größte die Rangzahl n . Danach bildet man R+, die Summe der Rangzahlen, die den positiven, und R-, die Summe der Rangzahlen, die den negativen Differenzen zugeordnet wurden. Offenbar gilt:
R++R- = 1+2+3+...+n = n(n+1)/2,
eine Identität, die sich zur Rechenkontrolle einsetzen lässt.
R+ ist die Teststatistik des Wilcoxontests. Die Verteilung von R+ unter der Nullhypothese lässt sich berechnen. Tabelle 6.6 enthält den Teil, den man zur Lösung des Beispiels benötigt.
Tabelle 6.5: Hämoglobindifferenzen und Rangzahlen
Hämoglobin |
Rangzahl der |
|||
Pat.-Nr. |
vorher |
nachher |
Differenz (vorher-nachher) |
Absolutbeträge |
1 |
11.2 |
9.9 |
1.3 |
7 |
2 |
9.4 |
10.8 |
-1.4 |
8.5 |
3 |
9.9 |
10.3 |
-0.4 |
4 |
4 |
9.3 |
9.9 |
-0.6 |
5 |
5 |
8.9 |
7.5 |
1.4 |
8.5 |
6 |
8.2 |
8.9 |
-0.7 |
6 |
7 |
10.5 |
10.4 |
0.1 |
1 |
8 |
8.8 |
8.5 |
0.3 |
2.5 |
9 |
10.3 |
8.2 |
2.1 |
10 |
10 |
9.8 |
10.1 |
-0.3 |
2.5 |
Beispiel 6.4
Aus den Angaben der Tabelle 6.5 berechnet man die Summe r+ der Rangzahlen der positiven und die Summe r- der Rangzahlen der negativen Differenzen:
r+= 29 r-= 26 ,
Rechenkontrolle: r++r- = 29 + 26 = n(n+1)/2 = (10.11)/2 = 55.
r+ ist die Prüfgröße des Wilcoxontests.
Die zweiseitige Formulierung lautet:
H0: Der Hb ändert sich unter der Behandlung nicht.
H1: Der Hb ändert sich unter der Behandlung.Als obere Grenze für die Irrtumswahrscheinlichkeit wird
=0.05 festgelegt.
Anhand der Tabelle 6.6 für den Wilcoxontest für paarige Stichproben bzw. der folgenden Javascript-Prozedur bilden die Quantile w(10;0.025)=9 und w(10;0.975)=46 die Grenzen des zugehörigen Verwerfungsbereichs Die Prüfgröße r+=29 liegt innerhalb dieses Intervalls. Daher darf die Nullhypothese nicht verworfen werden.
Tabelle 6.6: Quantile w(n; a ) für den Wilcoxontest
n |
||||||||
a |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
0.025 |
-- |
1 |
3 |
4 |
6 |
9 |
11 |
14 |
0.975 |
-- |
20 |
25 |
32 |
39 |
46 |
55 |
64 |
0.05 |
1 |
3 |
4 |
6 |
9 |
11 |
14 |
18 |
0.95 |
14 |
18 |
24 |
30 |
36 |
44 |
52 |
60 |

Applet-Binomial- und Poissonverteilung
Javascript und Applet - diskrete Verteilungen
Applet-Statistischer Test - Power und Fallzahl
Applet-Statistischer Test von Erfolgsraten
Javascript - Vorzeichentest für verbundene Stichproben