Kapitel 6

6 Statistischer Test

- Fehler 1. und 2. Art
- Nullhypothese, Alternativhypothese
- einseitige und zweiseitige Alternative
- Irrtumswahrscheinlichkeiten
- Spezielle Tests
� Vorzeichentest
� Wilcoxontest

6.2 Grundlagen

Das Prinzip des statistischen Tests wurde schon in Beispiel 5.3 erw�hnt. Eine vorgegebene Annahme (Nullhypothese H₀) wird anhand von Daten �berpr�ft. Wenn die Daten "stark" von dem abweichen, was man unter der Nullhypothese erwartet, l�sst man die Nullhypothese fallen.

Im statistischen Test wird dieses plausible Vorgehen formalisiert.

Nachdem die Nullhypothese H₀ und die Alternativhypothese H₁ so formuliert sind, dass sie sich gegenseitig ausschlie�en und keine dritte M�glichkeit zulassen, ergibt sich das einfache Entscheidungsschema der Tabelle 6.1.

Tabelle 6.1: Entscheidungsschema beim statistischen Test

Test- entscheidung	Wirklichkeit H₀ H₁
H₀	richtig	Fehler 2. Art
H₁	Fehler 1. Art	richtig

Der Fehler 1. Art ist der Fehler, die Nullhypothese zu verwerfen, obwohl sie richtig ist.

Der Fehler 2. Art ist der Fehler, die Nullhypothese zu behalten, obwohl sie falsch ist.

Die Entscheidung, H₀ zu verwerfen oder zu behalten, wird von der Realisation der Zufallsvariablen abh�ngig gemacht, die man als Teststatistik gew�hlt hat. Hierf�r kommt im Prinzip jede Zufallsvariable in Frage, deren Verteilungsfunktion unter der Nullhypothese bekannt ist. Die Realisation der Teststatistik nennt man auch Pr�fgr��e des Tests.

In der Wahl der geeigneten Teststatistik liegt die eigentliche Kunst des Testens. In den folgenden Abschnitten werden mit dem Vorzeichentest und dem Wilcoxontest zwei einfache Beispiele gegeben, die das allgemeine Prinzip erl�utern sollen. Kapitel 8 enth�lt weitere spezielle Tests.

Der Wertebereich der Teststatistik wird in zwei Teilmengen zerlegt, den Verwerfungsbereich und den Annahmebereich. Wenn die Pr�fgr��e in den Verwerfungsbereich f�llt, wird die Nullhypothese verworfen, ansonsten wird sie behalten.

Da die Verteilungsfunktion der Teststatistik unter der Nullhypothese bekannt ist, kann man den Verwerfungsbereich so w�hlen, dass unter H₀ seine Wahrscheinlichkeit unter einen vorgegebenen Wert f�llt. , das sogenannte Signifikanzniveau des Tests, ist damit die Obergrenze f�r die Wahrscheinlichkeit, den Fehler 1. Art zu begehen. wird vom Versuchsleiter vorgegeben. �bliche Werte f�r sind 0.05, 0.01 und 0.001. Welches man w�hlt, h�ngt von den Konsequenzen ab, die der Fehler 1. Art hat. Der naheliegende Wunsch, = 0 zu w�hlen, scheitert daran, dass dann � , die Wahrscheinlichkeit f�r den Fehler 2. Art, gro� wird.

Man �berlegt sich leicht, dass man = 0 erreicht, wenn man die Nullhypothese immer beh�lt. Aber dann beh�lt man sie auch, wenn sie falsch ist und erh�lt � = 1.

und � sind die Irrtumswahrscheinlichkeiten des Tests. Es ist im allgemeinen nicht zu erreichen, dass die Verteilungsfunktion der Teststatistik auch unter der Alternativhypothese bekannt ist. Daher l�sst sich � nicht genauso behandeln wie . Man hat f�r � nur die unbefriedigende Obergrenze

� 1-

Das hat zur Folge, dass die Entscheidung ‘H₀ behalten’ m�glicherweise mit einer gro�en Irrtumswahrscheinlichkeit behaftet ist. Daher interpretiert man diese Entscheidung meist im Sinne eines Unentschiedens und sagt ‘H₀ kann nicht verworfen werden’.

Beispiel 6.1

Es wird vermutet, dass eine bestimmte Behandlung einen Einfluss auf den H�moglobinwert eines Patienten hat. Um dies zu �berpr�fen, wird bei einer Stichprobe von 10 Patienten, die sich dieser Behandlung unterziehen m�ssen, der H�moglobinwert unter standardisierten Bedingungen vor und nach der Behandlung bestimmt (Tabelle 6.3).

Die Formulierung von Null- und Alternativhypothese lautet:

H₀: Die Behandlung hat keinen Einfluss auf den Hb.
H₁: Die Behandlung beeinflusst den Hb.

In Tabelle 6.2 ist die Entscheidungssituation dargestellt.

Tabelle 6.2: Entscheidungssituation beim speziellen Test

Testentscheidung: Der Hb ...	Wirklichkeit: der H�moglobinwert Hb wird nicht beeinflusst wird beeinflusst
...wird nicht beeinflusst	richtig	Fehler 2. Art
...wird beeinflusst	Fehler 1. Art	richtig

Die Entscheidung ist richtig, wenn die Testentscheidung mit der Wirklichkeit �bereinstimmt.

Der Fehler 1. Art bedeutet, dass die Nullhypothese verworfen wird, obwohl sie richtig ist. Der Fehler 2. Art bedeutet, dass die Nullhypothese nicht verworfen wird, obwohl sie falsch ist.

Beim statistischen Test gibt man eine obere Schranke (z. B. = 0.05) f�r die Wahrscheinlichkeit des Fehlers 1. Art vor und versucht nach dieser Vorgabe die Wahrscheinlichkeit b f�r den Fehler 2. Art m�glichst klein zu halten.

Im allgemeinen w�chst die Wahrscheinlichkeit des Fehlers 2. Art, wenn man die des Fehlers 1. Art verkleinert. Die beschriebene Behandlung der Fehlerwahrscheinlichkeiten hat zur Folge, dass die Wahrscheinlichkeit f�r den Fehler 1. Art unter Kontrolle ist ( ), die f�r den Fehler 2. Art aber nicht. Wenn die Nullhypothese fallen gelassen werden muss, kann nur der Fehler 1. Art auftreten. Die Fehlerwahrscheinlichkeit ist unter Kontrolle. Das Testergebnis darf entsprechend sicher formuliert werden ( "H₀ kann auf dem vorgegebenen Signifikanzniveau verworfen werden" ). Wenn die Nullhypothese nicht fallen gelassen werden darf, kann m�glicherweise der Fehler 2. Art auftreten. Die Fehlerwahrscheinlichkeit ist nicht unter Kontrolle. Das Testergebnis muss entsprechend vorsichtig formuliert werden ( "kein Widerspruch zur Nullhypothese" ).

Der Versuchsleiter muss vor der Durchf�hrung des Versuchs entscheiden, wie die Fragestellung als Alternative f�r den statistischen Test formuliert werden soll. Diese Entscheidung erfolgt nicht unter statistischen Gesichtspunkten, sondern aufgrund inhaltlicher �berlegungen.

Beispiel 6.2

Zur Behandlung einer bestimmten Erkrankung stehen zwei Medikamente A und B zur Verf�gung, die beide in der Praxis angewandt werden. Im einfachen Fall einer qualitativen Zielgr��e, die nur die Auspr�gungen Erfolg und Misserfolg hat, ist es naheliegend, den Anteil p_A der Patienten, die mit Medikament A erfolgreich behandelt werden, mit dem entsprechenden Anteil p_B bei Medikament B zu vergleichen.

Hat der Versuchsleiter a priori keine Vorkenntnisse dar�ber, ob p_A gr��er, kleiner oder auch gleich p_B ist, pr�ft er zweckm��ig die Alternative

H₀: p_A = p_B,

H₁: p_A p_B,

Abbildung 6.1: Zweiseitige Alternative

Man nennt diese Alternative zweiseitig, weil die interessierende Differenz p_A - p_B der Erfolgswahrscheinlichkeiten unter H₁ sowohl positiv als auch negativ sein kann.

Ist aufgrund inhaltlicher �berlegungen von vornherein klar, dass p_B mindestens gleich p_A ist oder gr��er sein sollte, pr�ft man zweckm��ig die Alternative

H₀: p_A p_B

H₁: p_A < p_B.

Abbildung 6.2: Einseitige Alternative

Man nennt diese Alternative einseitig, weil die interessierende Differenz p_A - p_B der Erfolgswahrscheinlichkeiten unter H₁ nur auf einer Seite der m�glichen Werte sein kann.

Statistischer Test - Power und Fallzahl

Applet - Statistischer Test von Erfolgsraten

6.3 Vorzeichentest

Beim Vorzeichentest geht man bei der zweiseitigen Fragestellung unter H₀ davon aus, dass in jedem Einzelfall die Differenz zwischen dem H�moglobinwert vor Therapie und dem nach Therapie jeweils mit der Wahrscheinlichkeit 0.5 entweder positiv oder negativ ist. Die Gleichheit beider Werte h�lt man praktisch f�r ausgeschlossen und ordnet ihr die Wahrscheinlichkeit 0 zu.

Unter diesen Annahmen folgt die Zufallsvariable D⁺, die die Anzahl der positiven Differenzen angibt, einer Binomialverteilung mit den Parametern n = ‘Anzahl aller Differenzen’ und p = 0.5, d.h., D⁺: B(n, 0.5). Damit ist D⁺ eine Zufallsvariable, deren Verteilung unter der Nullhypothese bekannt ist. Sie l�sst sich daher als Teststatistik einsetzen. D⁺ ist die Teststatistik des Vorzeichentests (engl.: sign test).

Tabelle 6.3: H�moglobinwerte vor und nach der Behandlung

H�moglobinwerte

Pat.-Nr.

vorher

nachher

Differenz (vorher - nachher)

1

11.2

9.9

1.3

2

9.4

10.8

-1.4

3

9.9

10.3

-0.4

4

9.3

9.9

-0.6

5

8.9

7.5

1.4

6

8.2

8.9

-0.7

7

10.5

10.4

0.1

8

8.8

8.5

0.3

9

10.3

8.2

2.1

10

9.8

10.1

-0.3

Beispiel 6.3

Aus den Differenzen (vorher - nachher) der Tabelle 6.3 ergibt sich die Anzahl d⁺ der positiven Differenzen:

d⁺: = 5.

Die Null- und Alternativhypothese als Aussagen �ber p f�r die einseitige bzw. die zweiseitige Fragestellung lauten:

Einseitig:

H₀: Der Hb wird durch die Behandlung nicht gesenkt (bzw. nicht angehoben).
H₁: Der Hb wird durch die Behandlung gesenkt (bzw. angehoben).

Zweiseitig:

H₀: Der Hb �ndert sich unter der Behandlung nicht.
H₁: Der Hb �ndert sich unter der Behandlung.

Als obere Grenze f�r die Irrtumswahrscheinlichkeit f�r den Fehler 1. Art wird =0.05 festgelegt.

Quantile f�r den Vorzeichentest-Test (n>=5)

Fallzahl n

z1 z2

Tabelle 6.4: Wahrscheinlichkeitsfunktion f und Verteilungsfunktion F der Binomialverteilung B(10, 0.5)

x
0

1

2

3

4

5

6

7

8

9

10

f(x)
0.001

0.010

0.044

0.117

0.205

0.246

0.205

0.117

0.044

0.010

0.001

F(x)
0.001

0.011

0.055

0.172

0.377

0.623

0.828

0.945

0.989

0.999

1

Abbildung 6.3: Wahrscheinlichkeitsfunktion der Binomialverteilung B(10,0.5)

Anhand der Tabelle 6.4, der Abbildung 6.3 und der Javascript-Prozedur erkennt man, dass {d⁺ >8}={9,10} der Verwerfungsbereich f�r die einseitige und {d⁺ <2} {d⁺ >8} = {0,1,9,10} der Verwerfungsbereich f�r die zweiseitige Fragestellung ist. Im Beispiel mit d⁺=5 wird die Nullhypothese beibehalten. Dieses Ergebnis wird durch die folgende Javascript-Prozedur noch einmal best�tigt.

Vorzeichentest f�r verbundene Stichproben Reihe-1 Reihe-2 Differenz    Reihe-1 Reihe-2 Differenz    Reihe-1 Reihe-2 Differenz
01 11 21
02 12 22
03 13 23
04 14 24
05 15 25
06 16 26
07 17 27
08 18 28
09 19 29
10 20 30

n=

Summe positiver Vorzeichen: d+ = Summe negativer Vorzeichen d- =
Teststatistik: z(0.025)    z(0.975)
Testentscheidung:

Der Vorzeichentest ber�cksichtigt nur das Vorzeichen, nicht aber den Betrag der Differenzen. Daher ist er nicht sehr scharf, d. h. der Unterschied muss schon sehr deutlich sein, damit der Vorzeichentest die Nullhypothese verwirft.

Unter der Sch�rfe g (auch Macht oder G�te, engl.: power) eines Tests versteht man in der Statistik die Wahrscheinlichkeit daf�r, dass der Test die Nullhypothese verwirft, wenn sie wirklich falsch ist, als bedingte Wahrscheinlichkeit geschrieben:

g = P(H₀ verwerfen | H₀ falsch). Zwischen der Sch�rfe eines Tests g und der Wahrscheinlichkeit f�r den Fehler 2. Art � besteht folgender Zusammenhang : g=1-�.

6.4 Wilcoxontest f�r verbundene Stichproben

Ein Test mit im allgemeinen gr��erer Sch�rfe als der Vorzeichentest ist der Wilcoxontest, der nicht nur das Vorzeichen sondern auch die Gr��e der Differenz zwischen den gemessenen Werten ber�cksichtigt.

Dies geschieht, indem den Absolutbetr�gen der Differenzen Rangzahlen zugeordnet werden. Die kleinste Differenz erh�lt die Rangzahl 1, die gr��te die Rangzahl n . Danach bildet man R⁺, die Summe der Rangzahlen, die den positiven, und R^-, die Summe der Rangzahlen, die den negativen Differenzen zugeordnet wurden. Offenbar gilt:

R⁺+R^- = 1+2+3+...+n = n(n+1)/2,

eine Identit�t, die sich zur Rechenkontrolle einsetzen l�sst.

R⁺ ist die Teststatistik des Wilcoxontests. Die Verteilung von R⁺ unter der Nullhypothese l�sst sich berechnen. Tabelle 6.6 enth�lt den Teil, den man zur L�sung des Beispiels ben�tigt.

Tabelle 6.5: H�moglobindifferenzen und Rangzahlen

H�moglobin

Rangzahl der

Pat.-Nr.

vorher

nachher

Differenz (vorher-nachher)

Absolutbetr�ge

1

11.2

9.9

1.3

7

2

9.4

10.8

-1.4

8.5

3

9.9

10.3

-0.4

4

4

9.3

9.9

-0.6

5

5

8.9

7.5

1.4

8.5

6

8.2

8.9

-0.7

6

7

10.5

10.4

0.1

1

8

8.8

8.5

0.3

2.5

9

10.3

8.2

2.1

10

10

9.8

10.1

-0.3

2.5

Beispiel 6.4

Aus den Angaben der Tabelle 6.5 berechnet man die Summe r⁺ der Rangzahlen der positiven und die Summe r^- der Rangzahlen der negativen Differenzen:

r⁺= 29                         r^-= 26                   ,

Rechenkontrolle: r⁺+r^- = 29 + 26 = n(n+1)/2 = (10^.11)/2 = 55.

r⁺ ist die Pr�fgr��e des Wilcoxontests.

Die zweiseitige Formulierung lautet:

H₀: Der Hb �ndert sich unter der Behandlung nicht.
H₁: Der Hb �ndert sich unter der Behandlung.

Als obere Grenze f�r die Irrtumswahrscheinlichkeit wird =0.05 festgelegt.
Anhand der Tabelle 6.6 f�r den Wilcoxontest f�r paarige Stichproben bzw. der folgenden Javascript-Prozedur bilden die Quantile w(10;0.025)=9 und w(10;0.975)=46 die Grenzen des zugeh�rigen Verwerfungsbereichs Die Pr�fgr��e r⁺=29 liegt innerhalb dieses Intervalls. Daher darf die Nullhypothese nicht verworfen werden.

Quantile f�r den Wilcoxon-Test (n>=6)

Fallzahl n

w1 w2

Tabelle 6.6: Quantile w(n; a ) f�r den Wilcoxontest
n

a

5

6

7

8

9

10

11

12

0.025

--

1

3

4

6

9

11

14

0.975

--

20

25

32

39

46

55

64

0.05

1

3

4

6

9

11

14

18

0.95

14

18

24

30

36

44

52

60

Wilcoxon-Test f�r verbundene Stichproben

Reihe-1 Reihe-2 Differenz Rang Reihe-1 Reihe-2 Differenz Rang Reihe-1 Reihe-2 Differenz Rang

01 11 21
02 12 22
03 13 23
04 14 24
05 15 25
06 16 26
07 17 27
08 18 28
09 19 29
10 20 30

n=

Rangsummen: R+ = R- = Teststatistik: w(0.025) w(0.975)
Testentscheidung:

Applet-Binomial- und Poissonverteilung

Javascript und Applet - diskrete Verteilungen

Applet-Statistischer Test - Power und Fallzahl

Applet-Statistischer Test von Erfolgsraten

Javascript - Vorzeichentest f�r verbundene Stichproben

Javascript - Wilcoxon-Test f�r verbundene Stichproben

MC-Fragen zu Kapitel 6

�bungen zu Kapitel 6

Musterl�sung zu den �bungen

Ein Kapitel weiter

Ein Kapitel zur�ck

Zur�ck zum Inhaltsverzeichnis

	H�moglobinwerte
Pat.-Nr.	vorher	nachher	Differenz (vorher - nachher)
1	11.2	9.9	1.3
2	9.4	10.8	-1.4
3	9.9	10.3	-0.4
4	9.3	9.9	-0.6
5	8.9	7.5	1.4
6	8.2	8.9	-0.7
7	10.5	10.4	0.1
8	8.8	8.5	0.3
9	10.3	8.2	2.1
10	9.8	10.1	-0.3

x	0	1	2	3	4	5	6	7	8	9	10
f(x)	0.001	0.010	0.044	0.117	0.205	0.246	0.205	0.117	0.044	0.010	0.001
F(x)	0.001	0.011	0.055	0.172	0.377	0.623	0.828	0.945	0.989	0.999	1

	H�moglobin			Rangzahl der
Pat.-Nr.	vorher	nachher	Differenz (vorher-nachher)	Absolutbetr�ge
1	11.2	9.9	1.3	7
2	9.4	10.8	-1.4	8.5
3	9.9	10.3	-0.4	4
4	9.3	9.9	-0.6	5
5	8.9	7.5	1.4	8.5
6	8.2	8.9	-0.7	6
7	10.5	10.4	0.1	1
8	8.8	8.5	0.3	2.5
9	10.3	8.2	2.1	10
10	9.8	10.1	-0.3	2.5

	n
a	5	6	7	8	9	10	11	12
0.025	--	1	3	4	6	9	11	14
0.975	--	20	25	32	39	46	55	64
0.05	1	3	4	6	9	11	14	18
0.95	14	18	24	30	36	44	52	60