Übungen zur medizinischen Biometrie
9.2 Grundlagen- Methoden zur Reduktion des zufälligen Fehlers
· Vermeidung von Störgrößen
· Selektion
· Blockbildung
· Vergrößerung des Stichprobenumfangs- Methoden zur Vermeidung des systematischen Fehlers
· Wahl des richtigen Modells
· zufällige Auswahl bzw. Zuteilung
· Blindversuch
· Struktur-, Behandlungs- und Beobachtungsgleichheit
Voraussetzung dafür, dass durch einen Versuch eine bestimmte Hypothese bestätigt oder widerlegt werden kann, ist, dass frühzeitig die Fragestellung analysiert und klar formuliert wird. Nur so können der geeignete Versuchsplan und die geeigneten statistischen Methoden für die Auswertung festgelegt werden.
Versuchsplan und statistische Methoden hängen voneinander ab: Daten aus Versuchen, die nicht unter statistischen Gesichtspunkten geplant wurden, können in der Regel nicht mit Hilfe statistischer Methoden analysiert werden.
Die Gründe, weshalb Versuche in der Medizin durchgeführt werden, sind vielfältig. Dies liegt daran, dass in der Medizin einerseits theoretisch-chemische und physikalische Verfahren und deren Anwendung in der klinischen Praxis (etwa im Laborbereich) interessieren, dass andererseits Versuche mit Tieren, freiwilligen Personen (etwa Versuche zur Bioäquivalenz von Arzneimitteln) oder mit Patienten durchgeführt werden. Da Beobachtungseinheiten und Fragestellungen unterschiedlich sind, sind auch für Versuche aus diesen unterschiedlichen Bereichen die Randbedingungen für deren Durchführung unterschiedlich.
Viele der in der Medizin durchgeführten Versuche sind retrospektiv: Es werden Krankenblätter oder andere Dokumentationsunterlagen nach bestimmten Fragestellungen ausgewertet. Ziel einer solchen retrospektiven Erhebung sind Aussagen über Häufigkeit und Erfolg von in der Klinik angewandten Therapien. Es ist nicht nur das berechtigte Interesse jedes Arztes, sondern eine Notwendigkeit, über Erfolge und Misserfolge informiert zu sein und diese Informationen mit Angaben aus der Literatur vergleichen zu können. Soweit dieses notwendige Wissen nicht aus der täglichen Erfahrung gewonnen wird oder werden kann, müssen solche retrospektiven Auswertungen zur Qualitätskontrolle oder Hypothesenbildung durchgeführt werden.
Bei der Interpretation der Ergebnisse retrospektiver Studien - insbesondere dem Vergleich mehrerer Therapien (historischer Vergleich) - ist äußerste Vorsicht geboten. Die Notwendigkeit retrospektiver Studien ist unbestritten. Ebenso unbestritten ist, dass sich nur in prospektiv geplanten Studien wissenschaftlich gesicherte Erkenntnisse gewinnen lassen.
Prospektive Studien haben in den letzten 20 Jahren enorm an Bedeutung gewonnen, da durch nationale (Arzneimittelgesetz) und internationale Gesetze und Richtlinien (z.B. EU-Guidelines, weltweit geltende ICH-Guidelines) hohe Standards für Wirkungsnachweis von Arzneimitteln vorgeschrieben sind. Als Grundlage für die evidenzbasierte Medizin sind solche Studien unverzichtbar geworden.
Bei der klinischen Prüfung eines Arzneimittels unterscheidet man vier Phasen:
- Phase I: Erstmalige Gabe eines Arzneimittels an den (gesunden) Menschen mit pharmakologischen und pharmakokinetischen Fragestellungen.
- Phase II: Erstmalige Gabe eines Arzneimittels an Patienten mit therapeutischen Fragestellungen (Pilotuntersuchungen mit großer Risikoabsicherung).
- Phase III: Gabe eines Arzneimittels an eine Gruppe von Patienten zum Wirkungsnachweis des Arzneimittels.
- Phase IV: Untersuchungen über Wirkungen und Nebenwirkungen eines Arzneimittels, nachdem dieses in den Verkehr gebracht wurde.
Zum Nachweis der Wirksamkeit eines Arzneimittels (Phase III) sollen vorzugsweise Kontrollierte Klinische Studien, möglichst als Doppelblindversuch mit randomisierter Zuteilung, durchgeführt werden.
Prospektive Studien benötigen oft erhebliche Ressourcen an Personal, Zeit und Geld. Ihre Durchführung ist nur dann sinnvoll, wenn diese Ressourcen zur Verfügung stehen.
Unter statistischem Gesichtspunkt ist die Durchführung einer Studie die Realisation eines Zufallsexperiments, der ein mathematisches Modell und eine inhaltliche Interpretation dieses Modells zugrunde liegen. Als Realisation eines Zufallsexperiments sind die Ergebnisse jeder Studie in einem gewissen Maß zufällig. Diesen Effekt nennt man zufälligen Fehler. Die Größe des zufälligen Fehlers kann durch das mathematische Modell kontrolliert werden. Ein falsches mathematisches Modell oder eine falsche inhaltliche Interpretation führen zu einem systematischen Fehler. Der systematische Fehler kann nur dann vermieden werden, wenn das benutzte "Modell" der "Wirklichkeit" angepasst ist.
Man unterscheidet also zwischen systematischem Fehler und zufälligem Fehler. Planung, Durchführung und Auswertung eines Versuchs müssen so gestaltet werden, dass systematische Fehler vermieden werden. Dazu gehört, dass die Studie detailliert geplant, studienbegleitend ausführlich dokumentiert und fachgerecht ausgewertet wird. Methoden zur Vermeidung des systematischen Fehlers werden im folgenden Abschnitt und die Methoden zur Verringerung des zufälligen Fehlers in Abschnitt 9.4 dargestellt.
9.3 Systematischer FehlerMan kann bei medizinischen Versuchen im Prinzip zwischen drei Arten von Versuchsplänen unterscheiden:
1. Es sollen Aussagen über eine definierte Grundgesamtheit gemacht werden. Dabei ist in erster Linie darauf zu achten, dass eine zufällige Stichprobe aus dieser Grundgesamtheit gezogen wird.
2. Es sollen mehrere definierte Grundgesamtheiten bezüglich bestimmter Aussagen miteinander verglichen werden. Dazu muss aus den Grundgesamtheiten jeweils eine zufällige Stichprobe gezogen werden.
3. Es sollen Aussagen getroffen werden, wie die Beobachtungseinheiten einer Grundgesamtheit auf die Ausprägungen eines oder mehrerer zuteilbarer Faktoren (etwa auf verschiedene Therapien) reagieren.
In der Realität - insbesondere in der klinischen Medizin - ist es oft mit großen Schwierigkeiten verbunden, wenn nicht gar unmöglich, eine zufällige Stichprobe aus einer definierten Grundgesamtheit oder sogar zufällige Stichproben aus mehreren Grundgesamtheiten zu ziehen.
Beispiel 9.1
Es soll die Komplikationsrate bei einer bestimmten Operation an Patienten mit einer bestimmten Diagnose in einer Klinik untersucht werden. Es werden alle diagnostizierten Patienten eines bestimmten Zeitraums in die Studie aufgenommen. Die zugehörige Grundgesamtheit ist nicht die Menge der Menschen der Bundesrepublik Deutschland, die an dieser Krankheit erkrankten. Es ist auch nicht die Menge der Menschen des Einzugsgebiets der Klinik, die an der Krankheit erkrankten, wenn nur schwerere Fälle eingewiesen wurden. Es ist auch nicht die Menge der Menschen, die mit dieser Erkrankung in diese Klinik eingewiesen wurden, wenn nicht immer richtig diagnostiziert wurde. Die Grundgesamtheit kann überhaupt nicht exakt angegeben werden.
Man kann in diesem wie in ähnlichen Fällen dann von einer zufälligen Stichprobe ausgehen, wenn die Annahme, dass die Patienten zu einem "zufälligen" Zeitpunkt erkranken und eine Klinik aufsuchen, berechtigt ist. Die Grundgesamtheit, aus der diese "zufällige Stichprobe" stammt, ist aber unbekannt.
Bei der Interpretation der Ergebnisse von klinischen Versuchen zu den Versuchsplänen (1) und (2) muss man immer berücksichtigen, dass die zugehörigen Grundgesamtheiten unbekannt sind. Aussagen beziehen sich daher immer nur auf eine bestimmte Klinik und einen bestimmten Zeitraum.
Beispiel 9.2
Die Aussage In einem bestimmten Zeitraum war die Komplikationsrate bei einer bestimmten Operation in einer bestimmten Klinik 8% interessiert meist nur im Vergleich zu einem anderen Zeitraum, einer anderen Operationsmethode oder im Vergleich zu einer anderen Klinik. Es kann prinzipiell nicht ausgeschlossen werden, dass unterschiedliche Komplikationsraten etwa in verschiedenen Kliniken durch Stichproben aus unterschiedlichen Grundgesamtheiten erklärt werden können.
Falls eine bestimmte Zielgröße in den Stichproben aus unterschiedlichen Grundgesamtheiten auch unterschiedliche Verteilungen hat, interessieren die Gründe.
Beispiel 9.3
Ist die Komplikationsrate bei der gleichen Operationsmethode in zwei Kliniken unterschiedlich, dann interessiert, durch welche Unterschiede in den Einflussgrößen (etwa Alter und Gesundheitszustand der Patienten, Schweregrad der Erkrankung, Ausbildung des operierenden Arztes, Pflege, Definition von "Komplikation", mangelhafte Dokumentation, etc.) dieser Effekt erklärbar ist.
In vielen Fällen ist es sinnvoll, eine sogenannte Kontrollgruppe zu suchen und diese in den Versuch einzubeziehen.
Beispiel 9.4
Es soll mit einer spezifischen Messmethode untersucht werden, ob bei Migränepatienten der Serotoninwert erhöht ist. Patienten der Neurologie, bei denen gesichert ist, dass ihre Erkrankung nicht mit einer Änderung des Serotinwerts zusammenhängt, können die Kontrollgruppe bilden.
Auch wenn man Ergebnisse einer Klinik von Patienten mit gleicher Erkrankung im gleichen Zeitraum vergleicht, ist Vorsicht geboten.
Beispiel 9.5
In den Jahren 1960 bis 1970 wurde in der Universitätsaugenklinik Münster bei etwa doppelt so viel Frauen wie Männern "Glaukomanfall" diagnostiziert. Dies lag nicht etwa an einer erhöhten Bindegewebsschwäche bei Frauen, sondern daran, dass in der Grundgesamtheit der Anteil der Frauen in der betroffenen Altersgruppe etwa doppelt so groß war wie der der Männer.
Zur Beschreibung der Ergebnisse sollte man sich daher bei Versuchen zu den Versuchsplänen (1) und (2) auf die deskriptiven Methoden der Statistik beschränken. Soweit Methoden der analytischen Statistik angewandt werden, müssen sie sehr vorsichtig interpretiert werden. Im Gegensatz zu den Versuchsplänen (1) und (2) kann der Versuchsplan (3) als Experiment bzw. als Kontrollierter Klinischer Versuch durchgeführt werden, wenn die Ausprägungen frei zuteilbarer Faktoren den Beobachtungseinheiten zufällig zugeteilt werden.
Systematische Fehler, die bei chemischen und physikalischen Messmethoden auftreten, kann man durch korrekte Eichung und Methoden der Qualitätssicherung (etwa Ringversuche) vermeiden. Bei anderen Messmethoden ist darauf zu achten, dass diese durch entsprechende Vorschriften so weit festgelegt (operationalisiert) sind, dass zu systematischen Verzerrungen führende subjektive Einflüsse vermieden werden. Soweit im Versuch auftretende Störgrößen einen systematischen Fehler bewirken können, muss der Versuchsleiter den Versuchsplan so anlegen, dass er diese während des Versuchs auftretenden systematischen Fehler erkennen kann.
Eine für die Versuchspläne (2) und (3) typische Fragestellung ist, dass der Erfolg zweier oder mehrerer unterschiedlicher Therapien verglichen werden soll. Die folgenden Überlegungen beziehen sich auf diese Fragestellung und den Versuchsplan (3), sie gelten aber entsprechend auch für andere Fragestellungen und nicht-klinische Versuche.
Verschiedene Therapien zu vergleichen, hat nur dann einen Sinn, wenn diese Therapien prinzipiell unter den gleichen Bedingungen bei demselben erkrankten Patienten angewandt werden könnten. Andererseits ist ein Vergleich der Therapieerfolge nur dann sinnvoll, wenn sich die Patientengruppen, die mit den verschiedenen Therapien behandelt werden, nur in der Einflussgröße "Therapie", nicht aber in den anderen Faktoren und Störgrößen unterscheiden.
Diese anderen Faktoren und Störgrößen kann man in einem klinischen Versuch aufteilen in solche, die vor, während und nach der Behandlung auftreten:
- Zwischen den verschiedenen Patientengruppen darf es keine Unterschiede bezüglich der Verteilung der anderen Faktoren und Störgrößen geben; so müssen etwa die Einflussgrößen Alter, Geschlecht oder Schweregrad der Erkrankung in den Gruppen gleiche Verteilungen aufweisen (Strukturgleichheit).
- Bis auf die durch die verschiedenen Therapien bedingten, nicht vermeidbaren Behandlungsunterschiede ist darauf zu achten, dass alle Patienten gleich behandelt werden (Behandlungsgleichheit).
- Alle Merkmale, insbesondere der Behandlungserfolg, müssen an allen Patienten objektiv unter gleichen Bedingungen - insbesondere unabhängig von der bei dem einzelnen Patienten angewandten Therapie - erfasst werden (Beobachtungsgleichheit).
Ist es ethisch vertretbar, in dem Versuch eine unbehandelte Kontrollgruppe vorzusehen, dann müssen die Probanden dieser Gruppe ein Plazebo erhalten, damit Behandlungs- und Beobachtungsgleichheit vorliegen.
Man kann Behandlungs- und Beobachtungsgleichheit dadurch erreichen und zugleich systematische Verzerrungen durch psychische Einflüsse dadurch vermeiden, dass man einen klinischen Versuch als
- Blindversuch (dem Patienten ist nicht bekannt, welches Medikament er erhält) oder als
- Doppelblindversuch (nur dem Versuchsleiter, aber weder dem behandelnden Arzt noch dem Patienten ist bekannt, welches Medikament gegeben wird) durchführt.
Ob ein Blind- oder ein Doppelblindversuch angeraten ist, hängt davon ab, in wie hohem Maß die Zielgröße von psychischen Einflussgrößen des Patienten bzw. der subjektiven Beurteilung des behandelnden Arztes abhängt.
Beispiel 9.6
In einem Versuch soll die Wirksamkeit eines Tranquilizers mit der eines Plazebos verglichen werden. In diesem Fall ist es ein "Kunstfehler", keinen Doppelblindversuch durchzuführen.
Es gibt andere Fälle, in denen ein Versuch zumindest als Blindversuch durchgeführt werden sollte, dies aber aus ethischen Gründen nicht möglich ist.
Bei dem Versuchsplan (3) kann insbesondere bei Tierversuchen und bei Kontrollierten Klinischen Studien die Strukturgleichheit dadurch gesichert werden, dass die Ausprägungen des frei zuteilbaren Faktors den Beobachtungseinheiten randomisiert zugeteilt werden.
Hat der zuteilbare Faktor k Ausprägungen, dann wählt man als Anzahl n der Beobachtungseinheiten ein Vielfaches von k, so dass jede der k Ausprägungen der gleichen Anzahl, nämlich n/k Beobachtungseinheiten zugeteilt werden kann. Man numeriert die Beobachtungseinheiten in einer beliebigen Reihenfolge, etwa in der Reihenfolge ihres Eintreffens. Man definiert ein Zufallsexperiment mit k gleichwahrscheinlichen möglichen Ergebnissen und ordnet die möglichen Ergebnisse den k Ausprägungen des zuteilbaren Faktors zu. Dieses Zufallsexperiment wird wiederholt ausgeführt und die jeweilige Beobachtungseinheit der zur Realisation gehörenden Ausprägung zugeordnet. Falls eine der Gruppen voll belegt ist, wird das Ergebnis verworfen und das Zufallsexperiment wiederholt.
Beispiel 9.7
In einer Kontrollierten Klinischen Studie soll die Wirkung von 3 blutdrucksenkenden Medikamenten A,B und C bei insgesamt 15 hypertonen Patienten verglichen werden, d.h. jeweils 5 Patienten sollen mit der gleichen Therapie behandelt werden. Die Patienten werden in der Reihenfolge der Aufnahme mit (1), (2), ..., (15) durchnumeriert, der Therapie A werden die Zahlen 1, 2, 3, der Therapie B die Zahlen 4, 5, 6 und der Therapie C die Zahlen 7, 8, 9 zugeordnet. Es sind 1-stellige Zufallszahlen zu bilden. Fängt man links oben in einer Zufallszahlentabelle an und geht waagerecht weiter, dann erhält man z.B.:
8121 7896 8225 9926 8186 9701 4089 ...
Damit ergibt sich folgende Zuordnung der Zufallszahlen zu den Patientennummern und Behandlungsgruppen:
Zufallszahl: 8 1 2 1 7 8 9 6 8 2 2 5 9 9 2
Patient Nr.: (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15)
Therapie: C A A A C C C B C A A B B B B
Die Zuordung der Patienten (13),(14),(15) zur Therapie B ist darauf zurückzuführen, dass die Therapiegruppen A und C schon voll belegt sind. Man erhält mit Hilfe der genannten Zufallszahlen also folgende randomisierte Zuteilung:
Therapie A: Patient (2),(3),(4),(10),(11)
Therapie B: Patient (8),(12),(13),(14),(15)
Therapie C: Patient (1),(5),(6),(7),(9)
In den meisten Fällen bedient man sich heute eines Computers zur Festlegung der Randomisierung. Mit dem oben erwähnten Applet zur Randomisierung erhält man z.B. das folgende Ergebnis:
Pat. Nr. Gruppe
1 2
2 3
3 2
4 3
5 3
6 1
7 3
8 3
9 1
10 1
11 2
12 1
13 2
14 1
15 2
Jedes mathematische Modell muss mit dem realen Versuchsplan und den Daten, die in diesem Versuch gewonnen wurden, vereinbar sein. Ist dies nicht der Fall, dann treten systematische Fehler bei den Ergebnissen und deren Interpretation auf.
Den Daten, die in einem Versuch nach einem bestimmten Plan gewonnen wurden, sieht man im allgemeinen nicht den Versuchsplan an. Dies bedeutet, dass unwissentlich oder fahrlässig andere - und damit meist falsche - mathematische Modelle angewandt werden können, als dem Versuchsplan zugrunde lagen.
Beispiel 9.8
Bei einem unverbundenen Versuchsplan mit 2 Stichproben gleichen Umfangs ist den Daten nicht anzusehen, ob der t-Test für verbundene oder unverbundene Stichproben gewählt werden sollte.
Das mathematische Modell muss der Wirklichkeit "genügend gut" angepasst sein, wenn ein systematischer Fehler vermieden werden soll.
Beispiel 9.9
9.4 Zufälliger FehlerBei Anwendung eines t-Tests treten systematische Fehler auf, wenn die Daten entgegen der Voraussetzung in der Grundgesamtheit nicht (angenähert) normalverteilt sind.
Man kann in einem Versuch oft die zur Beantwortung einer Fragestellung benötigte Anzahl der Beobachtungseinheiten verringern, wenn man den zufälligen Fehler verringert. Inwieweit dies sinnvoll oder auch nur möglich ist, hängt von der Fragestellung und von den Möglichkeiten der Versuchsdurchführung ab.
Bei Messungen einer Zielgröße unter gleichen Bedingungen erhält man bei einem Probanden unterschiedliche Ergebnisse. Diese Variabilität nennt man intraindividuelle Variabilität. Bei Messungen einer Zielgröße bei verschiedenen Probanden unter gleichen Bedingungen erhält man ebenfalls unterschiedliche Ergebnisse. Diese Variabilität nennt man interindividuelle Variabilität. Bedingt durch die Einflussgrößen ist die interindividuelle Variabilität im allgemeinen größer als die intraindividuelle Variabilität.
Bei der Selektion schränkt man die Grundgesamtheit G, für die eine bestimmte Hypothese
geprüft werden soll, auf eine Teilgesamtheit G1
G von Beobachtungseinheiten ein und untersucht
die Hypothese an einer (zufälligen) Stichprobe aus G1 . Die Ergebnisse des Versuchs gelten dann
natürlich auch nur für die zugehörige Teilgesamtheit G1.
Beispiel 9.10
Hat das Alter einen Einfluss in einem therapeutischen Versuch, wird man unter Umständen diesen Versuch nur an Patienten einer Altersgruppe durchführen. Wird die Wirksamkeit der Therapie im Versuch bestätigt, dann gilt dies nur für diese Altersgruppe.
Durch die Ausprägungen Al, A2, ..., Ak eines Faktors A wird die Grundgesamtheit G in Teilgesamtheiten Gl, G2 ,..., Gk aufgespalten. Gi enthält genau die Beobachtungseinheiten mit der Ausprägung Ai des Faktors A. Bei der Faktorbildung (auch als Stratifizierung oder Schichtbildung bezeichnet) kann für jede der Teilgesamtheiten ein Stichprobenumfang ni festgelegt werden, und es wird aus jeder der Teilgesamtheiten eine Stichprobe gezogen. In einem therapeutischen Versuch wird man meist in irgendeiner Form Selektion oder Faktorbildung durchführen. In anderen Fällen ist es ratsam, beide Verfahren gleichzeitig anzuwenden.
Beispiel 9.11
In vielen multizentrischen Klinischen Studien wird oft gleichzeitig nach dem Merkmal 'Teilnehmende Klinik' und 'Geschlecht' stratifiziert.
Gegeben seien n Beobachtungseinheiten und ein zuteilbarer Faktor mit k Ausprägungen. Bei der Blockbildung fasst man jeweils k "ähnliche" Beobachtungseinheiten der Grundgesamtheit zu einem Block zusammen. Beobachtungseinheiten, die keinem Block zugeordnet werden, werden im Versuch nicht weiter berücksichtigt. Für jeden Block werden die k Ausprägungen des zuteilbaren Faktors den k Beobachtungseinheiten zufällig zugeteilt.
Beispiel 9.12
In einem Experiment sollen 3 Therapien verglichen werden. Wichtige Einflussgrößen für den Therapieerfolg sind das Alter, das Geschlecht und der Schweregrad der Erkrankung. Die ersten 10 Patienten haben die folgenden Ausprägungen dieser Einflussgrößen:
P1 (34 Jahre, weiblich, Schweregrad=3)
P2 (20 Jahre, männlich, Schweregrad=1)
P3 (41 Jahre, männlich, Schweregrad=2)
P4 (50 Jahre, weiblich Schweregrad=2)
P5 (21 Jahre, männlich, Schweregrad=1)
P6 (40 Jahre, männlich, Schweregrad=2)
P7 (19 Jahre, männlich, Schweregrad=1)
P8 (38 Jahre, männlich, Schweregrad=2)
P9 (35 Jahre, weiblich Schweregrad=3)
P10 (33 Jahre, weiblich Schweregrad=3)
Es werden die folgenden Blöcke mit jeweils 3 Patienten gebildet:
Der erste Block besteht aus den mit
gekennzeichneten Patienten P2, P5 und P7. Diese sind ca. 20 Jahre alt, männlichen Geschlechts und mit Schweregrad 1 erkrankt.
Der zweite Block besteht aus den mit
gekennzeichneten Patienten P1, P9 und P10. Diese sind ca. 34 Jahre alt, weiblichen Geschlechts und mit Schweregrad 3 erkrankt.
Der dritte Block besteht aus den mit
gekennzeichneten Patienten P3, P6 und P8. Diese sind ca. 40 Jahre alt, männlichen Geschlechts und mit Schweregrad 2 erkrankt.
Der mit
bezeichnete Patient P4 wurde keinem Block zugeordnet und wird nicht in die Studie aufgenommen.
Den jeweils 3 Patienten jedes Blockes werden die Therapien A,B und C zufällig zugeteilt.
Sinnvoll ist diese Art der Blockbildung immer dann, wenn es Merkmale mit einem großen Einfluss auf die Zielgröße gibt und Selektion oder Faktorbildung (etwa wegen zu geringer Anzahl) nicht möglich sind oder (etwa wegen mangelnder Verallgemeinerungsfähigkeit) nicht in Frage kommen.
Blockversuche haben bei speziellen Fragestellungen eine große Bedeutung, insbesondere dann, wenn es sich um eine Fragestellung mit "natürlichen Blöcken" handelt. Solche natürlichen Blöcke sind etwa eineiige Zwillinge, paarige Organe wie Augen oder Ohren, die zu einem Wurf gehörenden Tiere oder auch die Haut mit linker und rechter Körperhälfte.
Beispiel 9.13
In einem Versuch soll an Patienten mit akutem Glaukom die Wirkung zweier Tropftherapien A und B zur Senkung des intraokularen Drucks verglichen werden. Es werden nur Patienten in die Studie aufgenommen, die beidseitig an akutem Glaukom erkrankt sind. Das eine Auge jedes Patienten wird mit der Therapie A, das andere mit der Therapie B behandelt. In einem Kontrollierten Klinischen Versuch werden die beiden Therapien den beiden Augen zufällig zugeteilt.
Voraussetzung für die Anwendung der Blockbildung in einem Versuch ist, dass die für die Blockbildung benötigten Einflussgrößen bekannt sind und der Versuchsplan die Bildung von Blöcken zulässt.
Die wichtigsten Elemente der Versuchsplanung sind noch einmal in der folgenden Tabelle zusammengestellt:
Tabelle 9.1: Methoden der Versuchsplanung
| Verringerung des zufälligen Fehlers | Vermeidung
des systematischen Fehlers, durch Erzeugen
von: Strukturgleichheit | Beobachtungsgleichheit |
||
| Selektion | x |
||
| Blockbildung | x |
||
| Stichprobenumfang vergrößern | x |
||
| Störgrößen vermeiden | x |
x |
x |
| richtiges Modell -> statistische Beratung |
x |
x |
|
| zufällige Auswahl | x |
||
| zufällige Zuteilung | x |
||
| Blindversuch | x |
||
| Doppelblindversuch | x |
||
| standardisiertes Ablesen der Werte | (x) |
x |
|
| standardisierte Weitergabe der Werte | (x) |
x |
|
9.5 Kontrollierte Klinische Studien
Ein von statistischen Gesichtspunkten her optimaler Versuchsplan ist oft nicht möglich, da ethische Gründe, finanzielle Mittel oder die zur Verfügung stehende Zeit den Versuchsplan nicht zulassen.
In einem Kontrollierten Klinischen Versuch werden die Patienten den zu vergleichenden Therapien zufällig zugeteilt. Eine solche Studienform muss immer dann gewählt werden, wenn die Strukturgleichheit der Patientengruppen für die zu prüfende Alternative gesichert sein muss. Der mögliche Informationsgewinn sollte in einer vernünftigen Relation zu der Beanspruchung des Patienten stehen.
Nach der Deklaration von Helsinki ist die Durchführung eines Kontrollierten Klinischen Versuchs nur dann gerechtfertigt, wenn nach Vorwissen des Arztes jede der zu vergleichenden Therapien die beste sein kann. Wenn es keine sichere Standardbehandlung gibt, ist auch die Behandlung mit einem Plazebo gerechtfertigt. Der Patient darf nur dann in einen Kontrollierten Klinischen Versuch aufgenommen werden, wenn er zuvor sein Einverständnis erklärt hat.
Von den Ärztekammern und von Medizinischen Fakultäten wurden Ethikkommissionen ins Leben gerufen, deren Aufgabe die Beurteilung von geplanten klinischen Studien aus ethischer und rechtlicher Sicht ist. Inzwischen muss jede klinische Studie einer Ethikkommission vorgelegt werden. Hinweise und Forderungen dieser Kommissionen haben eine nicht zu unterschätzende Bedeutung, insbesondere zur rechtlichen Absicherung des Versuchs, und führen oft zu einer Änderung des Studiendesigns.
Vor Beginn des Versuchs müssen in einem Studienprotokoll die Ein- bzw. Ausschluss- und die Abbruchkriterien festgelegt werden.
Beispiel 9.14
Bei akuter myeloischer Leukämie (AML) sollen zwei Erhaltungstherapien verglichen werden. Ein- und Ausschlusskriterien sind etwa:
- gesicherte, unbehandelte AML,
- keine schwere Zweiterkrankung,
- Erreichen einer kompletten Remission,
- Alter zwischen 15 und 60 Jahren und
- Einwilligung des Patienten.
Abbruchkriterien sind etwa:
- Tod des Patienten vor Therapiebeginn,
- nachträgliche Korrektur der Diagnose,
- Zurückziehung der Einwilligung des Patienten,
- Unverträglichkeit der Therapie und
- Auftreten einer akut lebensbedrohlichen Komplikation.
Die Ein- und Ausschlusskriterien legen die Grundgesamtheit bzw. Stichprobe fest und definieren, welche Patienten in die Studie aufgenommen werden. Wenn eines der Kriterien für einen Abbruch erfüllt ist, wird bei diesem Patienten die Therapie abgebrochen, und der Patient wird individuell weiterbehandelt. Solche Patienten werden als Ausscheider oder "drop outs" bezeichnet.
Für jedes Abbruchkriterium muss vor Beginn der Studie festgelegt werden, ob und, wenn ja, unter welchen Voraussetzungen es dazu führt, dass die Daten des Patienten in Auswertungen der Studie nicht berücksichtigt werden.
Insbesondere bei Studien, die über einen längeren Zeitraum durchgeführt werden, können Zwischenauswertungen vorgesehen werden. Falls statistische Tests durchgeführt werden, ist darauf zu achten, dass die vorgegebenen Irrtumswahrscheinlichkeiten für die einzelnen Auswertungen entsprechend korrigiert werden.
Zwischenauswertungen sollten insbesondere dann vorgesehen werden, wenn schwere Nebenwirkungen so gehäuft auftreten, dass ein Abbruch der Studie geraten erscheint.
Es gibt eine ganze Reihe statistischer Methoden, mit deren Hilfe man - abhängig von der Fragestellung, dem Vorwissen und den Versuchsbedingungen - jeden Versuch zufriedenstellend planen kann.
Eine der wichtigsten Aufgaben für das Studienprotokoll ist die Festlegung des Stichprobenumfangs (Fallzahl, Probandenzahl). Die wichtigsten Einflußgrößen für die Fallzahlschätzung sind:
1. Der durch die Therapien erwartete Effekt der Zielgröße.
2. Die Art des statististischen Tests (einseitig oder zweiseitig).
3. Die Irrtumswahrscheinlichkeit (z.B.= 0.05).
4. Die Teststärke (power) 1-ß (z.B. 1-ß = 0.90).
Applet-Statistischer Test - Power und Fallzahl
Je nach Art der Zielgröße (diskret, stetig, zensierte Überlebenszeit) können noch weitere Einflußgrößen (z.B. Streuung, Dauer der Rekrutierung, Dauer der Nachbeobachtung) hinzukommen.
Beispiel 9.15
In einer Karzinomstudie erhofft man sich, die bisher mit der Standardtherapie (S) erreichte Rezidivrate von 50% mit einer neuen Therapie (T) auf 40% zu senken. Für eine kontrollierte klinische Studie mit den beiden Therapiegruppen S und T und dem Zielkriterium 'Rezidivrate' sowie den weiteren Festlegungen (zweiseitiger Test, Irrtumswahrscheinlichkeit 5%, Power 80%) ergeben sich folgende Parameter für die Fallzahlberechnung:
p1 = 0.5, p2 = 0.4,
= 0.05, 1-ß = 0.80
Mit der Javascript - Prozedur "Fallzahlschätzung für den Vergleich von Häufigkeiten zweier unverbundener Stichproben" ergibt sich eine Fallzahl von 388 Patienten für jede Behandlungsgruppe.
Power/Fallzahlberechnung (Javascript) - Häufigkeiten unverbundene Stichproben
Beispiel 9.16
In einer Hypertoniestudie erhofft man sich, die bisher mit der Standardtherapie (S) erreichte durchschnittliche Blutdrucksenkung von 15 mm mit einer neuen Therapie (T) auf 20 mmm zu senken. Für eine kontrollierte klinische Studie mit den beiden Therapiegruppen S und T und dem Zielkriterium 'Senkung des Blutdrucks' sowie den weiteren Festlegungen (Standarabweichung
= 15, zweiseitiger Test, Irrtumswahrscheinlichkeit 5%, Power 80%) ergeben sich folgende Parameter für die Fallzahlberechnung:
µ1 = 15, µ2 = 20,
= 15,
= 0.05, 1-ß = 0.80
Mit der Javascript - Prozedur "Fallzahlschätzung für unverbundene Stichproben und stetige Zielgrößen" ergibt sich eine Fallzahl von 142 Patienten für jede Behandlungsgruppe.
Power/Fallzahlberechnung (Javascript) - Stetige Zielgrößen unverbundene Stichproben
Beispiel 9.17
In einer Phase-II-Studie soll überprüft werde, ob sich ein neues Medikament zur Blutdrucksenkung eignet. Geeignet ist das Medikament dann, wenn bei Hypertonikern mit einem durchschnittlichen systolischen Blutdruck von 150 mm eine Senkung um mindestens 10 mm erreicht wird. Für diese klinische Studie lautet das Zielkriterium 'Differenz des Blutdrucks vor und nach Behandlung'. Mit den weiteren Festlegungen (Standarabweichung
= 15, zweiseitiger Test, Irrtumswahrscheinlichkeit 5%, Power 80%) ergeben sich folgende Parameter für die Fallzahlberechnung:
µ1 = 150, µ2 = 140,
= 15,
= 0.05, 1-ß = 0.80
Mit der Javascript - Prozedur "Fallzahlschätzung für verbundene Stichproben und stetige Zielgrößen" ergibt sich eine Fallzahl von 20 Patienten .
Power/Fallzahlberechnung (Javascript) - Stetige Zielgrößen verbundene Stichproben
Beispiel 9.18
In einer Karzinomstudie erhofft man sich, die bisher mit der Standardtherapie (S) erreichte mediane Überlebenszeit von 36 Monaten mit einer neuen Therapie (T) auf 48 Monate zu erhöhen. Für eine kontrollierte klinische Studie mit den beiden Therapiegruppen S und T und dem Zielkriterium 'Überlebenszeit' sowie den weiteren Festlegungen (Rekrutierungszeit=24 Monate, Nachbeobachtungszeit = 36 Monate, zweiseitiger Test, Irrtumswahrscheinlichkeit 5%, Power 80%) ergibt sich mit der Javascript - Prozedur "Fallzahlschätzung für den Vergleich von Überlebenszeitenzweier unverbundener Stichproben" eine Fallzahl von 349 Patienten für jede Behandlungsgruppe.
Power/Fallzahlberechnung (Javascript) - Überlebenszeiten unverbundene Stichproben
Die Ergebnisse einer klinischen Studie geben manchmal nur sehr bedingt Auskunft darüber, welchen praktischen Wert eine (neue) Therapie für ärztliche bzw. klinische Anwendungen hat.
Beispiel 9.19
Eine neue, fluoridhaltige, klinisch getestete Zahnpasta dürfte den Kariesbefall von Zähnen in der Gesamtbevölkerung kaum ändern.
Bei der Beurteilung der Ergebnisse einer klinischen Studie ist zu beachten:
Die gewählte Zielgröße beschreibt im allgemeinen nur einen Aspekt der Wertigkeit. Verschiedene Aspekte können im Einzelfall widersprüchlich sein (Wirkung und Nebenwirkungen eines Medikaments, Überlebenszeit und Lebensqualität bei Tumoren).
Gesicherte Unterschiede zwischen zwei Therapien bezüglich einer Zielgröße besagen nur, dass eine Therapie (bei gewähltem Signifikanzniveau) besser als die andere ist. Damit liegt noch nicht fest, um wieviel besser diese Therapie ist.
Es kann in einem Kontrollierten Klinischen Versuch durchaus sinnvoll sein, Patienten zu selektieren, um so die notwendige Anzahl von Patienten zum Nachweis von Unterschieden zu verringern. Jede Selektion bedeutet andererseits Einschränkungen für die Verallgmeinerungsfähigkeit der Ergebnisse.
In der Phase der Versuchsplanung muss ausgehend von der Fragestellung, der am besten geeignete Versuchsplan gefunden werden. Im Kontrollierten Klinischen Versuch interessiert in der Hauptsache die Wirksamkeit der neuen Therapie. Zur Beurteilung der gesamten Wertigkeit dieser Therapie benötigt man aber im allgemeinen eine ganze Reihe von zusätzlichen Kriterien. Es ist Vorsicht geboten, wenn aus einer Studie, die unter Ausnahmebedingungen durchgeführt wurde, auf den allgemeinen Einsatz einer Therapie geschlossen werden soll.
Beispiel 9.20
Eine der am häufigsten in Kontrollierten Klinischen Versuchen untersuchten Therapieform der Neonatologie in Ländern mit hohem Lebensstandard ist die intratracheale Surfactant-Substitution. Dies weist darauf hin, dass die Wertigkeit der intratrachealen Surfactant-Substitution im Vergleich zu anderen Therapien umstritten ist.
Die dadurch bedingten Einschränkungen müssen inhaltlich diskutiert werden. Notwendige Voraussetzung für jede richtige und in der Argumentation nachvollziehbare Wertung ist eine gut durchgeführte Studie.
9.6 Kohortenstudie, Fall-Kontroll-Studie
Kontrollierte klinische Studien werden für den Wirkungsnachweis von Medikamenten bei der behördlichen Zulassung gefordert. Es gibt andere Fragestellungen, die nur durch Beobachtungsstudien (Erhebungen) beantwortet werden können oder bei denen Beobachtungsstudien die bessere Alternative sind.
Beispiel 9.21
Die Frage, ob bei Frauen mit einem frühen Menarchealter vermehrt Brustkrebs auftritt, kann nicht mit einer experimentellen Studie beantwortet werden. Man kann eine solche Fragestellung nur in einer Beobachtungsstudie untersuchen.
Die wichtigsten Typen von Beobachtungsstudien in der Medizin sind die Kohortenstudie und die Fall-Kontrollstudie.
Der Begriff der Kohorte stammt aus dem Lateinischen, wo er eine Gruppe von Soldaten einer bestimmten Kategorie bezeichnet, die gemeinsam losmarschieren. Dementsprechend werden die Beobachtungseinheiten einer Kohortenstudie nach bestimmten Charakteristika zu Beginn ausgewählt. Sie werden in ihrem weiteren Verlauf beschrieben mit dem Ziel, das Auftreten eines bestimmten Ereignisses, das zu Beobachtungsbeginn noch nicht eingetreten war, in seiner Häufigkeit oder in seinem Ausmaß zu beurteilen. Das interessierende Charakteristikum der Beobachtungseinheiten, dessen Einfluss auf den weiteren Verlauf man untersuchen will, bezeichnet man als Exposition.
Die Kohorte kann als repräsentative Stichprobe aus einer Grundgesamtheit konzipiert sein, die dann hinsichtlich der interessierenden Exposition klassifiziert wird.
Beispiel 9.22
In die berühmteste Kohortenstudie der Herz-Kreislauf-Epidemiologie, die Framingham-Studie, wurden ab dem Jahr 1950 alle 30-59jährigen herzgesunden Männer der Kleinstadt Framingham in der Nähe von Boston, USA aufgenommen. An Expositionsfaktoren wurden u.a. der Blutdruck, der Zigarettenkonsum und der Cholesterinspiegel erfasst. Zielereignisse der Verlaufsbeobachtung waren Herzinfarkte und kardiale Todesfälle.
Die Ergebnisse von Kohortenstudien werden mit Hilfe des relativen Risikos bzw. der Risikodifferenz beschrieben. Das relative Risiko ist der Quotient aus der Inzidenzrate des Zielereignisses in der exponierten Gruppe und der Inzidenz in der nichtexponierten Gruppe. Entsprechend ist die Risikodifferenz die Inzidenzdifferenz zwischen Exponierten und Nichtexponierten.
Während man bei einer Kohortenstudie die Stichprobe nach der interessierenden Exposition auswählt und dann das Auftreten eines Zielereignisses abwartet, beginnt man bei Fall-Kontroll-Studien am Ende der zeitlichen Sequenz: Man wählt Probanden,Fälle, bei denen das Zielereignis eingetreten ist; und man wählt Probanden, Kontrollen, bei denen dieses Ereignis nicht eingetreten ist. In beiden Gruppen wird dann untersucht, wie häufig sie der in Frage stehenden Exposition ausgesetzt waren.
Beispiel 9.23
Die ersten Studien über den Zusammenhang zwischen Rauchen und Lungenkrebs wurden als Fall-Kontroll-Studien durchgeführt. Man verglich Lungenkrebsfälle mit einer gleichaltrigen gesunden Kontrollgruppe und stellte fest, dass die Lungenkrebsfälle häufiger und mehr geraucht hatten als die Probanden in der Kontrollgruppe
Als Maß für den Zusammenhang zwischen der Exposition und dem Zielereignis verwendet man bei Fall-Kontrollstudien nicht das relative Risiko, sondern das Odds Ratio OR.
Beispiel 9.24
Hat man z.B. bei 100 Lungenkrebsfällen (Fälle) 60 Raucher und 40 Nichtraucher und bei 100 Gesunden (Kontrollen) 25 Raucher und 75 Nichtraucher, dann beträgt das Odds Ratio OR=(60:40)/(25:75) = 4.5
Das Odds Ratio kann als ungefähre Näherung für das relative Risiko gelten, wenn das Basisrisiko des Zielereignisses in der Bevölkerung klein ist.

Power/Fallzahlberechnung (Javascript) - Häufigkeiten unverbundene Stichproben
Power/Fallzahlberechnung (Javascript) - stetige Zielgrößen unverbundene Stichproben
Power/Fallzahlberechnung (Javascript) - stetige Zielgrößen verbundene Stichproben
Power/Fallzahlberechnung (Javascript) - Überlebenszeitdaten unverbundene Stichproben
Applet-Statistischer Test - Power und Fallzahl