Nach Aufruf des Applets "Explorative Datenanalyse" erscheint folgendes Bild.

Um den Datensatz "aml1.html" zu laden, muss dieser Text am unteren Rand des Applets im Eingabefeld "Sonstiger Datensatz" eingegeben werden, durch Mausklick rechts unten die Option "Sonstiger Datensatz" aktiviert werden und die Taste "Datensatz laden" angeklickt werden.

Es wird dann der gewünschte Datensatz mit 727 Patienten und 36 Variablen geladen und steht zur weiteren Analyse mit Hilfe des Applets zur Verfügung.

Um zwei qualitative Merkmale zu vergleichen wird die Option "Kontingenztafel" angeklickt.
Es erscheint dann folgendes Bild. In der Bildmitte wird die Kodierung der Merkmalsausprägungen der qualitativen Merkmale erläutert (z.B. 1=männlich, 2=weiblich für das Merkmal Geschlecht).

Man kann nun am rechten Rand die gewünschten qualitativen Variable durch Mausklick auswählen.

Nach Anklicken der Taste "Aktualisieren" erhält man in einem separaten Fenster die gewünschten Ergebnisse.

Therapie 2 (TAD-HAM) hat etwas mehr Remissionen und entsprechend etwas weniger Therapieversager als Therapie 1 (HAM-HAM). Später im Kurs wird mit Hilfe eines statistischen Tests festgestellt, ob dieses Ergebnis auf einen tatsächlichen Unterschied hindeutet oder noch im Rahmen der zufälligen Schwankungen liegt.
Wie bei den Therapien gibt es beim Geschlecht leichte Unterschiede bezüglich des Therapieergebnisses

Aus der Kontingenztafel Zustand vs. Ergebnis wird deutlich, dass Patienten mit schlechtem Allgemeinzustand auch eine deutlich schlechtere Prognose haben.

Nach Anklicken der Option "Kaplan-Meier-Plot" erhält man das folgende Bild

Man kann nun am rechten Rand die Überlebenszeit(ULZ)-Variable und die Statusvariable markieren und erhält nach Anklicken der Taste "Aktualisieren" das folgende Ergebnis.


Nach Anklicken der Taste
kann mit einem 2-Gruppen-Split der Datensatz bezüglich eines Merkmals in zwei Teile eingeteilt werden. Dazu erscheint in einem separaten Fenster folgendes Bild.

Nach Anklicken der ausgewählten Variablen "Geschlecht" und Anklicken der Taste "Aktualisieren" erscheint das Histogramm des ausgewählten Merkmals mit den Ausprägungen 1=männlich und 2=weiblich.

Nach Anklicken auf der x-Achse zwischen den beiden Ausprägungen z.B. bei x=1.5 werden die Ausprägungen rechts von dieser Grenze grün gefärbt.

Nach Anklicken der Taste "Abspeichern" ist der 2-Gruppen-Split abgeschlossen.

Am linken Rand muss nun durch Anklicken die Option "Split" aktiviert werden. Nach Anklicken der Leiste "Aktualisieren" erhält man folgendes Ergebnis.

Männer und Frauen unterscheiden sich nicht bezüglich der Überlebenszeit. Analog zum Geschlecht wird der 2-Gruppen-Split für das Merkmal "Therapie" durchgeführt.

Auch die beiden Therapien unterscheiden sich nur geringfügig bezüglich der Überlebenszeit.

Der Zweigruppensplit für die Variable "Allgemeinzustand" wird folgendermaßen durchgeführt.

Es wird deutlich, dass Patienten mit schlechtem Allgemeinzustand auch eine deutlich schlechtere Prognose haben.

Der Zweigruppensplit für die Variable "Ergebnis" wird folgendermaßen durchgeführt.

Wie man sieht, sind die Überlebenschancen der Patienten, die keine Remission erreicht haben, besonders schlecht.

Nach Anklicken der Taste "Scatterplots" erhält man folgendes Bild.

Wenn man an der rechten Seite die gewünschten Variablen markiert und die Leiste "Aktualisieren" anklickt, erhält man das gewünschte Ergebnis. Der Korrelationskoeffizient von r=0.47176 erscheint nach der Regressionsgleichung in der Ergebnisleiste über dem Scatterplot.

Wenn man mit der standardmäßig eingestellten Option "Fallidentifikation" den Ausreißer mit dem Gewicht von 160 kg anklickt, erscheint die Fallidentifikation "P5752".

Um den Ausreißer aus dem Scatterplot und den Berechnungen zur Regression bzw. Korrelation zu entfernen, muss am unteren Rand die Option "Punkt entfernen" eingestellt werden. Wenn nun im Scatterplot der Ausreißer angeklickt wird, verschwindet der Punkt und die Berechnungen für die Regression bzw. Korrelation werden automatisch neu durchgeführt. Der veränderte Korrelationskoeffizient von r=0.49174 erscheint nach der Regressionsgleichung in der Ergebnisleiste über dem Scatterplot.

Wie man mit dem Modul "Boxplot+Histogramm" erkennt, sind die Merkmale "LDH" und "Leukozyten" beide stark rechtsschief (linksgipflig) verteilt.

Enstsprechend stark klumpen sich die Punkte links unten im Scatterplot

Eine Variablentransformation wird mit dem Modul "Taschenrechner" durchgeführt. Nach Anklicken der Leiste
erscheint folgendes Bild.

Nach Markieren der Variable "Leuko-0" und Anklicken der Tasten "Enter", "log" und "=", enthält die Speichervariable S1 die logarithmierten Leukozytenwerte. Nach Markierung auf der linken Seite und Anklicken der Leiste "Ändern" werden die transformierten Werte in einem separaten Fenster angezeigt.

Es kann nun ein entsprechender Variablenname eingegeben werden.

Nach Anklicken der Taste "Änderungen akzeptieren" kann man nun die neue Variable auswählen und durch das Anklicken der Leiste "Speicher --> Datensatz" dem Datensatz hinzufügen.

Analog kann man die Variable "LDH-0" transformieren. Wie man mit dem Modul "Boxplot+Histogramm" erkennt, sind die Merkmale "log(LDH)" und "log(Leuko)" annähernd symmetrisch verteilt.

Im Scatterplot der logarithmierten Variablen kann man nun eine lineare Struktur erkennen.

Um einen anderen Datensatz zu laden, muss man die Leiste "Datenauswahl" anklicken, den Datensatz "Alkohol und Tabak" markieren, die Option "Auswahl aus Liste" aktivieren und abschließend die Leiste "Datensatz laden" anklicken.

Im Scatterplot Alkohol vs. Tabak kann man durch Anklicken den Ausreißer "Nordirland" identifizieren, wo im Durchschnitt viel Geld für Tabak und wenig Geld für Alkohol ausgegeben wird.

Durch Entfernen des Ausreißers erhöht sich die Korrelation von 0.22357 auf 0.78428.
