Musterlösung Übungen JUMBO - Kapitel 2

Nach Aufruf des Applets "Explorative Datenanalyse" erscheint folgendes Bild.

Um den Datensatz "aml1.html" zu laden, muss dieser Text am unteren Rand des Applets im Eingabefeld "Sonstiger Datensatz" eingegeben werden, durch Mausklick rechts unten die Option "Sonstiger Datensatz" aktiviert werden und die Taste "Datensatz laden" angeklickt werden.

Es wird dann der gewünschte Datensatz mit 727 Patienten und 36 Variablen geladen und steht zur weiteren Analyse mit Hilfe des Applets zur Verfügung.

Um für qualitative Merkmale die absoluten und relativen Häufigkeiten der einzelnen Ausprägungen zu berechnen, muss in oberen Applethälfte die Taste angeklickt werden.

Es erscheint dann folgendes Bild. In der Bildmitte wird die Kodierung der Merkmalsausprägungen der qualitativen Merkmale erläutert (z.B. 1=männlich, 2=weiblich für das Merkmal Geschlecht).

Man kann nun am rechten Rand die gewünschten qualitativen Variable durch Mausklick auswählen.

Nach Anklicken der Taste "Aktualisieren" erhält man in einem separaten Fenster die gewünschten Ergebnisse.

Den Verteilungstyp von stetigen Merkmalen kann man grafisch z.B mit Hilfe eines Histogramms erkennen. Nach Anklicken der Leiste erhält man folgendes Bild:

Am rechten Rand läßt sich durch Mausklick eine gewünschte Variable auswählen

Nach Anklicken der Taste "Aktualisieren" erhält man das folgende Histogramm

An der Histogrammform ist unschwer zu erkennen, dass es sich um eine linksschiefe (rechtsgipflige) Verteilung handelt. Die Verteilungsform ändert sich nicht, wenn man am Schieber oberhalb der Taste "Aktualisieren" die Klassenzahl des Histogramms verändert z.B. auf 16 Klassen.

Das Merkmal "Körperoberfläche" ist symmetrisch verteilt

Das Merkmal "Fieber" ist eher rechtsschief (linksgipflig) verteilt

Wenn man den Klassenschieber ganz nach rechts bewegt, werden die Häufigkeiten der einzelnen Messwerte sichtbat und man erkennt, dass bevorzugt ganzzahlige Werte beim Fieber dokumentiert wurden.

Das Merkmal "Hämoglobin (HB)" ist symmetrisch verteilt

Das Merkmal "Leukozytenzahl" ist extrem rechtsschief (linksgipflig) verteilt

Das Merkmal "Thrombozytenzahl" ist ebenfalls rechtsschief (linksgipflig) verteilt

Das Merkmal "Blastenzahl" ist dagegen linksschief (rechtsgipflig) verteilt

Das Merkmal "LDH" ist wiederum rechtsschief (linksgipflig) verteilt

Das Merkmal "Körpergröße" ist symmetrisch verteilt

Das Merkmal "Körpergewicht" ist eher rechtsschief (linksgipflig) verteilt

Nach Anklicken der Taste kann mit einem 2-Gruppen-Split der Datensatz bezüglich eines Merkmals in zwei Teile eingeteilt werden. Dazu erscheint in einem separaten Fenster folgendes Bild.

Nach Anklicken der ausgewählten Variablen "Geschlecht" und Anklicken der Taste "Aktualisieren" erscheint das Histogramm des ausgewählten Merkmals mit den Ausprägungen 1=männlich und 2=weiblich.

Nach Anklicken auf der x-Achse zwischen den beiden Ausprägungen z.B. bei x=1.5 werden die Ausprägungen rechts von dieser Grenze grün gefärbt.

Nach Anklicken der Taste "Abspeichern" ist der 2-Gruppen-Split abgeschlossen. Das separate Fenster kann nun durch Anklicken der Leiste "Schliessen" geschlossen werden.

Den Verteilungstyp von stetigen Merkmalenin den Untergruppen männlich und weiblich kann man grafisch wieder mit Hilfe von Histogrammen erkennen. Nach Anklicken der Leiste erhält man folgendes Bild:

Am linken Rand muss nun durch Anklicken die Option "Split" aktiviert werden.

Die Merkmalsauswahl und die Festlegung der Klassenzahl erfolgt wieder an der rechten Seite.

Nach Anklicken der Leiste "Aktualisieren" erhält man folgendes Ergebnis.

Die Altersverteilung von Männern und Frauen ist annähernd gleich. Dagegen unterscheiden sich Männer und Frauen bei der Körperoberfläche. Männer haben im Durchschnitt eine größere Oberfläche.

Die Verteilungen für die Merkmale Fieber, HB, Leukozyten, Thrombozyten, Blasten und LDH sind annähernd gleich für Männer und Frauen.

Dagegen haben Männer im Schnitt eine höhere Größe.

Wenn man die Option aktiviert, erhält man in einem separaten Fenster die folgende Basisstatistik, die zeigt, dass Männer im Durchschnitt 7 cm größer als Frauen sind.

Ähnlich ist es beim Merkmal Gewicht, wo Männer im Schnitt 13kg schwerer als Frauen sind.

Eine Variablentransformation wird mit dem Modul "Taschenrechner" durchgeführt. Nach Anklicken der Leiste erscheint folgendes Bild.

Zur Berechnung des Body-Mass-Index beginnt man zweckmäßigerweise mit der Körpergröße. Nach Anklicken der Variablen "Größe" und Anklicken der Taste "Enter" wird im oberen Textfeld angezeigt, dass die entsprechende Variable in den Speicher geladen wurde.

Das Merkmal "Größe in cm" muss nun durch 100 geteilt werden, um die gewünschte Einheit "Größe in m" zu erhalten. Nach Anklicken der Tasten / 1 0 0 erhält man folgendes Bild.

Nach Anklicken der Taste "=" erhält man eine Speichervariable, die mit "S" und einer fortlaufenden Numerierung bezeichnet sind. Nach Anklicken der Quadrierungstaste "x^2", der Reziproktaste "1/x" und der Gleichheitstaste "=" erhält man die Zwischenvariable "1/(Körpergröße in m)^2".

Die Zwischenvariable muss nun noch mit dem Körpergewicht multipliziert werden. Dazu werden die Multiplikationstaste "*" angeklickt, die Variable "Gewicht" markiert und die Taste "Enter" angeklickt.

Nach Anklicken der Taste "=" erhält man eine Speichervariable mit dem Body-Mass-Index.

Diese Speichervariable wird nun im linken Fenster markiert und die Leiste "Ändern" angeklickt. In einem separaten Fenster werden nun die berechneten Werte des Body-Mass-Index angezeigt.

Man kann nun einen entsprechenden Variablennamen eingeben und diesen Namen durch Anklicken der Leiste "Änderungen akzeptieren" speichern. Das Fenster kann nun durch Anklicken der Leiste "Schliessen" geschlossen werden.

Man markiert nun die Variable "Bodyindex" auf der linken Seite, bringt sie durch Anklicken der Taste "Enter" in den Zwischenspeicher und fügt sie durch Anklicken der Leiste "Speicher ---> Datensatz" dem Datensatz hinzu.

Die Variablenliste auf der rechten Seite des Applets enhält jetzt zusätzlich das neugenerierte Merkmal.

Alle Optionen des Applets stehen nun für diese neue Variable zur Verfügung wie z.B. ein Histogramm mit Basisstatistiktabelle.

Die Frage nach den untergewichtigen bzw. übergewichtigen Personen lässt sich am einfachsten mit der Option beantworten. Man erhält folgende Häufigkeitstabelle für den Body-Mass-Index.

Die Identifikation des Patienten mit einem Body-Mass-Index über 50 lässt sich z.B. mit der Option beantworten. Man erhält folgende Patientenidentifikation durch Anklicken des Ausreißers.