News

Das "Paper of the Month" 03/2024 geht an Sarah Sandmann, Sarah Riepenhausen, Lucas Plagwitz und Julian Varghese vom Institut für Medizinische Informatik

v.l.n.r.: Sarah Riepenhausen, Prof. Julian Varghese, PD Dr. Sarah Sandmann und Lucas Plagwitz (Foto: privat)

Für den Monat März 2024 geht das „Paper of the Month“ der Medizinischen Fakultät der Universität Münster an:
PD Dr. Sarah Sandmann, Sarah Riepenhausen, Lucas Plagwitz und Univ.-Prof. Dr. Julian Varghese vom Institut für Medizinische Informatik für die Publikation: Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision. Sandmann S, Riepenhausen S, Plagwitz L, Varghese J. Nat Commun. March 2024 | 15(1):2050.

Begründung der Auswahl:
Das Paper behandelt ein zunehmend im Fokus stehendes Thema, nicht nur im klinischen, sondern auch im Forschungs-Kontext. Es geht um den Vergleich verschiedener KI-basierter Large-Language-Modelle und Google-Search im Kontext der klinischen Diagnosestellung, Diagnostik und Behandlung anhand 110 konkreter Fälle aus verschiedenen medizinischen Bereichen. Hier zeigte sich eine bereits gute Performance der neuesten Version von ChatGPT, aber auch andere transparentere Open-Source-Modelle haben nachgezogen. Die Arbeit befasst sich mit einem äußerst zeitgemäßen und klinisch relevanten Thema, nämlich den Möglichkeiten und Grenzen einer aktuellen Nutzung solcher Programme im Kontext der klinischen Routine.

Zu Hintergrund, Fragestellung und Bedeutung der Publikation:
Die jüngsten Entwicklungen auf dem Gebiet der Large-Language-Models (LLM) haben die Wahrnehmung von Künstlicher Intelligenz in der Bevölkerung erheblich gesteigert, allen voran ChatGPT. Während die Anwendung im medizinischen Kontext verlockend erscheint, fehlt eine systematische Analyse der Modelle zur klinischen Entscheidungsunterstützung. Weiterhin ist die Performanz im Vergleich zu Open-Source-Modellen oder der üblichen Google-Suche unklar.

Eine systematische Analyse der Performanz von GPT-3.5, GPT-4 versus naive Google-Suche wurde für drei Aufgaben zur klinischen Entscheidungsunterstützung durchgeführt: Erstdiagnose, Untersuchung und Behandlung. In einer Substudie wurden zusätzlich zwei eigens konfigurierte Open-Source-LLM Llama 2 betrachtet. Die Analyse von 110 medizinischen Fällen unterschiedlichster Entitäten und Inzidenzen zeigte eine deutliche Leistungssteigerung von GPT-4 im Vergleich zu seinem Vorgänger GPT-3.5 sowie der Google-Suche. Unsere Substudie zeigte eine geringfügig schlechtere Leistung der beiden Llama-2-Modelle. Beim Stellen der Erstdiagnose wiesen alle Modelle die schlechtesten Ergebnisse auf. Insbesondere bei seltenen Erkrankungen konnte eine schlechtere Performanz beobachtet werden.

Die Ergebnisse zeigen das wachsende Potenzial von LLM bei medizinischen Fragestellungen. Ihre Schwächen unterstreichen jedoch den Bedarf an robusten und regulierten KI-Modellen in der Gesundheitsversorgung. Open-Source-LLM können eine Option sein, um Datenschutzanforderungen zu erfüllen und ein transparenteres Training zu ermöglichen.

Background and fundamental question of the publication:

Recent developments in the field of Large Language Models (LLMs) have led to significant advancement in the perception of artificial intelligence in the population; above all ChatGPT. While application in the medical field appears tempting, a systematic evaluation of the models' abilities for clinical decision support is lacking. Furthermore, performance in relation to alternative open-source models or common Google search remains unclear.

We performed a systematic evaluation of different clinical decision support tasks (suggested initial diagnosis, examination steps and treatment) with the principal models GPT-3.5, GPT-4 and naïve Google search. Two custom-configured open source LLMs of the Llama 2 family were assessed in a sub-study. Analysis of 110 medical cases from a broad spectrum of disease entities and incidences showed a clear performance progression of GPT-4 compared to its predecessor GPT-3.5 as well as Google search. Our sub-study indicated slightly inferior performance of both Llama 2 models. Regarding initial diagnosis – the most difficult task – all of the three principal models performed worst. Poorer performance was observed particularly for rare diseases.

Our results show the growing potential of LLMs for medical question answering, clearly outperforming naïve Google search. However, some weaknesses underscore the need for robust and regulated AI models in health care. Open source LLMs can be a viable option to address specific needs regarding data privacy and transparency of training

Die bisherigen ausgezeichneten „Papers of the Month“ finden Sie HIER.

Folgendes könnte Sie auch interessieren: