TUM-Studie: Warum KI-Modelle wie Llama 2 in der Medizin (noch) versagen
München, Bayern | Ein Team der Technischen Universität München (TUM) hat untersucht, ob Large Language Models (LLMs), wie sie in Chatbots verwendet werden, für medizinische Diagnosen geeignet sind. Die Ergebnisse zeigen, dass diese Künstliche Intelligenz (KI) zwar in der Lage ist, medizinische Examen nahezu fehlerfrei zu bestehen, aber im klinischen Alltag erhebliche Risiken birgt. Die KI trifft oft vorschnelle Diagnosen, hält sich nicht an Richtlinien und könnte potenziell das Leben von Patienten gefährden.
Für die Untersuchung nutzten die Forschenden anonymisierte Daten von 2.400 Patienten, die mit Bauchschmerzen in die Notaufnahme gekommen waren. Die KI musste auf Basis der verfügbaren Informationen, ähnlich wie in einer realen Klinik, Diagnosen und Behandlungspläne erstellen. Dabei zeigte sich, dass die KI häufig nicht alle notwendigen Untersuchungen durchführte und weniger genaue Diagnosen stellte, je mehr Informationen sie erhielt. Zudem war die Zuverlässigkeit der Diagnosen von der Reihenfolge der Daten abhängig, was die Robustheit der Modelle in Frage stellt.
Ein Vergleich mit menschlichen Ärzten zeigte, dass die Ärzte in 89 % der Fälle die richtige Diagnose stellten, während das beste LLM nur 73 % erreichte. Jedes Modell erkannte manche Erkrankungen besser als andere. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.
Es ist gut möglich, dass in absehbarer Zeit ein Large Language Model besser dafür geeignet ist, aus Krankengeschichte und Testergebnissen auf eine Diagnose zu kommen
Das Team betonte, dass kommerzielle LLMs wie ChatGPT in dieser Studie nicht getestet wurden, da die Nutzung von Krankenhausdaten durch diese Modelle aus Datenschutzgründen verboten ist und Open-Source-Software bevorzugt wird. Trotz der aktuellen Einschränkungen sieht das Team Potenzial in der Technologie und hat eine Testumgebung veröffentlicht, um die Zuverlässigkeit zukünftiger medizinischer KI-Systeme zu evaluieren. Sie warnen jedoch vor den Gefahren, die mit der unkritischen Anwendung dieser Technologie verbunden sind.
Spezialisierte KI-Tools zeigen großes Potenzial
Der Erfolg des Deep Learning Tools zur Diagnose der Equinen rezidivierenden Uveitis (ERU) unterstreicht das breite Potenzial von Künstlicher Intelligenz in der medizinischen Forschung. Während verschiedene Ansätze wie das an der LMU in München entwickelte Tool eine beeindruckende Genauigkeit von 93 Prozent bei der Erkennung der Erkrankung. Während spezialisierte Tierärzte eine Genauigkeit von 76 Prozent erzielten, beweist die KI, dass sie nicht nur als unterstützendes Werkzeug dienen kann, sondern auch signifikantes Potenzial bietet, insbesondere in Regionen mit geringer Tierarztdichte. Dies unterstreicht die wachsende Bedeutung von KI in der medizinischen Diagnostik.