ChatGPT ist nicht für medizinische „Tests“ geeignet, da es in 83 % der Fälle keine falschen Ergebnisse liefert

Eine neue Studie, die in JAMA Pediatrics veröffentlicht wurde, hat die Hoffnungen einiger Menschen zunichte gemacht KI-gestützt medizinische Diagnosen, die das populäre Sprachmodell enthüllen ChatGPT-4 schnitt bei der Bewertung von Gesundheitsfällen für Kinder schlecht ab. Laut einem Bericht von Ars Technica unterstreicht die Studie mit einer Fehlerquote von erstaunlichen 83 % die Gefahren, sich darauf zu verlassen ungeprüfte KI in Situationen mit hohen Einsätzen wie Gesundheitspflege.
Forscher des Cohen Children’s Medical Center in New York testeten ChatGPT-4 anhand von 100 anonymisierten pädiatrischen Fallstudien, die eine Reihe häufiger und komplexer Erkrankungen abdeckten. Die schlechte Leistung des Chatbots, das Fehlen wichtiger Hinweise und die Bereitstellung ungenauer Diagnosen in der überwiegenden Mehrheit der Fälle geben Anlass zu ernsthaften Bedenken hinsichtlich der Eignung der aktuellen KI-Technologie für medizinische Anwendungen.
Von 100 Fällen lieferte ChatGPT nur in 17 Fällen richtige Antworten. In 72 Fällen gab es ungenaue Antworten und in den restlichen 11 Fällen erfasste es die Diagnose nicht ganz richtig. Von den 83 Fehldiagnosen betrafen 57 Prozent (47 Fälle) dasselbe Organsystem, heißt es in dem Bericht.
Wie wurde ChatGPT bewertet?
Während der Auswertung von ChatGPT fügten die Forscher den relevanten Text medizinischer Fälle in die Eingabeaufforderung ein. Anschließend bewerteten zwei qualifizierte medizinische Forscher die von der KI generierten Antworten und kategorisierten sie als entweder richtig, falsch oder „erfassten die Diagnose nicht vollständig“. In Fällen, in denen ChatGPT in die letztere Kategorie fiel, lieferte es häufig eine klinisch bedingte Erkrankung, die zu weit gefasst oder nicht spezifisch genug war, um als genaue Diagnose gelten zu können. Beispielsweise identifizierte ChatGPT bei der Diagnose eines Kindes eine Kiemenspaltzyste – einen Knoten im Nacken oder unterhalb des Schlüsselbeins –, während die korrekte Diagnose Branchio-oto-renales Syndrom lautete. Dem Bericht zufolge handelt es sich bei diesem Syndrom um eine genetische Erkrankung, die zu einer abnormalen Gewebeentwicklung im Nacken sowie zu Fehlbildungen an Ohren und Nieren führt. Einer der Indikatoren für diesen Zustand ist insbesondere das Auftreten von Kiemenspaltzysten.
In der Studie wurde jedoch erwähnt, dass ChatGPT als ergänzendes Tool verwendet werden kann. Als Teil der Ergebnisse stellte die Studie fest, dass „LLM-basierte Chatbots als ergänzendes Tool für Ärzte bei der Diagnose und Entwicklung einer Differenzialliste für komplexe Fälle eingesetzt werden könnten.“

toi-tech

Praktische Erfahrung mit der Clicks-Tastatur im BlackBerry-Stil für das iPhone

Eine kurze Geschichte der Kampfkünste im Star Wars-Universum

Bei einem Temperaturanstieg von zwei Grad könnten Eisbären aus der Hudson Bay in Kanada verschwinden

US-Vizepräsident verlässt Selenskyjs „Friedenskonferenz“ vorzeitig — World

ChatGPT ist nicht für medizinische „Tests“ geeignet, da es in 83 % der Fälle keine falschen Ergebnisse liefert