
Studie: KI bei Diagnosen schlechter als gedacht
n-tv
Eine Oxford-Studie zeigt: KI-Chatbots wie GPT-4o liefern bei echten Akutfällen häufig fehlerhafte medizinische Ratschläge.
Bei akuten Beschwerden vertrauen viele auf KI-Chatbots als medizinische Ratgeber. Eine Untersuchung der Universität Oxford offenbart nun deren erstaunlich schlechte Leistung. Die Systeme schneiden dabei nicht besser ab als eine herkömmliche Internet-Suche.
Ein stechender Schmerz, eine schlaflose Nacht - erst einmal abwarten oder lieber zum Arzt, vielleicht sogar in die Notaufnahme? KI-Chatbots sind erstaunlich schlecht darin, Menschen mit akuten Beschwerden akkurate medizinische Ratschläge zu geben. Das fand ein Forscherteam der Universität Oxford in Kooperation mit weiteren Institutionen mit einem Experiment heraus, über das die Gruppe im Fachjournal "Nature Medicine" berichtet.
Die rund 1300 Studienteilnehmer bekamen zufällig verschiedene, von Ärzten ausgewählte, fiktive Krankheitssymptome zugeteilt, zu denen sie sich informieren und Ratschläge einholen sollten, was in der Situation medizinisch angeraten ist. Zu den Fallbeispielen zählte etwa eine junge Mutter, die unter starken Erschöpfungssymptomen leidet, sowie ein 47 Jahre alter Mann mit Leistenschmerzen und Blut im Urin.
Im Austausch mit den Studienteilnehmern sollten die untersuchten KI-Tools eine Diagnose stellen und den nächsten Schritt empfehlen – also etwa zum schnellstmöglichen Ruf des Krankenwagens oder zu einem Routinetermin beim Hausarzt raten. Für jedes Szenario definierten die beteiligten Mediziner zuvor die richtige Lösung.
Die Teilnehmenden interagierten in dem Experiment entweder mit einem der untersuchten KI-Sprachmodelle (GPT-4o, Llama 3 oder Command R+) oder waren Teil der Kontrollgruppe, die auf konventionelleren Wegen daheim Informationen und Rat suchten, darunter normale Suchmaschinen.













