CareLit Fachartikel

Künstliche Intelligenz: Messverfahren für Chatbots unzureichend

Lau, T. · Deutsches Ärzteblatt · 2026 · Heft 4 · S. 215

Dokument
572235
CareLit-ID
Jahr
2026
Publikation
PDF
ja
Volltext
DOI
zitierfähig

Bibliografische Angaben

Zeitschrift
Deutsches Ärzteblatt
Autor:innen
Lau, T.
Ausgabe
Heft 4 / 2026
Jahrgang 58
Seiten
215
Erschienen: 2026-03-06 00:00:00
ISSN
0172-2107
DOI

Zusammenfassung

Die gängigen Bewertungssysteme für Große Sprachmodule (Large Language Model, LLM) sind in Gesundheitsfragen nicht aussagekräftig genug. Zu diesem Ergebnis kommen zwei neue Studien. In einer bisher als Preprint erschienenen Studie hatten Forschende der Universitäten Harvard und Stanford im klinischen Setting 31 große Sprachmodelle anhand von 100 realen Fällen in zehn medizinischen Fachgebieten untersucht. Daraufhin ließen sie 29 Ärztinnen und Ärzte verschiedener Fachrichtungen 12 747 Kommentare zu den Empfehlungen der LLM abgeben, in denen sie den Nutzen oder Schaden der empfohlenen Maßnahme beurteilten. In 22 Pr…

Schlagworte

Ärzte Krankenhaus Ärztinnen Schizophrenie Arbeitsbelastung Beurteilung Datenbanken Augenheilkunde Augenärzte Psychiatrie Technik Deutsches Ärzteblatt