Künstliche Intelligenz: Messverfahren für Chatbots unzureichend
Lau, T. · Deutsches Ärzteblatt · 2026 · Heft 4 · S. 215
Bibliografische Angaben
Zusammenfassung
Die gängigen Bewertungssysteme für Große Sprachmodule (Large Language Model, LLM) sind in Gesundheitsfragen nicht aussagekräftig genug. Zu diesem Ergebnis kommen zwei neue Studien. In einer bisher als Preprint erschienenen Studie hatten Forschende der Universitäten Harvard und Stanford im klinischen Setting 31 große Sprachmodelle anhand von 100 realen Fällen in zehn medizinischen Fachgebieten untersucht. Daraufhin ließen sie 29 Ärztinnen und Ärzte verschiedener Fachrichtungen 12 747 Kommentare zu den Empfehlungen der LLM abgeben, in denen sie den Nutzen oder Schaden der empfohlenen Maßnahme beurteilten. In 22 Pr…