
1. Patienten, Angehörige und Ärzte werden »ChatGPT Gesundheit« intensiv nutzen und sie werden durch die Ergebnisse massiv beeinflusst
Bald startet OpenAI mit dem LLM1 Produkt »ChatGPT Gesundheit« auch in Europa. Im Anschluss an die »Consumer Electronics Show« im Januar 2026 in Las Vegas kündigte OpenAI generative KI-Produkte für den Gesundheitssektor an, die sich direkt an Endverbraucher richten. OpenAI veröffentlichte »ChatGPT Health« am 7. Januar 2026 in den USA. Bei »ChatGPT Gesundheit« können Nutzer Prompts zu Gesundheitsfragen eingeben, erhalten Antworten, und auch andere Systeme wie ihre elektronische Gesundheitsakte können angebunden werden. Welche konkreten Funktionen in Europa zur Verfügung stehen werden, ist noch nicht bekannt.
Um die Reichweite dieses Themas zu fassen, sind die Nutzerquoten relevant. OpenAI gibt an, dass ChatGPT-Nutzer täglich über 2,5 Milliarden Eingaben senden.2 In einer Studie von Chatterji et al. machten praktische Hilfestellung zu den Themen Gesundheit, Fitness, Schönheit und Selbst-Führsorge 5,7 % der untersuchten Konversionen im Untersuchungszeitraum aus.3 Im Juli 2025 wurden wöchentlich weltweit 18 Milliarden Nachrichten von 700 Millionen Nutzern verschickt.4 Berechnet man die anteiligen 5,7% kommt man auf 1.026 Milliarden Anfragen pro Woche zu den Themen Gesundheit, Fitness, Schönheit und Selbst-Führsorge. Wenn angenommen wird, dass ein Viertel der Prompts in dieser Kategorie das Thema Gesundheit betreffen, werden bei ChatGPT pro Woche 256,5 Millionen Anfragen zum Thema Gesundheit weltweit gestellt.
Die Nutzung von ChatGPT zu dem hochsensiblen Thema Gesundheit ist bereits jetzt sehr stark ausgeprägt.
Es ist anzunehmen, dass Menschen harte diagnostische Daten bei ChatGPT, Gemini, Perplexity und anderen LLMs hochladen oder eingeben, weil sie in außergewöhnlichen Situationen Angst haben, sehr lange auf einen Facharzttermin warten zu müssen, ihr Arzt nicht in der Lage ist eine Vertrauensbeziehung aufzubauen, der Arzt fachlich nicht überzeugt, sie keinen Zugang zu einem Arzt haben und/oder Ihnen das Geld fehlt.
Auch Ärzte nutzen ChatGPT und in einigen deutschen Krankenhäusern dürfen Ärzte ChatGPT entsprechend genau definierter interner Richtlinien nutzen. Wie die Einhaltung dieser Richtlinien gesichert wird, ist nicht bekannt.
Auch darf man das sogenannte Gewöhnungsvertrauen oder auch erfahrungsbasiertes Vertrauen5 von KI-Nutzern nicht ignorieren. Niklas Luhmann beschreibt Vertrauen als Mechanismus zur Reduktion von Komplexität. Ein zentraler Baustein ist dabei Gewöhnung, die durch häufige positive Erfahrung entsteht.6
Übertragen auf die Situation der Nutzung von LLMs bedeutet es, dass Menschen diesen Systemen mehr Vertrauen schenken, wenn sie deren Nutzung gewohnt sind, auch wenn diese Nutzung in anderen Kontexten geschah.
Nach Parasuraman und Riley werden Automatisierungen umso stärker genutzt, je zuverlässiger sie in der Vergangenheit waren, unabhängig davon, ob Nutzer ihre Grenzen verstehen.7 In der wissenschaftlichen experimentellen Arbeit von Zafari et al. konnte nachgewiesen werden, dass „interessanterweise Fehlfunktionen von den Teilnehmern jedoch nicht immer explizit als prominentes Problem wahrgenommen worden sind; diese gaben an, sich nicht immer an den Fehlfunktionen gestört zu haben.“8
Darüber hinaus ist das sogenannte Transfervertrauen zu beobachten. Transfervertrauen ist umfassend in der Vertrauensübertragungstheorie beschrieben worden.
Buntain und Golbeck belegten, dass Vertrauenstransfer über disparate Kontexte hinweg stattfindet und dieser inter-kontextuelle Vertrauenstransfer einen stärkeren Einfluss auf das menschliche Verhalten ausübt als objektive Leistungsdaten.9 Diese Beobachtung konnte von anderen wissenschaftlichen Arbeiten nicht nur bei der Interaktion von Menschen gemacht werden, sondern auch bei KI-Systemen. Oft vertrauen Nutzer einer KI nicht wegen der Technik, sondern weil sie der Marke oder dem Hersteller (z. B. Google, OpenAI) vertrauen. Dieses Vertrauen stammt aus bereits gemachten positiven Erfahrungen. Im Bereich der KI ist dies besonders relevant, da Nutzer oft Vertrauen aus unkritischen Bereichen (z. B. Musik-Empfehlungsalgorithmus) auf kritischere Bereiche (z. B. medizinische Diagnosen und Therapien) projizieren.
Dass bedeutet, wenn Nutzer in einem inhaltlichen Kontext sehr positive Erfahrungen mit einer KI gemacht haben, werden sie diesem KI-System auch sensiblere Aufgaben geben.
Wenn der Nutzer glaubt, der Hersteller habe die KI gut ausgerichtet, steigt das Transfervertrauen: „Die Ergebnisse deuten darauf hin, dass eine entwicklerbasierte Steuerbarkeit den Vertrauenstransfer vom KI-Entwickler auf das System verstärkt.“10
Seit 2022 nutzen ca. 700 Millionen Menschen ChatGPT weltweit. Hinzu kommen noch die firmeninternen ChatGPT Versionen, die über eine API das System nutzen. Somit ist die Marke OpenAI und ChatGPT kognitiv sehr bekannt. Diese Bekanntheit führt dazu, dass spezifische psychologische Heuristiken das menschliche Entscheidungsverhalten bezüglich der Nutzung und der kognitiven Verarbeitung der Ergebnisse beeinflussen. Die Heuristiken, insbesondere die Affektheuristik, die Heiligenschein-Heuristik (Halo-Effekt) und die Verfügbarkeitsheuristik werden Nutzer dazu motivieren, sowohl bei ChatGPT Health als auch anderen LLMs hochsensible persönliche Informationen einzugeben und hochzuladen.
Die Affektheuristik spielt beim Entscheidungs- und Nutzungsverhalten von Software-Lösungen eine entscheidende Rolle. Menschen nutzen ihre aktuellen Emotionen oder ihr „Bauchgefühl“ gegenüber einem Reiz (der Marke), um Risiken und Vorteile zu bewerten. Das heißt, wenn Nutzer eine Marke kennen und damit gute Erfahrungen gemacht haben, nutzen diese wegen der Affektheuristik wahrscheinlicher auch andere Tools und Services dieser Marke.
Der Halo-Effekt ist eine spezifische Form der Affektheuristik. Er ist eine kognitive Verzerrung, bei der die positive Bewertung einer einzelnen Eigenschaft oder Erfahrung auf andere, unbekannte Bereiche, Produkte oder Nutzungsarten „ausstrahlt“. Somit ist diese Heuristik dem Transfervertrauen sehr ähnlich.
Die Verfügbarkeitsheuristik beeinflusst, welche Informationen Menschen überhaupt in den Sinn kommen, um ein Urteil zu fällen. Diese Heuristik wurde 1973 von den Psychologen Amos Tversky und Daniel Kahneman eingeführt. „Life-long experience has taught us that instances of large classes are recalled better and faster than instances of less frequent classes, that likely occurrences are easier to imagine than unlikely ones, and that associative connections are strengthened when two events frequently co-occur. Thus, a person could estimate the numerosity of a class, the likelihood of an event, or the frequency of co-occurrences by assessing the ease with which the relevant mental operation of retrieval, construction, or association can be carried out.“11
Vereinfacht formuliert, nutzt unser Gehirn die „Leichtigkeit des Abrufs“ als Abkürzung, um komplexe statistische Fragen zu beantworten. Deshalb überschätzen Anleger die Renditechancen von Aktien, die in den Medien aktuell stark präsent sind.
Die positiven Erlebnisse mit der Firma, eines Produktes oder nur eines Markennamens, der sehr häufig in positiven Kontexten gehört wurde, wird vom Gedächtnis leicht abgerufen. Diese leicht verfügbaren Informationen dominieren den Entscheidungsprozess stärker als die Tatsache, dass über das neue Produkt eigentlich keine Informationen vorhanden sind. Das ist konkret u.a. bei ChatGPT, »ChatGPT Gesundheit«, Gemini, Perplexity der Fall.
Darüber hinaus führt die sehr leere und intuitive Benutzeroberfläche zu dem Gefühl der Beherrschung und damit Kontrolle der Situation seitens des Nutzers. Aus diesen Gründen sind die Benutzeroberflächen im Zuge der Zeit immer einfacher in der Bedienung und reduzierter in der visuellen Gestaltung umgesetzt worden.
Die gewählte freundliche und gleichzeitig absolutistische und selbstbewusste Wortwahl führen dazu, dass die Ergebnisse von ChatGPT vom Nutzer eher nicht in Frage gestellt werden und somit nicht proaktiv geprüft werden. Das Problem ist, dass die Ergebnisse von LLMs oft sehr überzeugend klingen, während sie eigentlich nur statistische Wahrscheinlichkeiten von Wortfolgen berechnen. Dies führt dazu, dass Nutzer die Sicherheit der Formulierung mit der Korrektheit des Inhalts verwechseln.
Inhaltlich werden die Ergebnisse linguistisch sehr plausibel argumentiert. Die große Herausforderung ist, dass Menschen Inhalte deutlich für wahrheitsgemäßer halten, wenn diese linguistisch plausibel sind. Ryser et al. fanden in ihrer qualitativen Arbeit heraus, dass Halluzinationen, wenn diese faktisch falsch sind, nicht dazu führen, dass Menschen dem KI-System misstrauen, sie verändern nur die Art der Vertrauensbeziehungen zum System.12
Wegen der linguistischen Plausibilität, der absolutistischen Wortwahl, das UX- und UI-Design und der damit gezielten Nutzung von Heuristiken, der Art der menschlichen Vertrauensbildung und des Entscheidungsverhaltens von Menschen, kann man von gezielter algorithmischer Bevormundung sprechen.
Aus diesen Gründen werden Menschen diese LLMs zunehmend auch für höchst persönliche sensible Fragestellungen nutzen und weniger auf die Idee kommen, explizite Gesundheits-Checker zu nutzen, die auch Schwachstellen haben.
2. Weitere schwere Risiken von LLMs zur Beantwortung von Gesundheitsfragen
Aufgrund der bereits vorhandenen intensiven Nutzung von LLMs und anderer KI-Technologien für medizinische Fragestellungen, der erwartbaren, weiterwachsenden Nutzung durch Patienten, Angehörige und Ärzte und der bereits ausführlich belegten Manipulationskraft ist eine medizinethische Risikoanalyse dieser Thematik erforderlich.
2.1 Status »ChatGPT Gesundheit« – MDR, MPDG und EU AI Act.
Am 18.01.2025 ist auf der Seite von ChatGPT zu lesen: „Du kannst jetzt elektronische Patientenakten und Wellness-Apps – wie Apple Health, Function und MyFitnessPal – auf sichere Weise verbinden, damit ChatGPT dir helfen kann, aktuelle Testergebnisse zu verstehen, dich auf Arzttermine vorzubereiten, Ratschläge zu deiner Ernährung und Trainingsroutine zu erhalten oder die Vor- und Nachteile verschiedener Versicherungsoptionen basierend auf deinen Gesundheitsmustern zu verstehen.„13
Der Text führt sehr unkonkret aus, wie »ChatGPT Gesundheit« inhaltlich entwickelt worden ist. „Über einen Zeitraum von zwei Jahren haben wir mit über 260 Ärzt:innen zusammengearbeitet, die in 60 Ländern und Dutzenden von Fachgebieten tätig sind, um zu verstehen, was eine Antwort auf eine Gesundheitsfrage hilfreich oder potenziell schädlich macht. Diese Gruppe hat mittlerweile über 600.000-mal Feedback zu Modellausgaben in 30 Schwerpunktbereichen gegeben.„14
Über die KI-technische Entwicklung erfährt der Leser nichts, genauso wenig erfährt man etwas über die angewendeten Daten Governance, KI Governance, das KI-Trust-Framework, inhaltliche Qualitätssicherung, das Risikomanagement im operativen Betrieb und konkret, was für Human in the Loop-Systeme bei der Entwicklung angewendet wurden, und während des operativen Betriebs verwendet, werden. Die Tragweite kann in jedem einzelnen Element sehr groß sein, denn es ist z.B. etwas sehr anderes, wenn Clickworker in Manila das Human in the Loop-System des operativen Betriebs stellen oder qualifizierte zugelassene Fachärzte.
Sehr gut entwickelte und sehr gut betriebene Health-Symptom-Checker verfügen über eine permanente Zusammenarbeit von Fachmedizinern und Datenwissenschaftlern mit dem Ziel eine hochpräzise Datenauswahl umzusetzen, mit der die Modelle trainiert werden, sowie hochaufwändige Trainingsüberwachung. Auch während des operativen Betriebs werden die Ergebnisse in einem nahtlosen permanenten Prozess von Medizinern und Datenwissenschaftlern überwacht, um zu vermeiden, dass die Datenbasis zu verzerrten Ergebnissen führt. Um mögliche verzerrte Ergebnisse, die auch bei einem kleinen KI-System mit einer klar abgegrenzten Datenbank, wie einem Image-Recognition-Verfahren zur Hautkrebsdiagnostik durch Concept-Drifts oder Data-Drifts entstehen können, möglichst frühzeitig zu erkennen, ist permanentes Monitoring erforderlich. Klar definierte Verantwortlichkeiten regeln, welche konkreten Maßnahmen sofort umgesetzt werden, sollten Verzerrungen oder Drifts entstehen.
Es wird die Hypothese aufgestellt, dass bei ChatGPT aufgrund der KI-Systemgröße mit der gesamten Daten-Lieferantenkette sowie der Mengen von Nutzer-Eingaben kein präzises inhaltliches Qualitätsmanagement und Risikomanagement-System implementiert werden kann, weil es schon allein unmöglich ist, die Systemgrenze zu ziehen. Darüber wie das KI-System bei »ChatGPT Gesundheit« aufgesetzt ist, liegen keine gesicherten transparenten Informationen vor.
Ob »ChatGPT Gesundheit« unter die MDR fällt, hängt davon ab „ob das konkrete Produkt mit der durch seinen Hersteller festgelegten Zweckbestimmung die Definition eines Medizinproduktes erfüllt. Dabei handelt es sich nach den in der EU geltenden rechtlichen Vorgaben immer um eine Einzelfallentscheidung bezogen auf ein konkretes Produkt (z. B. eine Software) in einer bestimmten Anwendung.“15
Ob ChatGPT-Gesundheit unter die Kategorie für Hochrisiko-Systeme gemäß dem EU AI Act fällt, ist offiziell noch offen. Andere Symptom Checker wie Infermedica16 fallen unter die Regulatorik von Hoch-Risiko-Systeme des EU AI Acts.
Wenn »ChatGPT Gesundheit« unter die Regulatorik für Medizinprodukte fällt und der Kategorie der Hoch-Risiko-Systeme des EU AI Acts zugehörig ist, sind umfangreiche Dokumentationen einzureichen und vorgegeben Maßnahmen zu erfüllen. „Hochrisiko-KI muss über detaillierte Risikomanagementpläne, hochwertige Trainingsdaten, eine transparente Dokumentation, Mechanismen zur menschlichen Aufsicht und eine kontinuierliche Überwachung nach dem Einsatz verfügen.„17 Das KI-System darf in diesem Fall auch nicht mehr anhand der Dateneingabe durch die Nutzer lernen.
Geprüft wird aber nur eine Ist-Aufnahme auf Basis der eingereichten Informationen, und jedes operative Fehlerverhalten muss nachgewiesen werden – deshalb hat die EU das AI Act Whistleblower Tool18 institutionalisiert.
2.2 »ChatGPT Gesundheit« im Hinblick auf das ethische Prinzip der Verantwortung – exemplarisch bezogen auf den Begriff der juristischen Haftung
Es wird hier bezüglich des ethischen Prinzips der Verantwortung nur der abgeleitete Rechtsbegriff der Haftung betrachtet, weil sich hier bereits deutliche Verhaltensweisen feststellen lassen. Dieses Verhalten kann auf mögliche weitere Handlungen im Rahmen des Prinzips der Verantwortung hindeuten. Darüber hinaus ist aus Patienten- und Ärzte-Sicht die Haftungsfrage wesentlich.
MDR, MPDG und EU AI Act „erlegen Anbietern, die Produkte in der EU in Verkehr bringen oder in Betrieb nehmen, strenge Pflichten auf: Gewährleistung von Sicherheit, Wirksamkeit, Transparenz und fortlaufender Überwachung. (…) Die Einstufung als „Hochrisiko“ verstärkt die Haftung.„19
Aus Arzt- und Patientensicht besonders relevant ist, dass „die Haftung ist in der Praxis oft über eine komplexe Kette von Akteuren verteilt“.20 KI-Ökosysteme können sehr schnell sehr komplex sein und das kann zu Herausforderungen bei der Geltendmachung von Haftungsansprüchen führen, weil die jeweils geschlossenen Verträge innerhalb dieses komplexen Systems eine wichtige Rolle einnehmen. Jeder Nutzer schließt durch die Zustimmung zu den AGB einen Vertrag. Wenn eine Klinik einen Unternehmens-Vertrag mit ChatGPT schließt, wird ein gesonderter Vertrag geschlossen. Nach aktuellem Informationstand schiebt ChatGPT alle möglichen Haftungsrisiken auf die Klinik bzw. die Ärzte. Die Arzthaftung bleibt somit unangetastet bestehen.
Aus Patientensicht ist diese Haftungsverortung sinnvoll, weil der Arzt gefordert ist, die inhaltliche Qualitätssicherung der Datenausgabe zu gewährleisten und weil mögliche Haftungsforderungen direkt adressierbar sind. In diesem Szenario wäre aus Patientensicht wesentlich, dass die Datenpunkte, wenn Sie zur Diagnose- und Therapieentscheidung herangezogen werden, rechtssicher dokumentiert werden und der Patient diese Datenpunkte genauso wie ein Röntgenbild oder MRT auch proaktiv ausgehändigt bekommt.
Wenn in einem anderen Szenario ein Dritter z.B. Beratungsunternehmen oder Start-Up Nutzungsrechte an eine Gesundheits-Software unter Einbindung einer API von »ChatGPT Gesundheit« an eine Klinik oder Arztpraxis verkauft hat, besteht eine komplexere vertraglichere Situation insbesondere dann, wenn die Software mit anderen Datenlieferanten arbeitet.
In einer solchen Situation kann es für Patienten und ihre Angehörigen sehr kompliziert und kostenwirksam werden, Beweise für ein mögliches Fehlverhalten zu erhalten und die Haftungsfragen zu klären.
Die aktuelle Position von OpenAI ist laut offizieller AGB: „Weder wir noch unsere verbundenen Unternehmen oder Lizenzgeber haften für indirekte, zufällige, besondere, Folge- oder exemplarische Schäden, einschließlich Schäden für entgangenen Gewinn, Firmenwert, Nutzung oder Daten- oder andere Verluste, selbst wenn wir auf die Möglichkeit solcher Schäden hingewiesen wurden.“21
Somit zeichnet man sich so weit wie möglich von einer Haftung frei, weil man aufgrund der verwendeten Technologie sehr gut argumentieren kann, dass alle Ergebnisse und zufällig sind.
Die Aufforderung einen Arzt oder Fachexperten aufzusuchen, die Nutzer häufiger am Ende einer Datenausgabe erhalten, unterstreicht dieses Verhalten. Somit ist anzunehmen, dass diese lediglich der Haftungs-Freizeichnung oder Haftungsverschiebung dienen.
Aus Sicht der Patienten ist die konsequente Beibehaltung der Arzthaftung ethisch sinnvoll, da diese den Arzt motiviert, sich präzise mit der Auswahl von KI-Tools zu beschäftigen und differenzierter die Ausgabewerte zu analysieren. Darüber hinaus ermöglicht dies ihm im Schadensfall Ansprüche leichter geltend zu machen, was in Deutschland zum aktuellen Zeitpunkt eine große Herausforderung und kostenintensiv ist – dabei sind die Entschädigungszahlungen in den meisten Fällen kaum kostendeckend bezüglich der erforderlichen Mehraufwände, die durch die Gesundheitsschäden entstanden sind. Gesundheitliche Schäden werden wahrscheinlich nicht die Form annehmen „ChatGPT gab Anweisung XY und ich starb“. Sie werden sich subtiler manifestieren durch verzögerte Behandlungen, falsche Rückversicherungen, missinterpretierte Symptome oder verpasste Interventionsfenster. Dies führt zu einem Mangel an klaren Fehlerquellen und Verantwortlichkeiten. Darüber hinaus sind Haftungsansprüche in den USA geltend zu machen, was für viele Patienten und ihre Angehörigen eine noch größere Hürde ist. Aus diesen Gründen ist es unverrückbar wichtig, dass die Arzthaftung bestehen bleibt.
Aus Sicht des Arztes braucht dieser sehr umfassende Informationen über das KI-System, die seitens der Hersteller oder Betreiber vielleicht nicht zur Verfügung gestellt werden und wegen der anderen fachlichen Expertise auch nur schwer eindeutig einzuordnen sind. Eine entsprechende unabhängige KI-Fachexpertise sollte deshalb für niedergelassene Ärzte und Kliniken z.B. über ausdrücklich nationale Strukturen wie den Ärztekammern verfügbar sein. Zentral wesentlich ist, dass eine Klinik sämtliche Qualitätssicherungen einschließlich des Risikomanagements des KI-Systems mit eindeutig unabhängigen europäischen Metrik-Mess-Instrumenten durchführt und dies nicht dem Hersteller oder Betreiber überlässt. Für niedergelassene Ärzte muss auch eine nationale oder europäische unabhängige Lösung gefunden werden.
2.3 Vertiefung: ChatGPT und das ethische Prinzip des Nichtschadens
Das ethische Prinzip des Nichtschadens ist eines der wesentlichen ethischen Prinzipien in der Medizin und ist eng mit dem Prinzip der Patientensicherheit verknüpft.
„Ärzte bekennen sich seit langem zu der Verpflichtung, ihren Patienten keinen Schaden zuzufügen. Zu den am häufigsten zitierten Grundsätzen in der Geschichte medizinethischer Kodizes gehört die Maxime primum non nocere: „Vor allem (oder: zuerst) einmal nicht schaden.“22
Verzerrte oder falsche Ausgabewerte können Nutzern schaden. Um die Zuverlässigkeit und Sicherheit eines LLMs zu verbessern, werden eine Reihe von Metriken gemessen.
Eine Metrik-Gruppe ist die Akkuratheit. In dieser Gruppe werden z.B. Absichtserkennung, Faktentreue und Antwortqualität gemessen.
Am Markt gibt es einige generative KI-Modelle, die zur Diagnose- und Therapie-Entscheidungsunterstützung eingesetzt werden. Zwar sind diese bisher wenig wissenschaftlich untersucht worden aber dennoch geben einige Forschungsarbeiten wertvolle Hinweise.
Hirotaka et al. veröffentlichten 2025 eine systematische Übersichtsarbeit und Metaanalyse von Studien, in der generative KI-Modelle für diagnostische Aufgaben validiert worden sind und deren Modelle zwischen Juni 2018 und Juni 2024 veröffentlicht worden sind.
„Die Analyse von 83 Studien ergab eine diagnostische Gesamtgenauigkeit von 52,1 %. Insgesamt wurde kein signifikanter Leistungsunterschied zwischen KI-Modellen und Ärzten oder nicht-spezialisierten Ärzten festgestellt. KI-Modelle schnitten jedoch signifikant schlechter ab als Fachärzte (…). Mehrere Modelle zeigten eine geringfügig höhere Leistung im Vergleich zu Nicht-Experten, wenngleich diese Unterschiede nicht signifikant waren. Generative KI weist vielversprechende diagnostische Fähigkeiten auf, wobei die Genauigkeit je nach Modell variiert.“23 Untersucht wurden unter anderem Modelle von ChatGPT, Claude, Gemini, Perplexity.
Einige der Modelle überraschen mit sehr positiven Ergebnissen und die doch schwache Akkuratheit von Ärzten fällt auf. An dieser Stelle wird deutlich hervorgehoben, dass die wissenschaftliche Studienlage noch sehr ausbaufähig ist. Deshalb könnte die Nutzung eines Symptom-Checkers mit Werten hoher Akkuratheit für Patienten perspektivisch nützlich sein. Diese These unterstützt die Forschungsarbeit von Gehlen et al.:
„Die Ärzteschaft stellte in 84,4±18,4% der Fälle (Spanne: 53,3 bis 96,7%) die korrekte Diagnose, während die Symptom-Checker-Apps dies in 35,8±1,0% der Fälle (Spanne: 26,7 bis 54,2%) leisteten. Die Übereinstimmung hinsichtlich der diagnostischen Genauigkeit variierte in Abhängigkeit von den verschiedenen Ärzten und Apps zwischen gering und hoch (Ärzte vs. Ärzte: Spearman’s ?: 0,143 bis 0,538; Ärzte vs. Apps: Spearman’s ?: 0,007 bis 0,358). Bezogen auf die Gesamtpopulation beurteilten die Ärzte den Grad der Dringlichkeit in 70,0±4,7% der Fälle korrekt (Spanne: 66,7 bis 73,3%), die Apps hingegen in 20,6±5,6% der Fälle (Spanne: 10,8 bis 37,5%). Die Übereinstimmung bei der Genauigkeit der Dringlichkeitseinschätzung war zwischen sowie innerhalb der Ärzteschaft und den einzelnen Apps moderat bis hoch. Schlussfolgerungen: KI-basierte Symptom-Checker-Apps für Diagnosen in der Orthopädie und Unfallchirurgie liefern derzeit noch keine präziseren Analysen hinsichtlich der Diagnosestellung und Dringlichkeitsbewertung als Ärzte. Es besteht jedoch eine erhebliche Varianz in der Genauigkeit der verschiedenen digitalen Tools.“24
Aufgrund der doch ausgeprägten Ungenauigkeit der Health-Symptom-Checker, also jenen digitalen Werkzeugen, die spezifisch für diesen Zweck entwickelt worden sind, bestehen folgende Risiken und Chancen für die Nutzer:
Mögliche Risiken für die Nutzer (Patienten und Angehörige):
- Nutzer können falsch informiert werden.
- Nutzer könnten sich in falscher Sicherheit wiegen.
- Nutzer könnten sehr große oder panische Angst bekommen.
- Nutzer könnten der Einschätzung eines Arztes nicht folgen, weil sie die Informationen der Health Gesundheits-Checker bereits so stark kognitiv verarbeitet und verankert haben. Dieser Sachverhalt kann aber je nach Genauigkeit des Arztes auch für den Patienten förderlich sein.
- Besonders für Patienten, die an psychischen Erkrankungen leiden, die somit besonders schutzbedürftig sind, kann die Nutzung hochproblematisch sein.
Die Chancen dieser Tools können auch sein:
- Nutzer werden in ihrer Autonomie gestärkt, weil sie leichter spezifische Review-Fachartikel finden und sich somit leichter umfangreicher informieren können.
- Nutzer könnten früher zum Arzt gehen und vielleicht auch eher zum richtigen Arzt.
- Nutzer können sich fachlich bereits gut auf das Arztgespräch vorbereiten. Durch diese Vorbereitung kann das Risiko ärztlicher Unaufmerksamkeit oder gar Fehler reduziert werden, insbesondere wenn die Personen nicht bei einem Facharzt sind.
Auch Ärzte nutzen ChatGPT und andere KI-Systeme für Gesundheitsthemen. Mögliche Risiken für diese Nutzer:
- Unbemerkte Falsch- und Desinformationen, die negative Auswirkungen auf ihre Patienten haben.
- Der Datenausgabe wird mehr geglaubt und es wird weniger dem Patienten zugehört.
- Der Datenausgabe wird mehr geglaubt als den eigenen Erfahrungen.
Mögliche Chancen für diese Nutzer (Ärzte):
- Reduzierung eigener Unaufmerksamkeit und Fehler.
Aufgrund der beiden Studien kann darüber nachgedacht werden, dass eine Prozessintegration eines sehr gut entwickelten und betriebenen Health-Symptom-Checkers auf der Stufe vor dem Facharzt für die Patienten sehr nützlich sein könnte, um die Akkuratheit der Ärzte zu verbessern.
2.4 ChatGPT-Gesundheit und die ethischen Prinzipien: Nicht-Schaden, Sorgfaltspflicht, Gerechtigkeit und Fürsorge, Gleichbehandlung vs. algorithmische Diskriminierung, Patienten-Autonomie
Betrachtet man »ChatGPT Gesundheit«, »Claude for Healthcare« und viele andere KI-Systeme, die für Gesundheitsthemen eingesetzt werden, stellen sich viele weitere Fragen aus Sicht der Medizinethik, die beantwortet werden sollten. Nachfolgend werden einige weitere ethische Prinzipien und an dem Beispiel ChatCPT auf Basis des in Deutschland vorhandenen öffentlichen Informationsstandes kurz angesprochen.
2.4.1 Prinzip des Nicht Schadens (Non-Maleficence)
- ChatGPT kann halluzinieren. Es können medizinische Fachartikel genannt werden, die nicht existieren. Das System kann nicht auf alle relevanten Fachartikel zugreifen und kann falsch übersetzen.
- Über die von ChatGPT genutzten Daten bei gesundheitlichen Fragenstellungen ist aktuell nichts öffentlich transparent bekannt. Es ist somit unbekannt, ob die Daten repräsentativ, fehlerfrei und auf mögliche Biases (Verzerrungen) überprüft worden sind. Der Bildungsgrad, die KI-Kompetenz der Nutzer, die Fähigkeit gute Prompts zu schreiben sowie die gewählte Sprache beeinflussen die Datenausgabe, und dieser Umstand verzerrt ebenfalls die Ergebnisse.
Es wird angenommen, dass wegen der Datenverfügbarkeit und der Daten-Regulatorik in der EU die Daten-Lieferanten von ChatGPT und »ChatGPT Gesundheit« aus anderen Teilen der Welt kommen. Krankheiten entstehen regional unterschiedlich und Dateneingaben sind regional unterschiedlich, somit kann es auch deshalb zu Verzerrungen bei der Datenausgabe kommen. Diese Verzerrungen gefährden die Patientensicherheit verstärkt durch die manipulative Kraft der Benutzeroberfläche und Art der Datenausgabe.
2.4.2 Prinzip der Sorgfaltspflicht
- Die Nutzer, Patienten und Ärzte erhalten aktuell keine konkreten Informationen über die Cybersicherheitsmaßnahmen, die inhaltlichen-Sicherheitsmaßnahmen, Qualitätssicherheits-Maßnahmen des Risikomanagements und angewandten ethischen Prinzipien bezogen auf die Entwicklung und den operativen Betrieb. Auch erfahren Nutzer nichts darüber, wie das KI-System Entscheidungen trifft. Faktisch ist die Erklärbarkeit des KI-Systems zum jetzigen Zeitpunkt nicht vorhanden. Somit stellt sich die berechtigte Frage nach der Entsprechung mit dem Prinzip der medizinischen Sorgfaltspflicht.
2.4.3 Prinzipien der Gerechtigkeit und der Fürsorge (Beneficence)
- Patienten und Angehörige in einer gesundheitlichen Notsituation sind wegen der erhöhten Stresshormon-Situation besonders verwundbar. Nutzer lesen generell selten die AGB – insbesondere nicht in Situationen, in denen andere Fragen höher priorisiert werden. Die Hinweise, die Nutzer erhalten, einen Arzt oder Fach-Experten aufzusuchen, folgen meist erst nach der eigentlichen Informationsübermittlung. Zu diesem Zeitpunkt ist die kognitive Verarbeitung bereits abgeschlossen. Disclaimer machen den Einfluss auf den Nutzer nicht rückgängig. Daher ist anzunehmen, dass diese lediglich der Haftungs-Freizeichnung oder Haftungsverschiebung dienen. Somit stellen sich Fragen bezüglich der medizinethischen Prinzipien der Gerechtigkeit und der Fürsorge (Beneficence) aber auch des Prinzips des Nicht-Schadens. Eine Haftungsfreizeichnung kann dazu führen, dass die Sorgfaltspflicht bei der Produktentwicklung sinkt.
2.4.4 Prinzip der Gleichbehandlung vs. algorithmische Diskriminierung
- Medizinische Besonderheiten von Minderheiten oder spezifischen ethnischen Gruppen können in der Datenbasis unterrepräsentiert sein. ChatGPT und »ChatGPT Gesundheit« könnten somit Empfehlungen geben, die für einen weißen US-Bürger korrekt sind, aber für eine Person mit anderem genetischem Hintergrund oder in einem anderen sozialen Kontext unpassend oder gar gefährlich sein können. Darüber hinaus werden Menschen mit einer anderen Bildung und anderer KI-Kompetenz Prompts anders schreiben und deshalb andere Ergebnisse angezeigt bekommen. In diesem Fall wird der ethische Grundsatz der Gleichbehandlung verletzt und es kommt zu algorithmischer Diskriminierung.
2.4.5 Prinzip der Patienten-Autonomie
- Die Marke ist im Vergleich zu anderen Symptom-Checkern außergewöhnlich bekannt und das LLM wird auch für viele andere Themen genutzt. Der Mensch unterliegt bei der Nutzung dieses Chat-Bots der Verfügbarkeits-Heuristik, der Heiligenschein-Heuristik und der Affekt-Heuristik und nutzt in Folge ChatGPT auch für hochsensible Gesundheitsfragen. Aufgrund des UX- und UI-Designs, der linguistischen Plausibilität und des weitestgehenden Verzichts auf Konjunktive wird den Ergebnissen des Chat-Bots unbewusst ein hoher Wahrheitscharakter seitens der Nutzer zugesprochen. Hinweise einen Arzt aufzusuchen, stehen meist erst am Ende der Ergebnis-Ausgabe, wenn die kognitive Verarbeitung des Nutzers bereits abgeschlossen ist. Aus diesen Gründen ist es wegen dieser enormen Manipulationskraft hochgradig fraglich, ob ChatGPT dem medizinethischen Prinzip der Patienten-Autonomie entspricht.
3. Ausblick: Die möglicherweise bald größte Gesundheitsdatenbank der Welt
OpenAI veröffentlichte ChatGPT Health am 7. Januar 2026, gefolgt vom europäischen Hersteller Anthropic mit Claude for Healthcare am 11. Januar 2026. Beide Hersteller zielen mit ihren Produkten auf Endkunden. „Beide Produkte ermöglichen es Nutzern, ihre Krankenakten und Wellness-Daten direkt mit diesen KI-Chatbots zu verknüpfen.“25 ChatGPT nennt u.a. folgende Partner und Anwender: Stanford Medicine, Mayo Clinic, Cedars-Sinai Medical Center, Boston Children’s Hospital.
Es stellt sich die dringende Frage, ob Systeme, die auf Oberflächenplausibilität, Konformität und stochastischen Prozessen basieren, jemals als Schnittstelle zwischen Patienten und Ärzten fungieren sollten, unabhängig davon, ob dieses System vom Patienten oder Arzt genutzt wird.
Die Manipulationskraft und algorithmische Bevormundung bezogen auf die Nutzer wurde zu Beginn des Artikels bereits ausführlich dargelegt.
In der europäischen Tradition der Medizinethik nimmt die informationelle Selbstbestimmung eine hohe Stellung ein. Wenn eine KI oder zwei Hersteller, ChatGPT und Cloude, zu den größten Gesundheitsdatenbanken werden, entsteht eine Machtasymmetrie. Diese Macht wird genutzt werden, um Preise zu diktieren, Forschungen zu betreiben, Patente anzumelden, Kooperationen mit Kliniken einzugehen und ggf. Gesundheitsmonopole aufzubauen.
Die Sorge vor einem „Daten-Monopol“ durch Big Tech ist in Europa besonders ausgeprägt. Es kann passieren, dass »ChatGPT Gesundheit« aber auch Claude an die ePA, die elektronische Gesundheitsakte, angebunden werden können. Dann würden Gesundheitsdaten direkt an die Hersteller fließen. Auch kann es passieren, dass Teile oder die gesamte europäische Health Dataspace (EHDS) hochgeladen werden. Nationale Rechtsräume werden verlassen, lokale Ethikkommissionen verlieren Einfluss und die technologische Entwicklung wird schneller sein als die europäische Regulierung. Dann wird Technik faktisch die Normen setzen und nicht mehr die demokratische gesellschaftliche Debatte.
ChatGPT hat angekündigt, Werbung in der Datenausgabe zu schalten. Diese Werbung kann auch bei Fragestellungen zum Thema Gesundheit erscheinen und auch bei »ChatGPT Gesundheit«. Bereits jetzt werden Ärzte und Kliniken bei Suchen genannt, die über eine von Maschinen gut lesbare Webseite verfügen. Die ärztliche Qualifikation und Fähigkeiten werden nicht geprüft. Schon allein aufgrund des aktuellen Status quo verändert diese Anzeige das Entscheidungsverhalten von Nutzern.
Auch kann es passieren, dass profitable Erkrankungen in einer Form priorisiert oder gelenkt werden.
4. Was könnte seitens der europäischen „expliziten“ Symptom-Checker umgesetzt werden?
Grundsätzlich können KI-Systeme in der Medizin einen sehr wertvollen Nutzen für die Patienten haben, wenn
- dieser Nutzen umfänglich wissenschaftlich untersucht worden ist
- das System der Symptom-Checker fortlaufend unabhängig von europäischen fachlich zertifizierten Experten überwacht wird
- und den regulatorischen Anforderungen entspricht, die ebenfalls fortlaufend auf ihre Einhaltung überprüft werden. Auch die Frage der prozessualen Integration in die medizinische Entscheidungsfindung ist hier wesentlich, damit der Arzt seine Verantwortung auch leben kann.
Es stellt sich die Frage, ob es nicht im Sinne der Patienten, Angehörigen und Ärzte ist, dass, wenn LLMs und generative KI für Gesundheitsfragen genutzt werden, explizit auf die genannten Heuristiken und auf die linguistische Plausibilität und absolutistische Wortwahl hingewiesen wird.
Darüber hinaus beeinflusst nicht nur die Art und Weise, wie ein Prompt formuliert wird, sondern auch die gewählte Sprache das LLM-Ergebnis. Hier stellt sich die Frage, ob es nicht sinnvoller wäre, den Nutzern konkrete differenzierte Eingabemasken und Tutorials zur Verfügung zu stellen, um sie zu befähigen bessere Prompts zu schreiben und die Ergebnisqualität zu verbessern.
Auch stellt sich die Frage, den Nutzern zu Beginn jeder Eingabe prominent die vollständig unabhängig gemessenen wesentlichen Metriken wie Akkuratheit zu kommunizieren und nicht nur im Kleingeduckten kaum lesbar darauf hinzuweisen, dass das Modell halluzinieren kann.
Eine umfassende, verständliche Transparenzkommunikation über das KI-System und verwendete Governance-Strukturen wären nützlich – auch um Menschen zu befähigen, die für sie geeigneteren Tools entsprechend ihres Werte-Gerüstes zu verwenden.
1↑ChatGPT nutzt als Technologie generative KI die auf einem LLM basiert. In der Fachwelt wird aktuell sehr darüber gestritten, ob ChatGPT ein LLM (Large Language Modell) oder bereits ein AGI (Artificial General Intelligence) ist. Wegen der laufenden Debatte wird das Akronym LLM verwendet.
2↑Tech Crunch: https://techcrunch.com/2025/07/21/chatgpt-users-send-2-5-billion-prompts-a-day/ ,15.01.2026.
3↑Chatterji A., Cunningham T., Deming D., Hitzig Z., Ong C., Shan C., Wadman K.; Open AI https://cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf, abgerufen am15.01.2026.
4↑Roth E., OpenAI says ChatGPT users send over 2.5 billion prompts every day, https://www.theverge.com/news/710867/openai-chatgpt-daily-prompts-2-billion, 15.01.2026.
5↑In der wissenschaftlichen Literatur werden auch die Begriffe des „habitual trust“ oder „trust development through familiarity“ verwendet, die im Kern das gleiche Phänomen beschreiben.
6↑Luhmann N., Vertrauen. Ein Mechanismus der Reduktion sozialer Komplexität, 5. Auflage, UVK Verlagsgesellschaft mbH, 1968.
7↑Parasuraman R., & Riley V., Humans and Automation: Use, Misuse, Disuse, Abuse, Human Factor 1997, 39(2), 230-253 S. 238-239.
8↑Zafari, S., de Pagter, J., Papagni, G.; Rosenstein, A., Filzmoser, M., Koeszegi, S.T., Trust Development and Explainability: A Longitudinal Study with a Personalized Assistive System. Multimodal Technol. Interact. 2024, 8, 20. https://doi.org/10.3390/mti8030020, 4.2.2.
9↑Buntain, C. & Golbeck, J. Trust transfer between contexts. Journal of Trust Management. 2. 10.1186/s40493-015-0017-1, 2015.
10↑Saffarizadeh, K., Keil, M. & Maruping, L., Relationship Between Trust in the AI Creator and Trust in AI Systems: The Crucial Role of AI Alignment and Steerability. Journal of Management Information Systems. 41. 645-681. 10.1080/07421222.2024.2376382, 2024.
11↑Tversky A., Kahneman D., Availability: A heuristic for judging frequency and probability. In: Kahneman D, Slovic P., Tversky A., eds. Judgement under Uncertainty: Heuristics and Biases. Cambridge University Press; 1982: 163-178, S. 163.
12↑Siehe unter anderem: Ryser, A. & Allwein, F. & Schlippe, T.. (2025). Calibrated Trust in Dealing with LLM Hallucinations: A Qualitative Study. 10.48550/arXiv.2512.09088.
13↑Webseite Open AI: https://openai.com/de-DE/index/introducing-chatgpt-health/, Stand am: 15.01.2026
14↑Webseite ChatGPT Gesundheit: https://openai.com/de-DE/index/introducing-chatgpt-health/, Stand am: 19.01.2026.
15↑Luckner S., Lauer W., Regulatorische Einordnung KI-basierter Produkte für die medizinische Anwendung auf der Basis von EU AI Act und MDR/IVDR, Bundesgesundheitsblatt – Gesundheitsforschung – Gesundheitsschutz, Ausgabe 8/2025.
16↑Infermedica https://infermedica.com/regulatory-compliance, Stand 19.01.2026.
17↑Lölfing N. & Reghuvaran N., Liability of Healthcare AI Providers in the EU: How to Navigate Risks in a Shifting Regulatory Ecosystem, Bird&Bird, https://www.twobirds.com/en/insights/2025/liability-of-healthcare-ai-providers-in-the-eu-how-to-navigate-risks-in-a-shifting-regulatory-ecosys
18↑AI Act Wistleblower Tool: https://digital-strategy.ec.europa.eu/en/policies/ai-act-whistleblower-tool, Stand 19.01.2026.
19↑Lölfing N. & Reghuvaran N., Liability of Healthcare AI Providers in the EU: How to Navigate Risks in a Shifting Regulatory Ecosystem, Bird&Bird, https://www.twobirds.com/en/insights/2025/liability-of-healthcare-ai-providers-in-the-eu-how-to-navigate-risks-in-a-shifting-regulatory-ecosys, abgerufen am 07.01.2026.
20↑Lölfing N. & Reghuvaran N., Liability of Healthcare AI Providers in the EU: How to Navigate Risks in a Shifting Regulatory Ecosystem, Bird&Bird, https://www.twobirds.com/en/insights/2025/liability-of-healthcare-ai-providers-in-the-eu-how-to-navigate-risks-in-a-shifting-regulatory-ecosys, abgerufen am 08.02.2026.
21↑Open AI ChatGPT Nutzungsbedingungen Stand 18.01.2026 https://openai.com/de-DE/policies/row-terms-of-use/.
22↑Beauchamp, Tom L., The four principles approach to health care ethics: Collected Essays, Oxford University Press, Incorporated, 2010. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/pitt-ebooks/detail.action?docID=544502.
23↑Takita, H. & Kabata, D. & Walston, S. & Tatekawa, H. & Saito, K. & Tsujimoto, Y. & Miki, Y. & Ueda, D. (2025). A systematic review and meta-analysis of diagnostic performance comparison between generative AI and physicians. npj Digital Medicine. 8. 10.1038/s41746-025-01543-z.
24↑Gehlen T, Joost T, Solbrig P, Stahnke K, Zahn R, Jahn M, Adl Amini D, Back D. A.: Accuracy of Artificial Intelligence Based Chatbots in Analyzing Orthopedic Pathologies: An Experimental Multi-Observer Analysis. Diagnostics. 2025; 15(2):221. https://doi.org/10.3390/diagnostics15020221
25↑Epstein, Becker, Green; Health Care Without the Hospital: ChatGPT Health and Claude Go Direct to Consumer; https://www.healthlawadvisor.com/health-care-without-the-hospital-chatgpt-health-and-claude-go-direct-to-consumers, abgerufen am 08.02.2026.