Félrevezetően magabiztos lehet az AI egészségügyi tanácsa: egy friss kutatás szerint a válaszok közel fele problémás

Bevallom, én is pontosan értem, miért olyan csábító mesterséges intelligenciához fordulni, amikor egészségügyi kérdésed van. Amikor valami nem világos egy leleten, amikor vársz a következő orvosi időpontra, vagy csak szeretnéd, hogy valaki végre emberi nyelven mondja el, mit jelentenek azok a bonyolult szavak, nagyon megnyugtató tud lenni, hogy pár másodperc alatt kapsz egy szép, rendezett, magabiztos választ. Olyan, mintha valaki máris rendet tett volna a fejedben. Csakhogy éppen ez lehet benne a veszélyes.

Egy friss, 2026 áprilisában publikált kutatás szerint az öt népszerű chatbot egészségügyi válaszainak majdnem fele problémás volt, és közel minden ötödik válasz kifejezetten súlyosan problémásnak bizonyult. A tanulmány szerzői ráadásul azt is találták, hogy a chatbotok hivatkozásai gyakran pontatlanok, hiányosak vagy egyenesen kitaláltak voltak. Ez pedig különösen megtévesztő lehet, ha azt hiszed: ha van a végén pár tudományosnak tűnő forrás, akkor az egész biztosan megbízható.

Mit vizsgált a friss kutatás?

A BMJ Open folyóiratban megjelent auditban a kutatók öt népszerű chatbotot vizsgáltak meg: a ChatGPT-t, a Geminit, a Grokot, a Meta AI-t és a DeepSeeket. Összesen 50 egészségügyi kérdést tettek fel nekik olyan témákban, ahol sok a tévhit és a félrevezető információ: rák, vakcinák, őssejtterápiák, táplálkozás és sportteljesítmény.

Két szakértő egymástól függetlenül értékelte a válaszokat. Az összkép nem lett megnyugtató. A válaszok 49,6 százalékát problémásnak minősítették, ebből 19,6 százalék súlyosan problémás volt. Egyetlen chatbot sem tudott teljesen pontos hivatkozáslistát adni, a referenciajegyzékek medián teljességi pontszáma pedig mindössze 40 százalék volt.

A kutatás szerint a chatbotok a vakcinákról és a daganatos betegségekről valamivel jobban teljesítettek, de még ezekben a témákban is akadt bőven gond. A legnagyobb botladozás a táplálkozás és a sportteljesítmény körül jött elő, ahol eleve sok az ellentmondó online tanács és gyengébb az egységes bizonyítéki háttér.

A legnagyobb csapda: attól még nem igaz, hogy szépen hangzik

A mesterséges intelligencia egyik legfurcsább tulajdonsága, hogy gyakran akkor is magabiztosnak tűnik, amikor téved. Nem hebeg, nem bizonytalan, nem vakarózik zavartan. Inkább úgy ír, mint aki pontosan tudja, miről beszél.

Ez különösen veszélyes egészségügyi témában. Sokszor éppen azért fordulsz chatbothoz, mert félsz, szégyellsz kérdezni, vagy gyors megnyugtatást szeretnél. Ilyenkor a stílus könnyen összekeveredik a hitelességgel.

Pedig a nagy nyelvi modellek nem úgy működnek, mint egy orvos vagy egy tudományos szakértő. Nem mérlegelik a bizonyítékokat, nem ellenőrzik a valóságot, és nem „tudják”, mi igaz. A legvalószínűbb következő szöveget állítják elő az alapján, amin betanították őket és amit a kérdésedből ki tudnak olvasni.

Nemcsak az számít, hogy a chatbot mit mond, hanem az is, hogy az ember mit kezd vele

Egy másik, 2026 februárjában a Nature Medicine-ben megjelent randomizált vizsgálat különösen érdekes eredményre jutott. A kutatók azt nézték, mire mennek a valódi felhasználók, ha egészségügyi helyzetekben chatbot segítségét kapják.

A modellek önmagukban nagyon jól teljesítettek: az alapbetegség felismerésében 94,9 százalékos pontosságot értek el. A résztvevők azonban, akik ugyanazokat az eszközöket használhatták, a releváns állapotokat 34,5 százaléknál rosszabb arányban azonosították, vagyis nem teljesítettek jobban azoknál sem, akik egyszerűen más forrást használtak.

Magyarul: nem elég, ha a gép néha tudja a jó választ. Az is kellene, hogy te jól kérdezz, jól értelmezd a választ, és helyesen alkalmazd azt a saját helyzetedre. Ez már sokkal nehezebb feladat.

Diagnózisban sem csodaszer az AI

Egy áprilisban megjelent JAMA Network Open kommentár egy másik friss vizsgálatot ismertetve arra hívta fel a figyelmet, hogy 21 nagy nyelvi modell még a legújabb, „okoskodó” rendszerekkel együtt is komoly nehézségekkel küzdött a klinikai gondolkodás egyik alaplépésében: a helyes differenciáldiagnózis összeállításában.

Ez laikus nyelvre lefordítva azt jelenti: hiába tűnik okosnak egy válasz, az AI könnyen rossz irányba indulhat, ha csak néhány tünetet vagy hiányos történetet kap. Amikor több vizsgálati adat, laboreredmény és pontosabb klinikai információ áll rendelkezésre, a teljesítmény javulhat, de ez nem az a helyzet, amikor te otthon, a kanapén ülve kérdezel a telefonodtól.

A kitalált hivatkozás külön műfaj: úgy néz ki, mint a bizonyíték, pedig nem az

A BMJ Open-tanulmány egyik legnyugtalanítóbb tanulsága nem is pusztán az, hogy sok válasz problémás volt, hanem az, hogy a chatbotok hivatkozásai sem bizonyultak megbízhatónak. A kutatók szerint egyetlen rendszer sem tudott teljesen pontos referenciajegyzéket adni.

Ez azért különösen veszélyes, mert a legtöbb olvasó nem fogja egyenként leellenőrizni a szerzőket, a cikkcímeket, a folyóiratokat és a linkeket. Ha a végén ott sorakozik tíz tudományosnak látszó forrás, az könnyen azt az érzetet kelti, hogy amit fölötte olvastál, biztos talajon áll.

Egy 2025-ben a Communications Medicine-ben közölt kutatás ráadásul azt is megmutatta, hogy a modellek meglepően könnyen átvesznek és tovább építenek a kérdésbe becsempészett hamis egészségügyi részleteket. A hallucinációs arány a vizsgált rendszereknél 50 és 82 százalék között mozgott, vagyis a chatbot sokszor nem kijavítja a tévedést, hanem udvariasan kibontja.

A nyitott kérdések a legveszélyesebbek

A kutatók azt is látták, hogy a nyitott végű kérdésekre rosszabb válaszok születnek. Vagyis minél inkább úgy kérdezel, ahogy az életben szoktál – „Melyik étrend-kiegészítő a legjobb?”, „Hová érdemes menni kezelésre?”, „Mit tanácsolsz, mit csináljak?” –, annál nagyobb az esély a félrevezető, túlzó vagy egyszerűen rossz válaszra.

Ez azért fontos, mert az emberek többsége nem tankönyvi, eldöntendő kérdéseket tesz fel. Hanem aggodalmat, bizonytalanságot, félelmet visz a beszélgetésbe. Pont azt, amire a chatbotok beszélgetős stílusa nagyon jól rá tud simulni.

Mit jelent ez neked, ha idősebb olvasóként használod ezeket az eszközöket?

Nagyon sokat. Egyrészt azért, mert az egészségügyi információ sok senior számára mindennapi ügy: gyógyszerek, laboreredmények, krónikus betegségek, vizsgálatok, étrendi tanácsok, oltások. Másrészt azért, mert az AI válaszai kifejezetten kényelmesek tudnak lenni: gyorsak, udvariasak, nem kell időpontot kérni, és nem sürget senki.

Csakhogy éppen ebben rejlik a csapda. Egy jól megírt, de pontatlan válasz könnyen elbizonytalaníthat az orvosod tanácsában, hamis reményt adhat kétes kezelésekről, vagy épp fölöslegesen megijeszthet.

Különösen veszélyes lehet az a helyzet, amikor már eleve szorongsz, és megerősítést keresel egy rossz irányba vezető kérdésre. Például arra, hogy érdemes-e bizonyított kezelés helyett csodakúrákban gondolkodni, vagy internetes mendemondák alapján abbahagyni egy gyógyszert.

Akkor egyáltalán ne használjunk AI-t egészségügyi kérdésekre?

Nem ez a tanulság. A jobb kérdés inkább az: mire használjuk, és mire ne.

Hasznos lehet például arra, hogy segítséget kérj egy szakorvosi lelet hétköznapi nyelvre fordításához, összeírd, milyen kérdéseket tegyél fel a következő orvosi viziten, vagy első körben összeszedd, milyen fogalmaknak érdemes utánanézned megbízható forrásból.

Arra viszont nem jó ötlet egyedüli döntéshozóként hagyatkozni rá, hogy melyik kezelés a legjobb, melyik gyógyszert szabad elhagynod, mennyire sürgős egy tüneted, vagy melyik interneten hirdetett terápia lehet „titkos csodaszer”.

Öt jel, hogy érdemes azonnal fékezni

Ha AI-t használsz egészségügyi kérdésben, különösen gyanús lehet a válasz, ha:

túl magabiztos, de egyáltalán nem jelzi a bizonytalanságot
tudományosnak látszó hivatkozásokat ad, de nem ellenőrizhetőek könnyen
csodás, gyors vagy biztos eredményt ígér
azonnal egy kétes kezelés vagy étrend-kiegészítő felé tereli
nem javasolja, hogy a kérdést orvossal, gyógyszerésszel vagy hiteles egészségügyi forrással is ellenőrizze

A józan szabály egyszerűbb, mint hinnénk

A mesterséges intelligencia hasznos segédeszköz lehet, de nem önálló egészségügyi tekintély. Főleg nem azért, mert túl könnyen eljátssza ezt a szerepet.

A mostani kutatások összképe nagyjából ezt üzeni: az AI sokszor ügyesen összefoglal, néha kifejezetten jól teljesít, de még mindig túl gyakran téved úgy, hogy közben meggyőzőnek hangzik. Ez pedig az egészségügyben nem apró hiba, hanem rossz irányba lökő kockázat.

Érdemes tehát úgy használni, mint egy első jegyzetlapot, nem pedig úgy, mint a végső szót. Mert amikor az egészségedről van szó, a meggyőző stílus még nem ugyanaz, mint az igazság.

Források

Eredeti forrás: The Conversation, Half of AI health answers are wrong even though they sound convincing – new study (2026. április 20.).

A cikkben hivatkozott kutatások:

BMJ Open: Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit (2026)
Nature Medicine: Reliability of LLMs as medical assistants for the general public: a randomized preregistered study (2026)
JAMA Network Open: Limitations of Large Language Models in Clinical Diagnostic Reasoning (2026)
Communications Medicine: Multi-model assurance analysis showing large language models are highly vulnerable to adversarial hallucination attacks during clinical decision support (2025)