Egy új tanulmány tartós hallucinációkat tár fel a legjobb mesterséges intelligencia modelleknél

Egy új tanulmány tartós hallucinációkat tár fel a legjobb mesterséges intelligencia modelleknél

Egy közelmúltbeli tanulmány szerint még a legjobb AI-modellek is rendszeresen tapasztalnak hallucinációkat )) – olyan hibák, amelyekben a modellek hamis vagy félrevezető információkat generálnak. Minden generatív AI modell – a Google Geminitől az Anthropic’s Claude-ig és az OpenAI legújabb GPT-4o-ig – rendelkezik ezzel a problémával, azonban a hibák fajtája és gyakorisága a képzési adatoktól függően eltérő.

A hallucinációk felmérése érdekében a Cornell, a washingtoni és a waterlooi egyetemek, valamint az AI2 szervezet kutatói összehasonlították a modelleredményeket megbízható forrásokkal számos témában, beleértve a földrajzot, a történelmet, az egészségügyet és a jogot. Az adatok szerint egyetlen modell sem teljesített következetesen minden egyénnél, és azok, akik kevesebb hallucinációt tapasztaltak, részben azért, mert nem voltak hajlandóak válaszolni azokra a kérdésekre, amelyekre esetleg hibásan válaszoltak.

A kutatás rávilágít a mesterséges intelligencia által generált anyagokra való támaszkodás tartós nehézségére, mivel a legfejlettebb modellek is csak az esetek hozzávetőleg 35%-ában képesek pontos, hallucinációktól mentes szöveget generálni. Ez a vizsgálat bonyolultabb témákat is magában foglal, amelyeket a Wikipédia nem tárgyal, mint például a kultúra, a pénzügy és az orvostudomány., míg a korábbi tanulmányok gyakran olyan kérdésekre összpontosítottak, amelyekre a Wikipédián könnyen elérhető válaszok találhatók. Több mint egy tucat jól ismert modellt értékeltünk, mint például a Google Gemini 1.5 Pro, a Meta Llama 3 és a GPT-4o.

A tanulmány kimutatta, hogy bár az AI-modellek fejlődtek, hallucinációik aránya nem csökkent észrevehetően. Az OpenAI modelljei azok közé tartoztak, amelyek a legkisebb valószínűséggel produkáltak pontatlan eredményeket; ennek ellenére a modelleknek nagyobb gondot okoztak a pénzügyekkel és a hírességekkel kapcsolatos kérdések megválaszolása, mint a földrajzzal és az informatikával kapcsolatban.

Nemcsak a webes keresési képességekkel nem rendelkező modellek küzdöttek a Wikipédia által fel nem fedezett problémák megválaszolásával, de a kisebb modellek felülmúlták a nagyobbakat a hallucinációs ráta tekintetében. Ezek az eredmények megkérdőjelezik a mesterséges intelligencia-szállítók által állítólagos előrelépéseket.

A kutatás azt mutatja, hogy a hallucinációk még egy ideig problémát jelentenek majd, és előfordulhat, hogy a modellek értékeléséhez használt kritériumok nem elegendőek. A Claude 3 Haiku modell, amely azáltal ért el nagyobb pontosságot, hogy nem válaszolt a kérdések nagyjából 28%-ára, egy példa arra a modellre, amelyet a kutatók köztes megoldásként javasolnak. Modellek programozása ugyanerre. Másrészt nem világos, hogy az emberek tolerálják-e azt a modellt, amely következetesen megtagadja a választ.

A kutatók támogatják azokat a jogszabályokat, amelyek garantálják, hogy a humán szakértők részt vegyenek a mesterséges intelligencia által generált tartalom ellenőrzésében, valamint a hallucinációk csökkentésére irányuló koncentráltabb erőfeszítéseket, talán az emberi hurokban végzett tényellenőrzés és a jobb idézési eljárások révén. Úgy vélik, sok lehetőség rejlik a tényellenőrző eszközök javítására, és tartalomjavításokat kínálnak a hallucinációk által megváltoztatott tartalmakhoz.

Code Labs Academy © 2025 Minden jog fenntartva.