Жаңы изилдөө мыкты AI моделдеринде туруктуу галлюцинацияларды көрсөттү

Жаңы изилдөө мыкты AI моделдеринде туруктуу галлюцинацияларды көрсөттү

Жакында жүргүзүлгөн изилдөөгө ылайык, AIнын эң мыкты моделдери да дайыма [галлюцинацияларды] сезишет (https://en.wikipedia.org/wiki/Hallucination_(artificial_intelligence) ))—моделдер жалган же адаштыруучу маалыматты пайда кылган каталар. Бардык генеративдик AI моделдеринде — Google'дун Gemini'ден Anthropic's Claude жана OpenAI's эң акыркы GPT-4o чейин — бул көйгөй бар, бирок каталардын түрү жана жыштыгы машыгуу маалыматтарына жараша айырмаланат.

Бул галлюцинацияларды баалоо үчүн Корнеллдин, Вашингтондун жана Ватерлоо университеттеринин жана AI2 уюмунун изилдөөчүлөрү география, тарых, ден соолук жана укук сыяктуу ар кандай предметтер боюнча ишенимдүү булактар ​​менен моделдин жыйынтыктарын салыштырышкан. Маалыматтарга ылайык, эч бир модель бардык адамдарда ырааттуу түрдө жакшы иштеген жана галлюцинацияны азыраак сезгендер муну жарым-жартылай жасашкан, анткени алар ката жооп берген суроолорго жооп берүүдөн баш тартышкан.

Изилдөө AI тарабынан түзүлгөн материалга таянуунун туруктуу кыйынчылыгын баса белгилейт, анткени эң өнүккөн моделдер да болжол менен 35% учурларда галлюцинациясыз текстти так түзө алышат. Бул иликтөө Википедияда каралбаган, маданият, финансы жана медицина сыяктуу татаалыраак предметтерди камтыйт., ал эми мурунку изилдөөлөр көбүнчө Wikipediaдагы оңой жеткиликтүү жооптору бар суроолорго багытталган. Биз Google'дун Gemini 1.5 Pro, Meta's Llama 3 жана GPT-4o сыяктуу ондон ашык белгилүү моделдерин бааладык.

Изилдөө көрсөткөндөй, AI моделдери өнүккөнүнө карабастан, алардын галлюцинациялары байкаларлык азайган жок. OpenAIдин моделдери так эмес жыйынтыктарды чыгарышы мүмкүн болгон; бирок, моделдер география жана информатикага караганда каржы жана атактуулар тууралуу суроолорго жооп берүүдө көп кыйынчылыктарга дуушар болушкан.

Веб издөө мүмкүнчүлүктөрү жок моделдер Wikipedia камтыбаган көйгөйлөргө жооп берүү үчүн гана күрөшпөстөн, кичинекей моделдер галлюцинация ылдамдыгы боюнча чоңураак моделдерден ашып түштү.

Изилдөөлөр галлюцинациялар дагы бир канча убакытка чейин көйгөй болоорун жана бул моделдерди баалоо үчүн колдонулган критерийлер жетишсиз болушу мүмкүн экенин көрсөтүп турат. Суроолордун болжол менен 28% жооп бербестен көбүрөөк тактыкка жеткен Клод 3 Хайку модели изилдөөчүлөр ортодогу чечим катары сунуш кылган моделдин бир мисалы болуп саналат. Программалоо моделдерин дал ушундай кылуу. Башка жагынан алганда, адамдар ырааттуу жооп берүүдөн баш тарткан моделге чыдайбы же жокпу, белгисиз.

Изилдөөчүлөр AI тарабынан түзүлгөн мазмунду текшерүүгө адам эксперттеринин катышуусуна кепилдик берген мыйзамдарды, ошондой эле галлюцинацияларды азайтуу боюнча көбүрөөк топтолгон күч-аракеттерди, балким, адамдын циклинде фактыларды текшерүү жана цитаталоо процедураларын жакшыртуу аркылуу колдошот. Алар фактыларды текшерүү куралдарын өркүндөтүү жана галлюцинациялар менен өзгөртүлгөн мазмун үчүн мазмунду оңдоолорду сунуш кылуу үчүн көп мүмкүнчүлүктөр бар деп эсептешет.

Code Labs Academy © 2025 Бардык укуктар корголгон.