Ըստ վերջին ուսումնասիրության, նույնիսկ լավագույն AI մոդելները պարբերաբար ունենում են հալյուցինացիաներ - սխալներ, երբ մոդելները ստեղծում են կեղծ կամ ապակողմնորոշիչ տեղեկատվություն: Բոլոր գեներատիվ AI մոդելները՝ Google-ի Gemini-ից մինչև Anthropic's Claude-ը և OpenAI-ի ամենավերջին GPT-4o-ն, ունեն այս խնդիրը, սակայն սխալների տեսակն ու հաճախականությունը տարբերվում են՝ կախված վերապատրաստման տվյալներից:
Այս հալյուցինացիաները գնահատելու համար Քորնելի, Վաշինգտոնի և Վաթերլոյի համալսարանների և AI2 կազմակերպության հետազոտողները համեմատել են մոդելի արդյունքները հուսալի աղբյուրների հետ տարբեր թեմաներով, ներառյալ աշխարհագրությունը, պատմությունը, առողջությունը և իրավունքը: Ըստ տվյալների, ոչ մի մոդել հետևողականորեն լավ չի գործել բոլոր անհատների մոտ, և նրանք, ովքեր ավելի քիչ հալյուցինացիաներ են ունեցել, դա արել են մասամբ այն պատճառով, որ նրանք հրաժարվել են պատասխանել այն հարցերին, որոնց կարող էին սխալ պատասխանել:
Հետազոտությունն ընդգծում է արհեստական ինտելեկտի ստեղծած նյութին ապավինելու մշտական դժվարությունը, քանի որ նույնիսկ ամենաառաջադեմ մոդելներն ի վիճակի են ստեղծել ճշգրիտ, զուրկ հալյուցինացիաներից տեքստ միայն դեպքերի մոտավորապես 35%-ում: Այս հետազոտությունը ներառում է ավելի բարդ թեմաներ, որոնք ծածկված չեն Վիքիպեդիայի կողմից, ինչպիսիք են մշակույթը, ֆինանսները և բժշկությունը:, մինչդեռ նախորդ ուսումնասիրությունները հաճախ կենտրոնանում էին Վիքիպեդիայում հեշտությամբ մատչելի պատասխաններով հարցերի վրա։ Մենք գնահատել ենք ավելի քան մեկ տասնյակ հայտնի մոդելներ, ինչպիսիք են Google-ի Gemini 1.5 Pro-ն, Meta-ի Llama 3-ը և GPT-4o-ն:
Հետազոտությունը պարզել է, որ չնայած արհեստական ինտելեկտի մոդելները առաջադիմել են, նրանց հալյուցինացիաների մակարդակը նկատելիորեն չի նվազել: OpenAI-ի մոդելներն ամենաքիչ հավանականներից էին, որոնք կարող էին ոչ ճշգրիտ արդյունքներ բերել. Այնուամենայնիվ, մոդելները ավելի շատ դժվարություններ ունեցան պատասխանել ֆինանսների և հայտնի մարդկանց հարցերին, քան աշխարհագրության և համակարգչային գիտության մասին:
Ոչ միայն վեբ որոնման հնարավորություններից զուրկ մոդելները պայքարում էին Վիքիպեդիայում չծածկված խնդիրներին պատասխանելու համար, այլև փոքր մոդելները գերազանցում էին մեծերին հալյուցինացիաների մակարդակով: Այս արդյունքները կասկածի տակ են դնում արհեստական ինտելեկտի մատակարարների առաջընթացը:
Հետազոտությունը ցույց է տալիս, որ հալյուցինացիաները դեռ որոշ ժամանակ խնդիր են դառնալու, և որ այդ մոդելները գնահատելու համար օգտագործվող չափանիշները կարող են բավարար չլինել: Claude 3 Haiku մոդելը, որն ավելի մեծ ճշգրտություն է ձեռք բերել՝ չպատասխանելով հարցերի մոտավորապես 28%-ին, մոդելի օրինակներից մեկն է, որը հետազոտողները առաջարկում են որպես միջանկյալ լուծում: Ծրագրավորման մոդելներ նույնն անելու համար: Մյուս կողմից, անհասկանալի է, թե արդյոք մարդիկ կհանդուրժեն մի մոդել, որը հետևողականորեն հրաժարվում է պատասխանել:
Հետազոտողները աջակցում են օրենսդրությանը, որը երաշխավորում է, որ մարդկային փորձագետները ներգրավված են AI-ի կողմից ստեղծված բովանդակության ստուգման մեջ, ինչպես նաև հալյուցինացիաները նվազեցնելու ավելի կենտրոնացված ջանքերը, միգուցե մարդկանց կողմից փաստերի ստուգման և մեջբերումների բարելավված ընթացակարգերի միջոցով: Նրանք կարծում են, որ մեծ ներուժ կա բարելավելու փաստերի ստուգման գործիքները և առաջարկել բովանդակության ուղղումներ այն բովանդակության համար, որը փոփոխվել է հալյուցինացիաների պատճառով: