Ang Bagong Pag-aaral ay Nagpapakita ng Patuloy na Mga Hallucinasyon sa Mga Nangungunang AI Model

Ang Bagong Pag-aaral ay Nagpapakita ng Patuloy na Mga Hallucinasyon sa Mga Nangungunang AI Model

Ayon sa isang kamakailang pag-aaral, kahit na ang pinakamahusay na mga modelo ng AI ay regular na nakakaranas ng mga guni-guni—mga error kung saan bumubuo ang mga modelo ng mali o mapanlinlang na impormasyon. Lahat ng generative AI models—mula sa Google's Gemini hanggang Anthropic's Claude at OpenAI's pinakabagong GPT-4o—ay may ganitong problema, gayunpaman ang uri at dalas ng mga error ay naiiba ayon sa data ng pagsasanay.

Sa pagsisikap na masuri ang mga guni-guni na ito, ang mga mananaliksik mula sa Cornell, ang mga unibersidad ng Washington at Waterloo, at ang organisasyong AI2 ay inihambing ang mga output ng modelo laban sa mga mapagkakatiwalaang mapagkukunan sa iba't ibang paksa, kabilang ang heograpiya, kasaysayan, kalusugan, at batas. Walang modelong gumaganap nang maayos sa lahat ng mga indibidwal, ayon sa data, at ang mga nakaranas ng mas kaunting mga guni-guni ay nagawa ito sa bahagi dahil tumanggi silang tumugon sa mga tanong na maaaring nasagot nila nang mali.

Binibigyang-diin ng pananaliksik ang patuloy na kahirapan ng pag-asa sa materyal na binuo ng AI, dahil kahit na ang pinaka-advanced na mga modelo ay nakakagawa lamang ng tumpak, walang mga guni-guni na text sa humigit-kumulang 35% ng mga kaso. Kasama sa pagsisiyasat na ito ang mas mahihirap na paksa na hindi saklaw ng Wikipedia, tulad ng kultura, pananalapi, at medisina, samantalang ang mga nakaraang pag-aaral ay madalas na nakatuon sa mga tanong na may madaling ma-access na mga sagot sa Wikipedia. Sinuri namin ang higit sa isang dosenang kilalang modelo, tulad ng Google's Gemini 1.5 Pro, Meta's Llama 3, at GPT-4o.

Natuklasan ng pag-aaral na kahit na ang mga modelo ng AI ay umunlad, ang kanilang mga rate ng mga guni-guni ay hindi gaanong nabawasan. Ang mga modelo ng OpenAI ay kabilang sa pinakamaliit na posibilidad na makagawa ng mga hindi tumpak na resulta; gayunpaman, mas nagkaroon ng problema ang mga modelo sa pagsagot sa mga tanong tungkol sa pananalapi at mga kilalang tao kaysa sa heograpiya at computer science.

Hindi lamang nahirapan ang mga modelong walang kakayahan sa paghahanap sa web na sagutin ang mga problemang hindi saklaw ng Wikipedia, ngunit ang mga mas maliliit na modelo ay nagtagumpay sa mas malaki sa mga tuntunin ng bilis ng guni-guni. Ang mga resultang ito ay nagdududa sa mga pagsulong na inaangkin ng mga supplier ng AI.

Ang pananaliksik ay nagpapahiwatig na ang mga guni-guni ay magiging isang problema sa darating na panahon at ang pamantayang ginagamit upang masuri ang mga modelong ito ay maaaring hindi sapat. Ang modelong Claude 3 Haiku, na nakakuha ng higit na katumpakan sa pamamagitan ng hindi pagtugon sa humigit-kumulang 28% ng mga tanong, ay isang halimbawa ng isang modelo na iminungkahi ng mga mananaliksik bilang isang intermediate na solusyon. Programming modelo upang gawin ang parehong. Sa kabilang banda, hindi malinaw kung kukunsintihin ng mga tao ang isang modelo na patuloy na tumatangging sumagot.

Sinusuportahan ng mga mananaliksik ang batas na ginagarantiyahan na ang mga eksperto ng tao ay kasangkot sa pag-verify ng nilalamang binuo ng AI, pati na rin ang mas maraming pagsisikap na bawasan ang mga guni-guni, marahil sa pamamagitan ng human-in-the-loop na fact-checking at pinahusay na pamamaraan ng pagsipi. Naniniwala sila na maraming potensyal na mapahusay ang mga tool sa pagsusuri ng katotohanan at mag-alok ng mga pag-aayos ng nilalaman para sa nilalaman na binago ng mga guni-guni.

Code Labs Academy © 2025 Lahat ng karapatan ay nakalaan.