Studi Baru Mengungkapkan Halusinasi yang Terus Menerus pada Model AI Teratas

Studi Baru Mengungkapkan Halusinasi yang Terus Menerus pada Model AI Teratas

Menurut penelitian terbaru, bahkan model AI terbaik pun sering mengalami halusinasi—kesalahan saat model menghasilkan informasi yang salah atau menyesatkan. Semua model AI generatif—mulai dari Gemini dari Google hingga Claude dari Anthropic dan GPT-4o terbaru dari OpenAI—memiliki masalah ini, namun jenis dan frekuensi kesalahannya berbeda-beda menurut data pelatihan.

Dalam upaya menilai halusinasi ini, para peneliti dari Cornell, universitas Washington dan Waterloo, dan organisasi AI2 membandingkan keluaran model dengan sumber terpercaya dalam berbagai subjek, termasuk geografi, sejarah, kesehatan, dan hukum. Menurut data tersebut, tidak ada model yang memiliki kinerja yang baik secara konsisten pada semua individu, dan model yang mengalami lebih sedikit halusinasi mengalami hal tersebut karena mereka menolak menanggapi pertanyaan yang mungkin mereka jawab dengan salah.

Penelitian ini menggarisbawahi sulitnya mengandalkan materi yang dihasilkan AI, karena bahkan model paling canggih pun hanya mampu menghasilkan teks yang tepat dan tanpa halusinasi pada sekitar 35% kasus. Investigasi ini mencakup subjek yang lebih sulit yang tidak dicakup oleh Wikipedia, seperti budaya, keuangan, dan kedokteran, sedangkan penelitian sebelumnya sering kali berfokus pada pertanyaan dengan jawaban yang mudah diakses di Wikipedia. Kami mengevaluasi lebih dari selusin model terkenal, seperti Google Gemini 1.5 Pro, Meta's Llama 3, dan GPT-4o.

Studi tersebut menemukan bahwa meskipun model AI telah mengalami kemajuan, tingkat halusinasinya tidak menurun secara signifikan. Model OpenAI termasuk yang paling kecil kemungkinannya memberikan hasil yang tidak akurat; namun, para model lebih kesulitan menjawab pertanyaan tentang keuangan dan selebriti dibandingkan dengan geografi dan ilmu komputer.

Model yang tidak memiliki kemampuan penelusuran web tidak hanya kesulitan menjawab permasalahan yang tidak tercakup dalam Wikipedia, namun model yang lebih kecil juga mengungguli model yang lebih besar dalam hal tingkat halusinasi. Hasil ini menimbulkan keraguan terhadap kemajuan yang diklaim telah dicapai oleh pemasok AI.

Penelitian menunjukkan bahwa halusinasi akan menjadi masalah di masa depan dan kriteria yang digunakan untuk menilai model ini mungkin tidak memadai. Model Claude 3 Haiku, yang memperoleh akurasi lebih tinggi karena tidak menjawab sekitar 28% pertanyaan, adalah salah satu contoh model yang diusulkan para peneliti sebagai solusi perantara. Model pemrograman untuk melakukan hal yang sama. Di sisi lain, tidak jelas apakah masyarakat akan menoleransi model yang terus-menerus menolak memberikan jawaban.

Para peneliti mendukung undang-undang yang menjamin keterlibatan ahli manusia dalam memverifikasi konten yang dihasilkan AI, serta upaya yang lebih terkonsentrasi untuk mengurangi halusinasi, mungkin melalui pemeriksaan fakta yang dilakukan secara langsung oleh manusia dan prosedur kutipan yang lebih baik. Mereka percaya ada banyak potensi untuk meningkatkan alat pengecekan fakta dan menawarkan perbaikan konten untuk konten yang telah diubah oleh halusinasi.

Code Labs Academy © 2025 Semua hak dilindungi undang-undang.