Yeni Çalışma, En İyi Yapay Zeka Modellerinde Kalıcı Halüsinasyonları Ortaya Çıkarıyor

Yeni Çalışma, En İyi Yapay Zeka Modellerinde Kalıcı Halüsinasyonları Ortaya Çıkarıyor

Yakın zamanda yapılan bir araştırmaya göre, en iyi yapay zeka modelleri bile düzenli olarak halüsinasyonlar yaşıyor )—modellerin yanlış veya yanıltıcı bilgi ürettiği hatalar. Google'ın Gemini'sinden Anthropic'in Claude'una ve OpenAI'nin en yeni GPT-4o'suna kadar tüm üretken yapay zeka modellerinde bu sorun var, ancak hataların türü ve sıklığı eğitim verilerine göre farklılık gösteriyor.

Bu halüsinasyonları değerlendirmek amacıyla Cornell'den, Washington ve Waterloo üniversitelerinden ve AI2 örgütünden araştırmacılar, model çıktılarını coğrafya, tarih, sağlık ve hukuk da dahil olmak üzere çeşitli konulardaki güvenilir kaynaklarla karşılaştırdılar. Verilere göre hiçbir model tüm bireylerde tutarlı bir şekilde iyi performans göstermedi ve daha az halüsinasyon yaşayanlar bunu kısmen hatalı cevaplamış olabilecekleri sorulara yanıt vermeyi reddettikleri için yaptı.

Araştırma, en gelişmiş modellerin bile vakaların yaklaşık %35'inde yalnızca hassas, halüsinasyon içermeyen metinler üretebildiğinden, yapay zeka tarafından oluşturulan materyale güvenmenin kalıcı zorluğunun altını çiziyor. Bu araştırma, kültür, finans ve tıp gibi Wikipedia'nın kapsamına girmeyen daha zor konuları içeriyor önceki çalışmalar sıklıkla Wikipedia'da kolayca erişilebilen yanıtlara sahip sorulara odaklanıyordu. Google'ın Gemini 1.5 Pro, Meta'nın Llama 3 ve GPT-4o gibi bir düzineden fazla tanınmış modelini değerlendirdik.

Çalışma, yapay zeka modellerinin ilerlemesine rağmen halüsinasyon oranlarının gözle görülür şekilde azalmadığını keşfetti. OpenAI'nin modelleri hatalı sonuçlar üretme olasılığı en düşük olanlar arasındaydı; ancak modeller finans ve ünlülerle ilgili soruları yanıtlamakta coğrafya ve bilgisayar biliminden daha fazla zorluk çekiyordu.

Web arama yeteneklerinden yoksun modeller, Vikipedi'nin kapsamına girmeyen sorunlara yanıt vermekte zorlanmakla kalmadı, aynı zamanda daha küçük modeller, halüsinasyon oranı açısından büyük modellerden daha iyi performans gösterdi. Bu sonuçlar, yapay zeka tedarikçilerinin kaydettiğini iddia ettiği ilerlemeler konusunda şüphe uyandırdı.

Araştırma, halüsinasyonların bir süre daha sorun olmaya devam edeceğini ve bu modelleri değerlendirmek için kullanılan kriterlerin yeterli olmayabileceğini gösteriyor. Soruların yaklaşık %28'ine cevap vermeyerek daha fazla doğruluk elde eden Claude 3 Haiku modeli, araştırmacıların ara çözüm olarak önerdiği modellerden bir tanesidir. Modellerin aynısını yapması için programlanması. Öte yandan, insanların sürekli olarak yanıt vermeyi reddeden bir modeli tolere edip edemeyecekleri de belirsiz.

Araştırmacılar, yapay zeka tarafından oluşturulan içeriğin doğrulanması konusunda insan uzmanların katılımını garanti eden mevzuatın yanı sıra, halüsinasyonların azaltılmasına yönelik daha yoğun çabaların, belki de döngüdeki insan gerçek kontrolü ve iyileştirilmiş alıntı prosedürleri yoluyla desteklenmesini destekliyor. Gerçekleri kontrol etme araçlarını geliştirme ve halüsinasyonlarla değiştirilen içerik için içerik düzeltmeleri sunma konusunda çok fazla potansiyel olduğuna inanıyorlar.

Code Labs Academy © 2025 Her hakkı saklıdır.