การศึกษาใหม่เผยภาพหลอนที่เกิดขึ้นอย่างต่อเนื่องในโมเดล AI ชั้นนำ

การศึกษาใหม่เผยภาพหลอนที่เกิดขึ้นอย่างต่อเนื่องในโมเดล AI ชั้นนำ

จากการศึกษาล่าสุด แม้แต่โมเดล AI ที่ดีที่สุดก็ประสบปัญหา ภาพหลอน เป็นประจำ ))—ข้อผิดพลาดที่แบบจำลองสร้างข้อมูลที่เป็นเท็จหรือทำให้เข้าใจผิด โมเดล AI เจนเนอเรชั่นทั้งหมด ตั้งแต่ Gemini ของ Google ไปจนถึง Claude ของ Anthropic และ GPT-4o ล่าสุดของ OpenAI ประสบปัญหานี้ อย่างไรก็ตาม ชนิดและความถี่ของข้อผิดพลาดจะแตกต่างกันไปตามข้อมูลการฝึก

ในความพยายามที่จะประเมินภาพหลอนเหล่านี้ นักวิจัยจาก Cornell มหาวิทยาลัย Washington และ Waterloo และองค์กร AI2 ได้เปรียบเทียบผลลัพธ์ของแบบจำลองกับแหล่งข้อมูลที่เชื่อถือได้ในหัวข้อต่างๆ รวมถึงภูมิศาสตร์ ประวัติศาสตร์ สุขภาพ และกฎหมาย ตามข้อมูล ไม่มีแบบจำลองใดที่ทำงานได้ดีอย่างสม่ำเสมอในบุคคลทุกคน และแบบจำลองที่มีอาการประสาทหลอนน้อยกว่านั้นส่วนหนึ่งทำเช่นนั้นเพราะพวกเขาปฏิเสธที่จะตอบคำถามที่พวกเขาอาจตอบผิด

การวิจัยเน้นย้ำถึงความยากลำบากอย่างต่อเนื่องในการพึ่งพาเนื้อหาที่สร้างโดย AI เนื่องจากแม้แต่โมเดลที่ล้ำหน้าที่สุดก็สามารถสร้างข้อความที่แม่นยำและปราศจากภาพหลอนได้ในกรณีประมาณ 35% การตรวจสอบนี้รวมถึงหัวข้อที่ยากกว่าซึ่ง ครอบคลุมโดย Wikipedia วัฒนธรรม การเงิน และการแพทย์ดังกล่าว ในขณะที่การศึกษาก่อนหน้านี้มักเน้นไปที่คำถามที่มีคำตอบที่เข้าถึงได้ง่ายบนวิกิพีเดีย เราประเมินโมเดลที่มีชื่อเสียงมากกว่าหนึ่งโหล เช่น Gemini 1.5 Pro ของ Google, Llama 3 ของ Meta และ GPT-4o

การศึกษาพบว่าแม้ว่าโมเดล AI จะก้าวหน้าไปมาก แต่อัตราการเกิดอาการประสาทหลอนก็ไม่ได้ลดลงอย่างเห็นได้ชัด โมเดลของ OpenAI เป็นหนึ่งในโมเดลที่มีโอกาสน้อยที่สุดที่จะสร้างผลลัพธ์ที่ไม่ถูกต้อง แต่โมเดลเหล่านี้มีปัญหาในการตอบคำถามเกี่ยวกับการเงินและคนดังมากกว่าเกี่ยวกับภูมิศาสตร์และวิทยาการคอมพิวเตอร์

โมเดลที่ขาดความสามารถในการค้นหาเว็บไม่เพียงแต่ต้องดิ้นรนเพื่อตอบปัญหาที่วิกิพีเดียไม่ได้ครอบคลุม แต่โมเดลขนาดเล็กยังมีประสิทธิภาพเหนือกว่าโมเดลที่ใหญ่กว่าในแง่ของอัตราการเห็นภาพหลอน ผลลัพธ์เหล่านี้ทำให้เกิดข้อสงสัยในความก้าวหน้าที่ซัพพลายเออร์ AI อ้างว่าได้ทำไว้

ผลการวิจัยระบุว่าภาพหลอนจะเป็นปัญหาต่อไปอีกระยะหนึ่ง และเกณฑ์ที่ใช้ในการประเมินแบบจำลองเหล่านี้อาจไม่เพียงพอ แบบจำลองไฮกุของคลอดด์ 3 ซึ่งได้รับความแม่นยำมากขึ้นโดยไม่ตอบคำถามประมาณ 28% เป็นตัวอย่างหนึ่งของแบบจำลองที่นักวิจัยเสนอให้เป็นวิธีแก้ปัญหาระดับกลาง การเขียนโปรแกรมโมเดลให้ทำเช่นเดียวกัน ในทางกลับกัน ยังไม่ชัดเจนว่าผู้คนจะยอมรับแบบจำลองที่ปฏิเสธที่จะตอบอย่างสม่ำเสมอหรือไม่

นักวิจัยสนับสนุนกฎหมายที่รับประกันว่าผู้เชี่ยวชาญที่เป็นมนุษย์มีส่วนร่วมในการตรวจสอบเนื้อหาที่สร้างโดย AI รวมถึงความพยายามที่เข้มข้นมากขึ้นในการลดภาพหลอน ซึ่งอาจผ่านการตรวจสอบข้อเท็จจริงโดยมนุษย์ในวงและปรับปรุงขั้นตอนการอ้างอิง พวกเขาเชื่อว่ามีศักยภาพมากในการปรับปรุงเครื่องมือตรวจสอบข้อเท็จจริงและนำเสนอการแก้ไขเนื้อหาสำหรับเนื้อหาที่มีการเปลี่ยนแปลงจากภาพหลอน

Code Labs Academy © 2025 สงวนลิขสิทธิ์.