การเอาใจใส่ตนเอง เป็นกลไกพื้นฐานที่ใช้ในโครงข่ายประสาทเทียม โดยเฉพาะอย่างยิ่งใน โมเดลหม้อแปลงไฟฟ้า ช่วยให้โครงข่ายสามารถประมวลผลข้อมูลตามลำดับได้อย่างมีประสิทธิภาพ ช่วยให้โมเดล ชั่งน้ำหนักคำหรือองค์ประกอบที่แตกต่างกันภายในลำดับที่แตกต่างกัน โดยเน้นที่ส่วนที่เกี่ยวข้องมากขึ้นในระหว่างการคำนวณ
องค์ประกอบของความใส่ใจในตนเอง
-
การสืบค้น, คีย์ และ ค่า: ในการเอาใจใส่ตนเอง ลำดับอินพุตจะถูกแปลงเป็นเวกเตอร์ 3 แบบ: การสืบค้น คีย์ และค่า เวกเตอร์เหล่านี้ได้รับ จากลำดับอินพุต ผ่านการแปลงเชิงเส้น โดยสร้างส่วนประกอบเหล่านี้ที่จะใช้ในการคำนวณคะแนนความสนใจ
-
คะแนนความสนใจ: เมื่อได้รับเวกเตอร์เหล่านี้แล้ว คะแนนความสนใจ จะถูกคำนวณโดยการวัด ความคล้ายคลึง ระหว่าง เวกเตอร์แบบสอบถาม และ เวกเตอร์คีย์ * ขององค์ประกอบทั้งหมดในลำดับโดยทั่วไปจะทำโดยใช้ดอทโปรดัคตามด้วยการปรับขนาดและใช้ฟังก์ชัน softmax* เพื่อรับน้ำหนักความสนใจสำหรับแต่ละองค์ประกอบ
-
ผลรวมถ่วงน้ำหนัก: น้ำหนักความสนใจ ที่ได้รับ ใช้เพื่อชั่งน้ำหนักเวกเตอร์ค่า ผลรวมถ่วงน้ำหนัก ของค่าเหล่านี้ โดยอิงตามน้ำหนักความสนใจที่เกี่ยวข้อง จะให้ผล เอาต์พุตของเลเยอร์การเอาใจใส่ตนเอง
-
ความสนใจแบบหลายหัว: เพื่อบันทึกความสัมพันธ์ที่แตกต่างกันระหว่างคำหรือองค์ประกอบ การแปลงคำค้นหา คีย์ และค่าหลายชุดจะดำเนินการพร้อมกัน ส่งผลให้มีน้ำหนักความสนใจและเวกเตอร์เอาต์พุตหลายชุด สิ่งเหล่านี้จะถูก ต่อกัน และแปลงอีกครั้งเพื่อให้ได้ผลลัพธ์สุดท้าย
อำนวยความสะดวกในการเรียนรู้การพึ่งพาระยะยาว
การเอาใจใส่ตนเองเป็นเลิศในการจับภาพการพึ่งพาระยะยาวในลำดับ เนื่องจาก ความสามารถในการจำลองการโต้ตอบระหว่างองค์ประกอบทั้งหมดในลำดับโดยตรง สถาปัตยกรรมแบบดั้งเดิม เช่น โครงข่ายประสาทเทียมที่เกิดซ้ำ (RNN) ประสบปัญหาการไล่ระดับสีที่หายไปหรือระเบิด ซึ่งจำกัดความสามารถในการเรียนรู้การพึ่งพาในระยะยาว ในทางกลับกัน การเอาใจใส่ตนเองสามารถจับความสัมพันธ์ระหว่างคำหรือองค์ประกอบที่อยู่ห่างไกลได้โดยไม่มีปัญหาเหล่านี้ ทำให้มีประสิทธิภาพมากขึ้นในการทำความเข้าใจบริบทและความสัมพันธ์ภายในลำดับ
ข้อได้เปรียบเหนือสถาปัตยกรรมแบบดั้งเดิม
-
การทำให้ขนานกัน: การเอาใจใส่ตนเองช่วยให้สามารถคำนวณคะแนนความสนใจสำหรับองค์ประกอบทั้งหมดในลำดับแบบขนาน ทำให้มีประสิทธิภาพมากกว่าการประมวลผลตามลำดับใน RNN
-
การพึ่งพาระยะไกล: ต่างจาก RNN ที่ต่อสู้กับการจับการขึ้นต่อกันในระยะทางไกลเนื่องจากธรรมชาติตามลำดับ การเอาใจใส่ตนเองสามารถจับการขึ้นต่อกันเหล่านี้ได้อย่างมีประสิทธิภาพ
-
ความยาวเส้นทางที่ลดลง: การใส่ใจในตัวเองจะเชื่อมต่อองค์ประกอบทั้งหมดตามลำดับโดยตรง ช่วยลดความยาวเส้นทางระหว่างองค์ประกอบที่อยู่ห่างไกล ช่วยให้การไล่ระดับสีดีขึ้นระหว่างการฝึก
ข้อจำกัดและความซับซ้อนในการคำนวณ
-
ความซับซ้อนกำลังสอง: การเอาใจใส่ตนเองเกี่ยวข้องกับ การเปรียบเทียบแบบคู่ระหว่างองค์ประกอบทั้งหมดในลำดับ ส่งผลให้การคำนวณกำลังสองเพิ่มขึ้นเมื่อความยาวของลำดับเพิ่มขึ้น ซึ่งอาจมีราคาแพงในการคำนวณสำหรับลำดับที่ยาวมาก
-
ข้อกำหนดหน่วยความจำ: เนื่องจากกลไกการดูแลตนเองของหม้อแปลง มักต้องใช้หน่วยความจำมากกว่าเมื่อเทียบกับสถาปัตยกรรมที่เรียบง่ายกว่า เช่น CNN หรือ RNN
-
การมาสก์ความสนใจ: การจัดการกับลำดับที่มีความยาวผันแปรได้จำเป็นต้องใช้มาสก์ความสนใจเพื่อจัดการกับการเสริม ซึ่งสามารถเพิ่มความซับซ้อนให้กับโมเดลและกระบวนการฝึกอบรมได้
แม้จะมีข้อจำกัดเหล่านี้ การเอาใจใส่ตนเองได้พิสูจน์แล้วว่าเป็นกลไกที่มีประสิทธิภาพสูงในงานประมวลผลภาษาธรรมชาติ และการวิจัยที่กำลังดำเนินอยู่มีเป้าหมายที่จะจัดการกับความซับซ้อนในการคำนวณเพื่อประสิทธิภาพและความสามารถในการปรับขนาดที่ดียิ่งขึ้น