Perhatian mandiri adalah mekanisme dasar yang digunakan dalam jaringan neural, khususnya yang menonjol dalam model transformator, sehingga memungkinkan jaringan tersebut memproses data sekuensial secara efektif. Hal ini memungkinkan model untuk menimbang kata atau elemen yang berbeda dalam suatu urutan secara berbeda, sehingga lebih fokus pada bagian yang relevan selama komputasi.
Komponen Perhatian Diri
-
Kueri, Kunci, dan Nilai: Dalam perhatian mandiri, urutan masukan diubah menjadi tiga vektor: Kueri, Kunci, dan Nilai. Vektor-vektor ini diperoleh dari urutan masukan melalui transformasi linier, menghasilkan komponen-komponen yang akan digunakan untuk menghitung skor perhatian.
-
Skor Perhatian: Setelah vektor ini diperoleh, skor perhatian dihitung dengan mengukur kesamaan antara Vektor kueri dan Vektor kunci * dari semua elemen dalam urutan*. Hal ini biasanya dilakukan menggunakanproduk titik, diikuti denganpenskalaandan menerapkanfungsi softmax untuk mendapatkan bobot perhatian untuk setiap elemen.
-
Jumlah Tertimbang: Bobot perhatian yang diperoleh digunakan untuk menimbang vektor Nilai. Jumlah tertimbang dari nilai-nilai ini, berdasarkan bobot perhatiannya masing-masing, menghasilkan output lapisan perhatian mandiri.
-
Perhatian Multi-Kepala: Untuk menangkap hubungan yang berbeda antara kata atau elemen, beberapa rangkaian transformasi Kueri, Kunci, dan Nilai dilakukan secara paralel, sehingga menghasilkan beberapa rangkaian bobot perhatian dan vektor keluaran. Ini kemudian digabungkan dan diubah lagi untuk mendapatkan hasil akhir.
Memfasilitasi Pembelajaran Ketergantungan Jangka Panjang
Perhatian diri unggul dalam menangkap ketergantungan jangka panjang secara berurutan karena kemampuannya untuk secara langsung memodelkan interaksi antara semua elemen dalam urutan. Arsitektur tradisional seperti jaringan saraf berulang (RNN) mengalami masalah gradien yang hilang atau meledak, sehingga membatasi kemampuannya untuk mempelajari dependensi jangka panjang. Sebaliknya, perhatian diri dapat menangkap hubungan antara kata atau elemen yang berjauhan tanpa masalah ini, sehingga lebih efektif dalam memahami konteks dan hubungan dalam rangkaian tersebut.
Keunggulan Dibandingkan Arsitektur Tradisional
-
Paralelisasi: Perhatian mandiri memungkinkan penghitungan skor perhatian secara paralel untuk semua elemen dalam urutan, sehingga lebih efisien daripada pemrosesan berurutan di RNN.
-
Ketergantungan Jangka Panjang: Tidak seperti RNN, yang kesulitan menangkap ketergantungan jarak jauh karena sifatnya yang berurutan, perhatian mandiri dapat menangkap ketergantungan ini secara efektif.
-
Pengurangan Panjang Jalur: Perhatian mandiri secara langsung menghubungkan semua elemen secara berurutan, mengurangi panjang jalur antar elemen yang berjauhan, memungkinkan aliran gradien yang lebih baik selama pelatihan.
Keterbatasan dan Kompleksitas Komputasi
-
Kompleksitas Kuadrat: Perhatian mandiri melibatkan perbandingan berpasangan antara semua elemen dalam suatu barisan, sehingga menghasilkan peningkatan kuadrat dalam komputasi seiring bertambahnya panjang barisan. Ini bisa menjadi mahal secara komputasi untuk rangkaian yang sangat panjang.
-
Persyaratan Memori: Transformer, karena mekanisme perhatiannya sendiri, sering kali memerlukan lebih banyak memori dibandingkan dengan arsitektur sederhana seperti CNN atau RNN.
-
Attention Masking: Menangani rangkaian dengan panjang variabel memerlukan penggunaan masker perhatian untuk menangani padding, yang dapat menambah kompleksitas pada model dan proses pelatihan.
Terlepas dari keterbatasan ini, perhatian diri telah terbukti menjadi mekanisme yang sangat efektif dalam tugas pemrosesan bahasa alami, dan penelitian yang sedang berlangsung bertujuan untuk mengatasi kompleksitas komputasi untuk efisiensi dan skalabilitas yang lebih baik.