Özünə diqqət neyroşəbəkələrdə istifadə olunan fundamental mexanizmdir, xüsusilə transformator modellərində nəzərə çarpır və onlara ardıcıl məlumatları effektiv şəkildə emal etməyə imkan verir. O, modelə hesablama zamanı müvafiq hissələrə daha çox diqqət yetirərək ardıcıllıq daxilində müxtəlif sözləri və ya elementləri fərqli şəkildə çəkməyə imkan verir.
Özünə Diqqətin Komponentləri
-
Sorğular, Açar və Dəyərlər: Özünə diqqətdə, daxiletmə ardıcıllığı üç vektora çevrilir: Sorğu, Açar və Dəyər. Bu vektorlar giriş ardıcıllığından xətti çevrilmələr vasitəsilə əldə edilir və diqqət xallarını hesablamaq üçün istifadə olunacaq bu komponentləri yaradır.
-
Diqqət Xalları: Bu vektorlar əldə edildikdən sonra diqqət balları Sorğu vektoru ilə Əsas vektorlar arasında oxşarlıq *ölçməklə hesablanır. ardıcıllıqdakı bütün elementlərin. Bu adətən nöqtə məhsulu, ardınca miqyaslama və hər bir element üçün diqqət çəkisi əldə etmək üçün softmax funksiyası tətbiqi ilə edilir.
-
Çəkili Cəm: Alınan diqqət çəkiləri Dəyər vektorlarını çəkmək üçün istifadə olunur. Müvafiq diqqət çəkilərinə əsaslanan bu dəyərlərin çəkili cəmi öz-özünə diqqət qatının çıxışını verir.
-
Çox Başlı Diqqət: Sözlər və ya elementlər arasında müxtəlif əlaqələri ələ keçirmək üçün çoxlu Sorğu, Açar və Dəyər çevrilmələri dəsti paralel olaraq həyata keçirilir, nəticədə diqqət çəkilərinin və çıxış vektorlarının çoxsaylı dəstləri yaranır. Daha sonra bunlar birləşdirilir və son nəticəni əldə etmək üçün yenidən çevrilir.
Uzunmüddətli asılılıqların öyrənilməsinin asanlaşdırılması
Özünə diqqət ardıcıllığın bütün elementləri arasında qarşılıqlı əlaqəni birbaşa modelləşdirmək qabiliyyəti sayəsində ardıcıllıqla uzunmüddətli asılılıqları tutmaqda üstündür. Təkrarlanan neyron şəbəkələri (RNN) kimi ənənəvi arxitekturalar yoxa çıxan və ya partlayan gradient problemlərindən əziyyət çəkir, onların uzunmüddətli asılılıqları öyrənmək imkanlarını məhdudlaşdırır. Özünə diqqət, digər tərəfdən, bu məsələlər olmadan uzaq sözlər və ya elementlər arasındakı əlaqələri tuta bilər və ardıcıllıqla kontekst və əlaqələri başa düşməkdə daha təsirli olur.
Ənənəvi Memarlıqdan Üstünlüklər
-
Paralelləşdirmə: Öz-özünə diqqət ardıcıllıqla bütün elementlər üçün diqqət xallarının paralel hesablanmasına imkan verir ki, bu da onu RNN-lərdə ardıcıl emaldan daha səmərəli edir.
-
Uzun mənzilli asılılıqlar: Ardıcıl xarakterinə görə uzun məsafələrdə asılılıqları tutmaqla mübarizə aparan RNN-lərdən fərqli olaraq, özünə diqqət bu asılılıqları effektiv şəkildə ələ keçirə bilər.
-
Azaldılmış Yol Uzunluğu: Özünə diqqət birbaşa bütün elementləri ardıcıllıqla birləşdirir, uzaq elementlər arasındakı yolun uzunluğunu azaldır və məşq zamanı daha yaxşı qradient axını təmin edir.
Məhdudiyyətlər və Hesablama Mürəkkəblikləri
-
Kvadrat Mürəkkəblik: Özünə diqqət ardıcıllığın bütün elementləri arasında cütlük müqayisələri ehtiva edir, nəticədə ardıcıllığın uzunluğu artdıqca hesablamada kvadratik artım olur. Bu, çox uzun ardıcıllıqlar üçün hesablama baxımından bahalı ola bilər.
-
Yaddaş Tələbləri: Transformatorlar, özlərinə diqqət etmə mexanizmlərinə görə, CNN və ya RNN kimi daha sadə arxitekturalarla müqayisədə çox vaxt daha çox yaddaş tələb edir.
-
Diqqət maskalanması: Dəyişən uzunluqlu ardıcıllıqla məşğul olmaq, model və təlim prosesinə mürəkkəblik əlavə edə bilən dolğunluğu idarə etmək üçün diqqət maskalarının istifadəsini tələb edir.
Bu məhdudiyyətlərə baxmayaraq, özünə diqqətin təbii dilin işlənməsi tapşırıqlarında yüksək effektiv mexanizm olduğunu sübut etdi və davam edən tədqiqatlar daha yaxşı səmərəlilik və miqyaslılıq üçün onun hesablama mürəkkəbliklərini həll etməyi hədəfləyir.