Увага да сябе з'яўляецца фундаментальным механізмам, які выкарыстоўваецца ў нейронавых сетках, асабліва прыкметным у мадэлях трансфарматараў, што дазваляе ім эфектыўна апрацоўваць паслядоўныя даныя. Гэта дазваляе мадэлі па-рознаму ўзважваць розныя словы або элементы ў паслядоўнасці, больш засяроджваючыся на адпаведных частках падчас вылічэнняў.
Кампаненты ўвагі да сябе
-
Запыты, Ключы і Значэнні: у самакіраванні паслядоўнасць уводу пераўтворыцца ў тры вектары: запыт, ключ і значэнне. Гэтыя вектары атрымліваюцца з уваходнай паслядоўнасці праз лінейныя пераўтварэнні, ствараючы гэтыя кампаненты, якія будуць выкарыстоўвацца для разліку балаў увагі.
-
Ацэнкі ўвагі: пасля атрымання гэтых вектараў ацэнкі ўвагі вылічваюцца шляхам вымярэння падабенства паміж Вектарам запыту і Ключавымі вектарамі * усіх элементаў у паслядоўнасці*. Звычайна гэта робіцца з дапамогайскалярнага здабыткуз наступныммаштабаваннемі прымяненнемфункцыі softmax, каб атрымаць вагу ўвагі для кожнага элемента.
-
Узважаная сума: атрыманыя вагі ўвагі выкарыстоўваюцца для ўзважвання вектараў значэнняў. Узважаная сума гэтых значэнняў, заснаваная на іх адпаведных вагах увагі, дае выхад пласта ўвагі да сябе.
-
Увага некалькіх кіраўнікоў: каб зафіксаваць розныя ўзаемасувязі паміж словамі або элементамі, некалькі набораў пераўтварэнняў запытаў, ключоў і значэнняў выконваюцца паралельна, што прыводзіць да некалькіх набораў вагаў увагі і выхадных вектараў. Затым яны аб'ядноўваюцца і зноў трансфармуюцца, каб атрымаць канчатковы вынік.
Садзейнічанне вывучэнню доўгатэрміновых залежнасцей
Увага да сябе выдатна спраўляецца з фіксацыяй далёкіх залежнасцей у паслядоўнасцях дзякуючы сваёй здольнасці непасрэдна мадэляваць узаемадзеянне паміж усімі элементамі ў паслядоўнасці. Традыцыйныя архітэктуры, такія як рэкурэнтныя нейронавыя сеткі (RNN), пакутуюць ад праблем з градыентам, якія знікаюць або выбухаюць, што абмяжоўвае іх здольнасць вывучаць залежнасці на далёкія адлегласці. З іншага боку, увага да сябе можа фіксаваць адносіны паміж аддаленымі словамі або элементамі без гэтых праблем, робячы яе больш эфектыўнай для разумення кантэксту і адносін у паслядоўнасці.
Перавагі перад традыцыйнымі архітэктурамі
-
Паралелізаванне: самакантэнцыялізацыя дазваляе паралельна вылічваць балы ўвагі для ўсіх элементаў паслядоўнасці, што робіць яе больш эфектыўнай, чым паслядоўная апрацоўка ў RNN.
-
Далёкія залежнасці: у адрозненне ад RNN, якія змагаюцца з захопам залежнасцей на вялікіх адлегласцях з-за іх паслядоўнага характару, увага да сябе можа эфектыўна фіксаваць гэтыя залежнасці.
-
Паменшаная даўжыня шляху: увага да сябе непасрэдна злучае ўсе элементы ў паслядоўнасці, памяншаючы даўжыню шляху паміж аддаленымі элементамі, забяспечваючы лепшы градыентны паток падчас трэніроўкі.
Абмежаванні і вылічальныя складанасці
-
Квадратычная складанасць: увага да сябе ўключае папарнае параўнанне паміж усімі элементамі ў паслядоўнасці, што прыводзіць да квадратычнага павелічэння вылічэнняў па меры павелічэння даўжыні паслядоўнасці. Гэта можа быць дарагім з пункту гледжання вылічэнняў для вельмі доўгіх паслядоўнасцей.
-
Патрабаванні да памяці: трансфарматары з-за іх механізмаў самаканцэнтрацыі часта патрабуюць больш памяці ў параўнанні з больш простымі архітэктурамі, такімі як CNN або RNN.
-
Маскоўка ўвагі: праца з паслядоўнасцямі зменнай даўжыні патрабуе выкарыстання масак увагі для апрацоўкі запаўнення, што можа ўскладніць мадэль і працэс навучання.
Нягледзячы на гэтыя абмежаванні, увага да сябе апынулася вельмі эфектыўным механізмам у задачах апрацоўкі натуральнай мовы, і бягучыя даследаванні накіраваны на вырашэнне вылічальнай складанасці для яшчэ большай эфектыўнасці і маштабаванасці.