Norberarenganako arreta sare neuronaletan erabiltzen den oinarrizko mekanismoa da, bereziki nabarmena transformadoreen ereduetan, datu sekuentzialak eraginkortasunez prozesatzeko aukera ematen diena. Ereduari aukera ematen dio sekuentzia bateko hitz edo elementu desberdinak modu desberdinean pisatzea, kalkuluan zehar zati garrantzitsuetan arreta gehiago jarriz.
Norberaren arretaren osagaiak
-
Kontsultak, Gakoak eta Balioak: Norberaren arretaz, sarrera-sekuentzia hiru bektoretan bihurtzen da: Kontsulta, Gakoa eta Balioa. Bektore hauek sarrera-sekuentziatik eraldaketa linealen bidez lortzen dira, arreta puntuazioak kalkulatzeko erabiliko diren osagai hauek sortuz.
-
Arreta puntuazioak: bektore hauek lortu ondoren, arreta puntuazioak kalkulatzen dira kontsulta bektore eta gako bektore * arteko antzekotasuna *artekoa neurtuz. sekuentziako elementu guztiena. Hau normalean puntu produktua erabiliz egiten da, ondoren eskalatu eta softmax funtzioa aplikatuz elementu bakoitzaren arreta-pisuak lortzeko.
-
Batura haztatua: Lortutako arreta pisuak Balio-bektoreak haztatzeko erabiltzen dira. Balio hauen batura haztatu batek, dagozkien arreta-pisuen arabera, auto-arreta-geruzarenirteera** ematen du.
-
Buru anitzeko arreta: hitzen edo elementuen arteko erlazio desberdinak atzemateko, Kontsulta, Gako eta Balioen eraldaketa multzo anitz egiten dira paraleloan, eta ondorioz, arreta-pisu eta irteera-bektore multzo anitz sortzen dira. Ondoren, hauek lotu eta berriro eraldatzen dira azken irteera lortzeko.
Iraupen luzeko mendekotasunak ikastea erraztea
Autoarreta bikaina da sekuentzietan irismen luzeko menpekotasunak atzemateko sekuentziako elementu guztien arteko interakzioak zuzenean modelatzeko gaitasuna duelako. Sare neuronal errekurrenteak (RNN) bezalako arkitektura tradizionalek desagertzen edo lehertzen diren gradiente-arazoak jasaten dituzte, iraupen luzeko mendekotasunak ikasteko gaitasuna mugatuz. Norberaren arretak, berriz, urrutiko hitzen edo elementuen arteko harremanak atzeman ditzake arazo horiek gabe, sekuentziaren barruko testuingurua eta harremanak ulertzeko eraginkorragoa izan dadin.
Arkitektura tradizionalen aurrean abantailak
-
Paralelizazioa: auto-arretak sekuentzia bateko elementu guztien arreta-puntuen kalkulu paraleloa egiteko aukera ematen du, RNN-en prozesamendu sekuentziala baino eraginkorragoa eginez.
-
Ibilbide luzeko menpekotasunak: RNN-ek ez bezala, distantzia luzeetan mendekotasunak atzematea borrokatzen duten izaera sekuentziala dela eta, norberaren arretak mendekotasun horiek modu eraginkorrean har ditzake.
-
Ibilbidearen luzera murriztua: auto-arretak zuzenean lotzen ditu elementu guztiak sekuentzia batean, urruneko elementuen arteko bidearen luzera murriztuz, entrenamendu garaian gradiente-fluxu hobea ahalbidetuz.
Mugak eta konplexutasun konputazionalak
-
Konplexutasun koadratikoa: Norberaren arreta sekuentzia bateko elementu guztien arteko bikoteka konparatuz dakar, eta ondorioz, konputazioaren koadratikoa handitu egiten da sekuentziaren luzera handitu ahala. Hau konputazionalki garestia izan daiteke oso sekuentzia luzeetarako.
-
Memoria-eskakizunak: Transformadoreek, beren autoarreta mekanismoengatik, askotan memoria gehiago behar dute CNN edo RNN bezalako arkitektura sinpleagoekin alderatuta.
-
Arreta maskaratzea: luzera aldakorreko sekuentziak tratatzeko arreta-maskarak erabiltzea eskatzen du betegarria kudeatzeko, eta horrek konplexutasuna gehi diezaioke ereduari eta prestakuntza-prozesuari.
Muga horiek gorabehera, norberaren arreta hizkuntza naturalaren prozesatzeko zereginetan oso mekanismo eraginkorra dela frogatu da, eta etengabeko ikerketek bere konplexutasun konputazionalak jorratu nahi dituzte, are eraginkortasun eta eskalagarritasun hobea lortzeko.