Mekanismen för självuppmärksamhet i neurala nätverk

Uppdaterad på June 22, 2024 3 minuter läst

Självuppmärksamhet är en grundläggande mekanism som används i neurala nätverk, särskilt framträdande i transformatormodeller, som tillåter dem att effektivt bearbeta sekventiell data. Det gör det möjligt för modellen att väga olika ord eller element i en sekvens på olika sätt, och fokusera mer på relevanta delar under beräkningen.

Komponenter av självuppmärksamhet

Frågor, Nycklar och Värden: I självuppmärksamhet omvandlas inmatningssekvensen till tre vektorer: Fråga, Nyckel och Värde. Dessa vektorer erhålls från inmatningssekvensen genom linjära transformationer, vilket genererar dessa komponenter som kommer att användas för att beräkna uppmärksamhetspoängen.
Uppmärksamhetspoäng: När dessa vektorer har erhållits beräknas uppmärksamhetspoäng genom att mäta likheten mellan Frågevektorn och Nyckelvektorerna * av alla element i sekvensen*. Detta görs vanligtvis med enprickprodukt, följt avskalningoch applicering av ensoftmax-funktion för att få uppmärksamhetsvikter för varje element.
Viktad summa: De erhållna uppmärksamhetsvikterna används för att väga värdevektorerna. En vägd summa av dessa värden, baserat på deras respektive uppmärksamhetsvikter, ger utdata från självuppmärksamhetslagret.
Multi-Head Attention: För att fånga olika relationer mellan ord eller element, utförs flera uppsättningar av fråge-, nyckel- och värdetransformationer parallellt, vilket resulterar i flera uppsättningar uppmärksamhetsvikter och utdatavektorer. Dessa konkateneras och transformeras igen för att erhålla den slutliga utdata.

underlätta inlärning av långväga beroenden

Självuppmärksamhet utmärker sig i att fånga långväga beroenden i sekvenser på grund av dess förmåga att direkt modellera interaktioner mellan alla element i sekvensen. Traditionella arkitekturer som återkommande neurala nätverk (RNN) lider av försvinnande eller exploderande gradientproblem, vilket begränsar deras förmåga att lära sig långväga beroenden. Självuppmärksamhet, å andra sidan, kan fånga relationer mellan avlägsna ord eller element utan dessa problem, vilket gör det mer effektivt för att förstå sammanhanget och relationerna inom sekvensen.

Fördelar framför traditionella arkitekturer

Parallellisering: Självuppmärksamhet möjliggör parallell beräkning av uppmärksamhetspoäng för alla element i en sekvens, vilket gör det mer effektivt än sekventiell bearbetning i RNN.
Långdistansberoenden: Till skillnad från RNN:er, som kämpar med att fånga beroenden över långa avstånd på grund av deras sekventiella natur, kan självuppmärksamhet fånga dessa beroenden effektivt.
Reducerad banlängd: Självuppmärksamhet kopplar direkt ihop alla element i en sekvens, vilket minskar väglängden mellan avlägsna element, vilket möjliggör bättre gradientflöde under träning.

Begränsningar och beräkningskomplexiteter

Kvadratisk komplexitet: Självuppmärksamhet innebär parvisa jämförelser mellan alla element i en sekvens, vilket resulterar i en kvadratisk ökning av beräkningen när sekvenslängden ökar. Detta kan vara beräkningsmässigt dyrt för mycket långa sekvenser.
Minneskrav: Transformatorer, på grund av sina självuppmärksamhetsmekanismer, kräver ofta mer minne jämfört med enklare arkitekturer som CNN eller RNN.
Uppmärksamhetsmaskering: Att hantera sekvenser av varierande längder kräver användning av uppmärksamhetsmasker för att hantera stoppning, vilket kan lägga till komplexitet till modellen och träningsprocessen.

Trots dessa begränsningar har självuppmärksamhet visat sig vara en mycket effektiv mekanism i bearbetningsuppgifter för naturligt språk, och pågående forskning syftar till att ta itu med dess beräkningskomplexitet för ännu bättre effektivitet och skalbarhet.