Atvirkštinis mokymas, skirtas slaugyti atvirkštinį prakeikimą

Atvirkštinis mokymas, skirtas slaugyti atvirkštinį prakeikimą

Arxiv nuoroda

2024 m. kovo 20 d

Atvirkštinis prakeiksmas

Dideli kalbų modeliai (LLM), tokie kaip GPT-4 ir Llama-2, pademonstravo įspūdingus supratimo gebėjimus ir sukurti į žmogų panašų tekstą, apimantį daugybę žinių. Tačiau jiems nepavyksta atlikti iš pažiūros nesudėtingos užduoties: pakeisti išmoktus faktus. Šis apribojimas, vadinamas „atvirkštiniu prakeiksmu“, reiškia, kad LLM negali daryti išvados, kad „B yra A bruožas“, sužinoję, kad „A turi B savybę“ – pagrindinį samprotavimo įgūdį, kurį turi net vaikai. Šiame dokumente pristatomas „Reverse Training“ – naujas metodas, skirtas šiam iššūkiui spręsti, panaudojant dviejų krypčių mokymo metodą, siekiant pagerinti modelio faktų supratimą tiek į priekį, tiek atgal.

Atvirkštinio prakeikimo ištakos

Problema kyla dėl esminio LLM mokymo metodo, kuris paprastai apima autoregresyvų mokymąsi iš kairės į dešinę. Šis metodas iš esmės nemoko modelių suprasti arba generuoti informaciją atvirkštine tvarka. Atsižvelgiant į duomenų platinimo pobūdį pagal Zipf įstatymą, daugelis faktų minimi tik viena kryptimi, o tai dar labiau apsunkina šią problemą. „Atvirkštinis prakeiksmas“ riboja LLM supratimą apie abipusius ryšius ir teiginių lygiavertiškumą, o tai pažymi reikšmingą jų samprotavimo gebėjimų trūkumą.

Atvirkštinio prakeiksmo įveikimas atvirkštine treniruote

Siūlomas sprendimas „Reverse Training“ padvigubina turimus treniruočių duomenis, įtraukdamas tiek originalias, tiek atvirkštines treniruočių eilučių versijas. Apsukimo procesas yra atsargus, kad nebūtų pakeistos tam tikros poeilutės, pvz., objektų pavadinimai, išlaikant pradinę seką, kad būtų išsaugotas kontekstas. Šis metodas, panašus į antrosios kalbos įvedimą LLM mokytis, žymiai pagerina modelio gebėjimą apdoroti ir generuoti informaciją abiem kryptimis.

Atvirkštinio mokymo metodo išbandymas

Siekdami išbandyti siūlomą metodą, autoriai atliko šiuos eksperimentus:

1 – Simbolinė atvirkštinė užduotis: kontroliuojamos aplinkos testas, parodantis metodo gebėjimą daryti išvadą ir taikyti atvirkštinius ryšius.

2 – Biografijos keitimo užduotis: Biografijos duomenų rinkinio naudojimas siekiant įvertinti našumą generuojant asmenų vardus iš pateiktos informacijos, atvirkščiai.

3 – Realaus pasaulio žinių apvertimas: metodo veiksmingumo įvertinimas realaus pasaulio scenarijuose, įskaitant faktų apie įžymybes ir jų santykius apvertimą.

4. Išgalvotų faktų patikslinimas: modelio mokymosi galimybių tikrinimas naudojant naujai įvestus, apverstus fiktyvius faktus.

Atliekant šiuos eksperimentus, „Reverse Training“ ne tik sušvelnino „Reversal Curse“, bet kai kuriais atvejais ir visiškai jį pašalino. Metodas pasirodė ypač veiksmingas, kai objektų pavadinimai buvo išsaugoti pradine tvarka per apvertimo procesą, pabrėžiant tam tikrų kontekstinių inkarų išlaikymo svarbą.

Pasekmės ir ateities kryptys

„Reverse Training“ sėkmė sprendžiant „Reversal Curse“ atveria naujus kelius LLM mokymo metodikoms. Pagerindamas modelių supratimą apie abipusius ryšius ir teiginių lygiavertiškumą, šis metodas atveria duris į sudėtingesnius samprotavimo gebėjimus. Būsimi tyrimai gali ištirti tolesnį apvertimo proceso optimizavimą, galimybę integruoti atvirkštinį mokymą į kitas kalbos modelių architektūras ir platesnį šio metodo taikymą natūralios kalbos supratimo ir generavimo užduotims.

Code Labs Academy © 2024 Visos teisės saugomos.