20 մարտի, 2024 թ
The Reversal Curse
Լեզուների խոշոր մոդելները (LLM), ինչպիսիք են GPT-4 և Llama-2 տպավորիչ կարողություններ են դրսևորել հասկանալու համար: և ստեղծելով մարդանման տեքստ, որը ներառում է գիտելիքների լայն շրջանակ: Այնուամենայնիվ, նրանք ձախողվում են պարզ թվացող առաջադրանքում՝ շրջել սովորած փաստերը: Այս սահմանափակումը, որը կոչվում է «Հակադարձ անեծք», ենթադրում է, որ LLM-ները չեն կարող եզրակացնել, որ «B-ն Ա-ի հատկանիշն է» սովորելուց «A-ն ունի B հատկանիշ», որը հիմնարար տրամաբանական հմտություն է, որն ունեն նույնիսկ երեխաները: Այս փաստաթուղթը ներկայացնում է «Հակադարձ ուսուցում»՝ այս մարտահրավերը լուծելու նոր մեթոդ՝ օգտագործելով երկակի ուղղության ուսուցման մոտեցումը, որպեսզի ուժեղացնեք մոդելի փաստերի ըմբռնումը ինչպես առաջ, այնպես էլ հակառակ ձևաչափերով:
Հակադարձ անեծքի ծագումը
Խնդիրն առաջանում է LLM-ների վերապատրաստման հիմնարար մոտեցումից, որը սովորաբար ներառում է ավտորեգեսիվ, ձախից աջ ուսուցում: Այս մեթոդը չի սովորեցնում մոդելներին հասկանալ կամ ստեղծել տեղեկատվություն հակառակ հերթականությամբ: Հաշվի առնելով Zipf-ի օրենքին հետևող տվյալների բաշխման բնույթը, շատ փաստեր նշվում են միայն մեկ ուղղությամբ, ինչը սրում է այս խնդիրը: «Հակադարձ անեծքը» սահմանափակում է LLM-ների փոխադարձ հարաբերությունների և հայտարարություններում համարժեքության ըմբռնումը, ինչը մատնանշում է նրանց տրամաբանական կարողությունների էական թերությունը:
Հաղթահարելով հակադարձ անեծքը հակադարձ մարզման միջոցով
Առաջարկվող լուծումը՝ Reverse Training, կրկնապատկում է առկա ուսուցման տվյալները՝ ներառելով ուսուցման տողերի և՛ բնօրինակ, և՛ հակադարձ տարբերակները: Հակադարձման գործընթացը պետք է զգույշ լինի, որպեսզի չփոխի որոշ ենթատողեր, ինչպիսիք են կազմի անունները, պահպանելով դրանց սկզբնական հաջորդականությունը՝ համատեքստը պահպանելու համար: Այս մեթոդը, որը նման է LLM-ին սովորելու համար երկրորդ լեզվի ներդրմանը, զգալիորեն բարելավում է մոդելի՝ երկու ուղղություններով տեղեկատվություն մշակելու և գեներացնելու ունակությունը:
Հակադարձ մարզման մեթոդի փորձարկում
Իրենց առաջարկած մեթոդը փորձարկելու համար հեղինակներն իրականացրել են հետևյալ փորձերը.
1- Սիմվոլիկ հակադարձ առաջադրանք. Վերահսկվող միջավայրի թեստ, որը ցույց է տալիս մեթոդի կարողությունը եզրակացնել և կիրառել հակադարձ հարաբերություններ:
2- Կենսագրության հակադարձ առաջադրանք. Կենսագրության տվյալների շտեմարանի օգտագործում՝ տվյալ մանրամասներից մարդկանց անունները հակառակը ստեղծելու գործում գնահատելու համար:
3- Իրական աշխարհի գիտելիքի հակադարձում. մեթոդի արդյունավետության գնահատում իրական աշխարհի սցենարներում, ներառյալ հայտնի մարդկանց և նրանց հարաբերությունների մասին փաստերը:
4- Կեղծ փաստերի ճշգրտում. մոդելի ուսուցման կարողության փորձարկում նոր ներկայացված, հակադարձված հորինված փաստերի վրա:
Այս փորձերի ընթացքում Reverse Training-ը ոչ միայն մեղմեց հակադարձ անեծքը, այլ որոշ դեպքերում ամբողջովին վերացրեց այն: Մեթոդը հատկապես արդյունավետ է եղել, երբ միավորների անունները պահպանվել են իրենց սկզբնական հերթականությամբ՝ հակադարձման գործընթացում՝ ընդգծելով որոշակի համատեքստային խարիսխների պահպանման կարևորությունը:
Հետևանքներ և ապագա ուղղություններ
Reverse Training-ի հաջողությունը Reversal Curse-ի դեմ պայքարում նոր ուղիներ է բացում LLM ուսուցման մեթոդոլոգիաների համար: Բարելավելով մոդելների ըմբռնումը փոխադարձ հարաբերությունների և հայտարարություններում համարժեքության մասին՝ այս մոտեցումը դուռ է բացում ավելի բարդ տրամաբանական կարողությունների համար: Հետագա հետազոտությունները կարող են ուսումնասիրել հակադարձման գործընթացի հետագա օպտիմալացումը, այլ լեզուների մոդելային ճարտարապետություններում հակադարձ ուսուցման ինտեգրման ներուժը և այս մեթոդի ավելի լայն կիրառությունները բնական լեզվի ըմբռնման և գեներացման առաջադրանքներում: