Baliktarin ang Pagsasanay para Nars ang Baliktad na Sumpa

Baliktarin ang Pagsasanay para Nars ang Baliktad na Sumpa

Arxiv Link

Marso 20, 2024

Ang Baliktad na Sumpa

Ang mga Large Language Models (LLM) tulad ng GPT-4 at Llama-2 ay nagpakita ng mga kahanga-hangang kakayahan sa pag-unawa at pagbuo ng tekstong tulad ng tao, na sumasaklaw sa malawak na hanay ng kaalaman. Gayunpaman, nabigo sila sa isang tila tuwirang gawain: pagbabalik-tanaw sa mga natutunang katotohanan. Ang limitasyong ito, na tinatawag na "Reversal Curse," ay nagpapahiwatig na ang mga LLM ay hindi maaaring magpahiwatig na ang "B ay isang tampok ng A" mula sa pag-aaral ng "A ay may isang tampok na B," isang pangunahing kasanayan sa pangangatwiran na kahit na ang mga bata ay nagtataglay. Ipinakilala ng papel na ito ang "Reverse Training," isang nobelang paraan upang matugunan ang hamon na ito sa pamamagitan ng paggamit ng diskarte sa pagsasanay na may dalawahang direksyon upang mapahusay ang pag-unawa ng modelo sa mga katotohanan sa parehong pasulong at pabalik na mga format.

Ang Pinagmulan ng Baliktad na Sumpa

Ang problema ay nagmumula sa pangunahing diskarte sa pagsasanay ng mga LLM, na karaniwang nagsasangkot ng autoregressive, kaliwa-pakanan na pag-aaral. Ang pamamaraang ito ay hindi likas na nagtuturo sa mga modelo na maunawaan o bumuo ng impormasyon sa reverse order. Dahil sa likas na katangian ng pamamahagi ng data na sumusunod sa batas ng Zipf, maraming katotohanan ang binanggit lamang sa isang direksyon, na nagpapalala sa isyung ito. Nililimitahan ng "Reversal Curse" ang pag-unawa ng mga LLM sa mga katumbas na relasyon at pagkakapantay-pantay sa mga pahayag, na nagmamarka ng isang makabuluhang pagkukulang sa kanilang mga kakayahan sa pangangatwiran.

Pagtagumpayan ang Reversal Curse gamit ang Reverse Training

Ang iminungkahing solusyon, Reverse Training, ay nagdodoble sa magagamit na data ng pagsasanay sa pamamagitan ng pagsasama ng parehong orihinal at reverse na bersyon ng mga string ng pagsasanay. Ang proseso ng pagbabalik ay maingat na huwag baguhin ang ilang mga substring, gaya ng mga pangalan ng entity, na pinapanatili ang orihinal na pagkakasunod-sunod nito upang mapanatili ang konteksto. Ang pamamaraang ito, katulad ng pagpapakilala ng pangalawang wika para matutunan ng LLM, ay makabuluhang nagpapabuti sa kakayahan ng modelo na magproseso at bumuo ng impormasyon sa parehong direksyon.

Pagsubok sa Baliktad na Paraan ng Pagsasanay

Ang mga may-akda ay nagsagawa ng mga sumusunod na eksperimento upang subukan ang kanilang iminungkahing pamamaraan:

1- Symbolic Reverse Task: Isang kinokontrol na pagsubok sa kapaligiran na nagpapakita ng kakayahan ng pamamaraan na maghinuha at maglapat ng mga baligtad na relasyon.

2- Pagbabalik-tanaw sa Gawain: Paggamit ng isang talambuhay na dataset upang masuri ang pagganap sa pagbuo ng mga pangalan ng tao mula sa mga ibinigay na detalye, sa kabaligtaran.

3- Pagbabaligtad ng Real-world na Kaalaman: Pagsusuri sa pagiging epektibo ng pamamaraan sa mga totoong sitwasyon sa mundo, kabilang ang pagbabaligtad ng mga katotohanan tungkol sa mga celebrity at kanilang mga relasyon.

4- Fictitious Facts Finetuning: Pagsubok sa kakayahan ng modelo sa pagkatuto sa mga bagong ipinakilala, binaligtad na mga kathang-isip na katotohanan.

Sa kabuuan ng mga eksperimentong ito, ang Reverse Training ay hindi lamang nagpapagaan sa Reversal Curse ngunit, sa ilang mga kaso, ganap na inalis ito. Ang pamamaraan ay napatunayang partikular na epektibo kapag ang mga pangalan ng entity ay napanatili sa kanilang orihinal na pagkakasunud-sunod sa panahon ng proseso ng pagbaliktad, na itinatampok ang kahalagahan ng pagpapanatili ng ilang mga anchor sa konteksto.

Mga Implikasyon at Mga Direksyon sa Hinaharap

Ang tagumpay ng Reverse Training sa pagtugon sa Reversal Curse ay nagbubukas ng mga bagong paraan para sa mga pamamaraan ng pagsasanay sa LLM. Sa pamamagitan ng pagpapahusay ng pag-unawa ng mga modelo sa mga katumbas na relasyon at pagkakapantay-pantay sa mga pahayag, ang diskarteng ito ay nagbubukas ng pinto sa mas sopistikadong mga kakayahan sa pangangatwiran. Maaaring galugarin ng hinaharap na pananaliksik ang higit pang pag-optimize ng proseso ng pagbaliktad, ang potensyal para sa pagsasama ng baligtad na pagsasanay sa iba pang mga arkitektura ng modelo ng wika, at mas malawak na aplikasyon ng pamamaraang ito sa natural na pag-unawa sa wika at mga gawain sa pagbuo.

Code Labs Academy © 2024 Lahat ng karapatan ay nakalaan.