Byte Pair Encoding (BPE) հանրաճանաչ ալգորիթմ է, որն օգտագործվում է բնական լեզվի մշակման մեջ (NLP) ենթաբառերի նշանավորման համար: Դրա հիմնական նպատակն է բառերը բաժանել փոքր միավորների, հաճախ ենթաբառերի նշանների, բառապաշարից դուրս բառերի մշակումը, բարելավել հազվագյուտ բառերի ներկայացումը և ավելի լավ որսալ մորֆոլոգիական տատանումները:.
Ահա, թե ինչպես է աշխատում BPE-ն.
Բայթ զույգ կոդավորման գործընթաց (BPE)
Նախնականացում
- Սկսեք բառապաշարը սկզբնավորելով առանձին նիշերով կամ բայթերի հաջորդականությամբ:
Կրկնվող միաձուլում
-
Կրկնել կորպուսի միջոցով և բացահայտել հաջորդական նշանների ամենահաճախ հանդիպող զույգը:
-
Միավորեք այս երկու նշանները՝ նոր նշան ձևավորելու համար:
-
Թարմացրեք բառապաշարը այս նոր նշանով և շարունակեք կրկնել:
Դադարեցման չափանիշ
- Այս գործընթացը շարունակվում է մի շարք կրկնությունների համար կամ մինչև որոշակի շեմի (օրինակ, բառապաշարի չափը կամ կորպուսի ծածկույթը) հասնելը:
Վերջնական բառապաշար
- Վերջնական բառապաշարը բաղկացած է միաձուլված նշաններից, ներառյալ միայնակ նիշերը և միավորված ենթաբառերի նշանները:
Բառապաշարից դուրս (OOV) բառերի մշակում
-
Երբ հանդիպում եք բառի, որը չկա բառապաշարում, BPE-ն այն կարող է ներկայացնել որպես բառապաշարից ենթաբառերի նշանների հաջորդականություն:
-
Անհայտ բառերը բաժանելով բառապաշարում հայտնաբերված ենթաբառերի միավորների՝ այն կարող է կարգավորել OOV բառերը՝ դրանք մասամբ վերակառուցելով:
Դիմում տեքստի սեղմման և լեզվի մոդելավորման մեջ
-
Տեքստի սեղմում. BPE-ի հաճախակի զույգերի միաձուլումը հանգեցնում է տեքստի սեղմված ներկայացմանը: Այն փոխարինում է կերպարների հաճախակի հաջորդականությունները ավելի կարճ ներկայացումներով:
-
Լեզվի մոդելավորում. BPE-ն թույլ է տալիս բառերի ավելի ճկուն ներկայացում` դրանք բաժանելով փոքր միավորների: Սա թույլ է տալիս մոդելին ֆիքսել մորֆոլոգիական տատանումները և ավելի արդյունավետ կերպով մշակել հազվագյուտ կամ նախկինում չտեսնված բառերը:
Փոխանակում և արդյունավետություն
-
Փոխհատուցումներ. BPE-ն ունի հաշվարկային ծախսեր` միաձուլվող նշանների կրկնվող բնույթի պատճառով: Այն կարող է ստեղծել մեծ բառապաշար՝ ազդելով հիշողության և հաշվողական արդյունավետության վրա: Նշանակման գործընթացը կարող է նաև դանդաղ լինել ավելի մեծ կորպորացիաների համար:
-
Արդյունավետություն. BPE-ն շատ արդյունավետ է ձևաբանական տատանումները գրանցելու համար, հատկապես ագլյուտինատիվ լեզուներում (օրինակ՝ ֆիններեն, թուրքերեն), որտեղ բառերը կարող են բարդ կառուցվածք ունենալ: Այն նաև հմուտ է հազվագյուտ բառերի մշակման մեջ՝ բարելավելով մոդելի կարողությունը ընդհանրացնելու անտեսանելի բառապաշար:
Համեմատություն նշանավորման այլ մեթոդների հետ
-
ընդդեմ. Բառի վրա հիմնված Tokenization. BPE-ն ավելի լավ է մշակում OOV բառերը, քան բառերի վրա հիմնված մեթոդները, բայց կարող է ստեղծել ավելի մեծ բառապաշար:
-
ընդդեմ. Նիշերի վրա հիմնված Tokenization. BPE-ն ավելի լավ է ընդունում մորֆոլոգիական տեղեկատվությունը, քան նիշերի վրա հիմնված մեթոդները, բայց կարող է պահանջել ավելի շատ նշաններ որոշ բառեր արդյունավետ ներկայացնելու համար:
BPE-ն բազմակողմանի է և լայնորեն օգտագործվում է NLP-ի տարբեր առաջադրանքներում՝ շնորհիվ OOV բառերը կարգավորելու , հազվագյուտ բառերը արդյունավետ կերպով ներկայացնելու և ձևաբանական տեղեկատվությունը գրավելու իր **ունակության` այն դարձնելով ենթաբառերի նշանավորման հզոր տեխնիկա: