Bayte Pair Encoding (BPE) alt söz tokenizasiyası üçün təbii dil emalında (NLP) istifadə edilən məşhur alqoritmdir. Onun əsas məqsədi sözləri daha kiçik vahidlərə bölmək, çox vaxt alt söz işarələri, lüğətdən kənar sözləri idarə etmək, nadir sözlərin təsvirini təkmilləşdirmək və daha yaxşı morfoloji variasiyaları tutmaqdır..
BPE-nin necə işlədiyinə dair bir xülasə:
Bayt Cütlük Kodlaşdırma Prosesi (BPE)
Initializasiya
- Fərdi simvollar və ya bayt ardıcıllığı ilə lüğəti işə salmaqla başlayın.
İterativ Birləşmə
-
Korpusda təkrarlayın və ardıcıl işarələrin ən çox rast gəlinən cütünü müəyyənləşdirin.
-
Yeni bir token yaratmaq üçün bu iki tokeni birləşdirin.
-
Bu yeni işarə ilə lüğəti yeniləyin və təkrarlamağa davam edin.
Dayanma Kriteriyası
- Bu proses müəyyən sayda iterasiya üçün və ya müəyyən həddə (məsələn, lüğət ölçüsü və ya korpus əhatəsi) çatana qədər davam edir.
Yekun lüğət
- Yekun lüğət vahid simvollar və birləşmiş alt söz işarələri daxil olmaqla birləşdirilmiş işarələrdən ibarətdir.
Lüğətdən Kənar (OOV) Sözlərlə Mübarizə
-
Lüğətdə olmayan sözlə qarşılaşdıqda, BPE onu lüğətdən alt söz işarələri ardıcıllığı kimi təqdim edə bilər.
-
Naməlum sözləri lüğətdə olan alt söz vahidlərinə bölməklə, OOV sözlərini qismən yenidən quraraq idarə edə bilər.
Mətn Sıxılma və Dil Modelləşdirməsində Tətbiq
-
Mətn sıxılması: BPE-nin tez-tez cütlərin birləşməsi mətnin sıxılmış təsviri ilə nəticələnir. Tez-tez simvol ardıcıllığını daha qısa təsvirlərlə əvəz edir.
-
Dilin Modelləşdirilməsi: BPE sözləri daha kiçik vahidlərə bölməklə daha çevik şəkildə təqdim etməyə imkan verir. Bu, modelə morfoloji variasiyaları tutmağa və nadir və ya əvvəllər görünməmiş sözləri daha effektiv idarə etməyə imkan verir.
Mübadilə və Effektivlik
-
Tərəqqilər: Tokenlərin birləşməsinin iterativ xarakterinə görə BPE-də hesablama əlavə xərcləri var. O, böyük lüğət yarada bilər, yaddaşa və hesablama səmərəliliyinə təsir göstərir. Tokenləşdirmə prosesi də daha böyük korporasiyalar üçün yavaş ola bilər.
-
Effektivlik: BPE morfoloji variasiyaları tutmaqda yüksək effektivdir, xüsusən sözlərin mürəkkəb quruluşa malik olduğu aqqlütinativ dillərdə (məsələn, Fin, Türk). O, həmçinin nadir sözlərlə işləməkdə mahirdir, modelin görünməmiş lüğətə ümumiləşdirmə qabiliyyətini təkmilləşdirir.
Digər Tokenləşdirmə Metodları ilə Müqayisə
-
Vs. Söz əsaslı Tokenləşdirmə: BPE OOV sözlərini sözə əsaslanan metodlardan daha yaxşı idarə edir, lakin daha böyük lüğətlər yarada bilər.
-
Vs. Xarakter əsaslı Tokenləşdirmə: BPE morfoloji məlumatı xarakterə əsaslanan metodlardan daha yaxşı tutur, lakin bəzi sözləri səmərəli şəkildə təmsil etmək üçün daha çox işarə tələb edə bilər.
BPE çox yönlüdür və OOV sözləri ilə işləmək bacarığı, nadir sözləri effektiv şəkildə təmsil etmək və morfoloji məlumatı tutmaq qabiliyyətinə görə onu güclü alt söz işarələmə texnikasına çevirərək müxtəlif NLP tapşırıqlarında geniş istifadə olunur.