Byte Pair Encoding (BPE) - гэта папулярны алгарытм, які выкарыстоўваецца ў апрацоўцы натуральнай мовы (NLP) для токенізацыі падслоў. Яго асноўная мэта - раздзяліць словы на больш дробныя адзінкі, часта лексемы падслоў, апрацаваць словы, якія не ўваходзяць у слоўнікавы запас, палепшыць рэпрэзентацыю рэдкіх слоў і лепш захапіць марфалагічныя варыяцыі.
Вось разбор таго, як працуе BPE:
Працэс кадавання пары байтаў (BPE)
Ініцыялізацыя
- Пачніце з ініцыялізацыі слоўніка асобнымі сімваламі або паслядоўнасцямі байтаў.
Ітэратыўнае зліццё
-
Перабірайце корпус і вызначайце найбольш часта сустракаемую пару паслядоўных токенаў.
-
Зліце гэтыя два токены, каб сфармаваць новы токен.
-
Абнавіце слоўнік з дапамогай гэтага новага токена і працягвайце ітэрацыі.
Крытэрый прыпынку
- Гэты працэс працягваецца на працягу зададзенай колькасці ітэрацый або пакуль не будзе дасягнуты пэўны парог (напрыклад, памер слоўнікавага запасу або ахоп корпуса).
Канчатковы слоўнікавы запас
- Канчатковы слоўнік складаецца з аб'яднаных лексем, уключаючы асобныя сімвалы і аб'яднаныя лексемы падслоў.
Апрацоўка слоў па-за слоўнікам (OOV)
-
Пры сустрэчы са словам, якога няма ў слоўніку, BPE можа прадставіць яго ў выглядзе паслядоўнасці лексем падслоў са слоўніка.
-
Разбіваючы невядомыя словы на падслоўныя адзінкі, знойдзеныя ў слоўніку, ён можа апрацоўваць словы OOV шляхам іх частковай рэканструкцыі.
Ужыванне ў сціску тэксту і мадэляванні мовы
-
Сцісканне тэксту: зліццё частых пар BPE прыводзіць да сціснутага прадстаўлення тэксту. Ён замяняе частыя паслядоўнасці сімвалаў больш кароткімі ўяўленнямі.
-
Мадэляванне мовы: BPE дазваляе больш гнутка прадстаўляць словы, разбіваючы іх на больш дробныя адзінкі. Гэта дазваляе мадэлі ўлоўліваць марфалагічныя варыяцыі і больш эфектыўна апрацоўваць рэдкія або раней нябачаныя словы.
Кампрамісы і эфектыўнасць
-
Кампрамісы: BPE мае вылічальныя выдаткі з-за ітэратыўнага характару зліцця токенаў. Ён можа стварыць вялікі слоўнікавы запас, уплываючы на памяць і эфектыўнасць вылічэнняў. Працэс токенізацыі таксама можа быць павольным для вялікіх корпусаў.
-
Эфектыўнасць: BPE вельмі эфектыўны ў захопе марфалагічных варыяцый, асабліва ў аглютынатыўных мовах (напрыклад, фінскай, турэцкай), дзе словы могуць мець складаную структуру. Ён таксама ўмела апрацоўвае рэдкія словы, паляпшаючы здольнасць мадэлі абагульняць нябачны слоўнік.
Параўнанне з іншымі метадамі токенізацыі
-
Супраць Токенізацыя на аснове слоў: BPE апрацоўвае словы OOV лепш, чым метады на аснове слоў, але можа ствараць больш шырокія слоўнікі.
-
Супраць Токенізацыя на аснове сімвалаў: BPE фіксуе марфалагічную інфармацыю лепш, чым метады на аснове сімвалаў, але можа спатрэбіцца больш токенаў для эфектыўнага прадстаўлення некаторых слоў.
BPE універсальны і шырока выкарыстоўваецца ў розных задачах НЛП дзякуючы сваёй здольнасці апрацоўваць словы OOV, эфектыўна прадстаўляць рэдкія словы і захопліваць марфалагічную інфармацыю, што робіць яго магутнай тэхнікай токенізацыі падслоў.