Кадаванне пары байтаў (BPE) у апрацоўцы натуральнай мовы (NLP)

Абноўлены на September 24, 2024 2 Прачытаныя хвіліны

Byte Pair Encoding (BPE) - гэта папулярны алгарытм, які выкарыстоўваецца ў апрацоўцы натуральнай мовы (NLP) для токенізацыі падслоў. Яго асноўная мэта - раздзяліць словы на больш дробныя адзінкі, часта лексемы падслоў, апрацаваць словы, якія не ўваходзяць у слоўнікавы запас, палепшыць рэпрэзентацыю рэдкіх слоў і лепш захапіць марфалагічныя варыяцыі.

Вось разбор таго, як працуе BPE:

Працэс кадавання пары байтаў (BPE)

Ініцыялізацыя

Пачніце з ініцыялізацыі слоўніка асобнымі сімваламі або паслядоўнасцямі байтаў.

Ітэратыўнае зліццё

Перабірайце корпус і вызначайце найбольш часта сустракаемую пару паслядоўных токенаў.
Зліце гэтыя два токены, каб сфармаваць новы токен.
Абнавіце слоўнік з дапамогай гэтага новага токена і працягвайце ітэрацыі.

Крытэрый прыпынку

Гэты працэс працягваецца на працягу зададзенай колькасці ітэрацый або пакуль не будзе дасягнуты пэўны парог (напрыклад, памер слоўнікавага запасу або ахоп корпуса).

Канчатковы слоўнікавы запас

Канчатковы слоўнік складаецца з аб’яднаных лексем, уключаючы асобныя сімвалы і аб’яднаныя лексемы падслоў.

Апрацоўка слоў па-за слоўнікам (OOV)

Пры сустрэчы са словам, якога няма ў слоўніку, BPE можа прадставіць яго ў выглядзе паслядоўнасці лексем падслоў са слоўніка.
Разбіваючы невядомыя словы на падслоўныя адзінкі, знойдзеныя ў слоўніку, ён можа апрацоўваць словы OOV шляхам іх частковай рэканструкцыі.

Ужыванне ў сціску тэксту і мадэляванні мовы

Сцісканне тэксту: зліццё частых пар BPE прыводзіць да сціснутага прадстаўлення тэксту. Ён замяняе частыя паслядоўнасці сімвалаў больш кароткімі ўяўленнямі.
Мадэляванне мовы: BPE дазваляе больш гнутка прадстаўляць словы, разбіваючы іх на больш дробныя адзінкі. Гэта дазваляе мадэлі ўлоўліваць марфалагічныя варыяцыі і больш эфектыўна апрацоўваць рэдкія або раней нябачаныя словы.

Кампрамісы і эфектыўнасць

Кампрамісы: BPE мае вылічальныя выдаткі з-за ітэратыўнага характару зліцця токенаў. Ён можа стварыць вялікі слоўнікавы запас, уплываючы на памяць і эфектыўнасць вылічэнняў. Працэс токенізацыі таксама можа быць павольным для вялікіх корпусаў.
Эфектыўнасць: BPE вельмі эфектыўны ў захопе марфалагічных варыяцый, асабліва ў аглютынатыўных мовах (напрыклад, фінскай, турэцкай), дзе словы могуць мець складаную структуру. Ён таксама ўмела апрацоўвае рэдкія словы, паляпшаючы здольнасць мадэлі абагульняць нябачны слоўнік.

Параўнанне з іншымі метадамі токенізацыі

Супраць Токенізацыя на аснове слоў: BPE апрацоўвае словы OOV лепш, чым метады на аснове слоў, але можа ствараць больш шырокія слоўнікі.
Супраць Токенізацыя на аснове сімвалаў: BPE фіксуе марфалагічную інфармацыю лепш, чым метады на аснове сімвалаў, але можа спатрэбіцца больш токенаў для эфектыўнага прадстаўлення некаторых слоў.

BPE універсальны і шырока выкарыстоўваецца ў розных задачах НЛП дзякуючы сваёй здольнасці апрацоўваць словы OOV, эфектыўна прадстаўляць рэдкія словы і захопліваць марфалагічную інфармацыю, што робіць яго магутнай тэхнікай токенізацыі падслоў.