Мадэль машыннага перакладу паслядоўнасці

Абноўлены на September 24, 2024 5 Прачытаныя хвіліны

Ці задумваліся вы, як працуе машынны пераклад? Некалькі радкоў кода дастаткова для стварэння інструментаў, падобных на Google Translate, DeepL і г. д. У гэтым артыкуле мы раскажам вам працэс стварэння мадэлі машыннага перакладу паслядоўнасці (seq2seq). У канцы вы зможаце зразумець, як гэта працуе і як стварыць мадэль перакладу, якую можна разгарнуць.

Разуменне мадэлі Seq2Seq

Каб зразумець канцэпцыю мадэлі seq2seq, давайце паглыбімся ў прыклад. Уявіце, што ў вас ёсць сказ на англійскай мове:

"How are you?"

і вы хочаце перакласці яго на тамазігх:

"Amek tettiliḍ?"

Мадэль seq2seq складаецца з кадавальніка і дэкодэра, якія працуюць разам, каб выканаць гэты пераклад.

Кадавальнік: Кадавальнік бярэ зыходны сказ «Як справы?» і апрацоўвае яго слова за словам. Ён кадуе інфармацыю ў вектар фіксаванай даўжыні, які называецца кантэкстны вектар. У нашым прыкладзе кадавальнік будзе аналізаваць кожнае слова і ствараць значнае прадстаўленне прапановы.
Дэкодэр: Дэкодэр атрымлівае кантэкстны вектар ад кадавальніка і пачынае генераваць мэтавы сказ “Amek tettiliḍ?”. Ён робіць гэта слова за словам, улічваючы вектар кантэксту і раней згенераваныя словы. Дэкодэр вучыцца генераваць правільны пераклад на аснове шаблонаў, якія ён выяўляе падчас навучання.

Seq2Seq Schema

Падрыхтоўка дадзеных

Цяпер, калі мы разумеем мадэль seq2seq, давайце пагаворым аб падрыхтоўцы даных на тым жа прыкладзе.

Для навучання мадэлі машыннага перакладу патрабуецца паралельны корпус, які складаецца з выраўнаваных пар прапаноў як на зыходнай (у нашым выпадку англійскай), так і на мовах перакладу (тамазігхт). Некалькі рэсурсаў, такіх як Europarl і Паралельны корпус ААН, забяспечваюць вялікую колькасць шматмоўных даных.

Такенізацыя: Першы крок у падрыхтоўцы даных - гэта токенізацыя. Мы разбіваем сказы англійскай мовы і тамазігта на асобныя лексемы або словы. Напрыклад, ангельскі сказ “How are you?” будзе лексемізавана ў [‘Як’, ‘гэта’, ‘ты’, ’?’], а тамазігцкі сказ “Amek tettiliḍ?” будзе лексемізавана ў [‘SOS’, ‘Amek’, ‘tettiliḍ’, ’?’, ‘EOS’]. Мы выкарыстоўваем SOS і EOS, каб пазначыць пачатак і канец паслядоўнасці.
Ачыстка і нармалізацыя: Далей мы выконваем ачыстку і нармалізацыю токенізаваных прапаноў. Гэта прадугледжвае выдаленне любых непатрэбных сімвалаў, знакаў прыпынку або спецыяльных сімвалаў, якія могуць перашкаджаць працэсу перакладу. Напрыклад, мы можам выдаліць знак пытання ў канцы прапаноў на англійскай і тамазайтскай мовах, каб спрасціць навучальныя даныя.

У залежнасці ад характарыстык зыходнай і мэтавай моў могуць спатрэбіцца дадатковыя этапы папярэдняй апрацоўкі для канкрэтнай мовы. Напрыклад, у французскай мове нам можа спатрэбіцца апрацоўваць спецыяльныя сімвалы, такія як акцэнты або дыякрытычныя знакі.

Стварэнне слоўніка: Мы ствараем слоўнік, збіраючы унікальныя словы з зыходных і мэтавых прапаноў. Затым кожнаму слову прысвойваецца ўнікальны індэкс або ідэнтыфікатар, у выніку чаго атрымліваецца тое, што мы называем картай убудавання слоў, якая будзе выкарыстоўвацца ў працэсе навучання:

6: "how"
330: "are"
537: "you"

Пры гэтым наш токенізаваны прыклад будзе выглядаць так:

[6, 330, 537] # How Are You
[420, 775] # Amek tettiliḍ

Запаўненне паслядоўнасці: Каб забяспечыць аднолькавую даўжыню паслядоўнасці, мы запаўняем сказы адмысловымі маркерамі (напрыклад, «PAD» або 0), каб усе яны мелі аднолькавую даўжыню. Запаўненне неабходна, таму што нейронавыя сеткі звычайна чакаюць ўваходных дадзеных фіксаванай даўжыні. Дадаючы маркеры запаўнення ў канцы кароткіх прапаноў, мы ствараем паслядоўнасці роўнай даўжыні, што дазваляе эфектыўна навучаць. Даўжыня - гэта колькасць слоў у самым доўгім уведзеным сказе.

Напрыклад, прымяненне запаўнення 13 да нашых маркераў уводу і вываду дасць наступны вынік:

[6, 330, 537, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # How Are You
[420, 775, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # Amek tettiliḍ

Мадэль Навучанне

З падрыхтаванымі дадзенымі мы можам працягваць навучанне нашай мадэлі машыннага перакладу. Мы разбіваем даныя на наборы для навучання і праверкі. Навучальны набор выкарыстоўваецца для абнаўлення параметраў мадэлі падчас навучання, у той час як набор праверкі дапамагае нам кантраляваць прадукцыйнасць мадэлі і прадухіляць пераабсталяванне.

Навучанне нейронавай сеткі

Падчас навучання мы падаем мадэль зыходнымі сказамі (на англійскай мове) у якасці ўваходных дадзеных і адпаведнымі мэтавымі сказамі (тамазайт) у якасці жаданага выхаду. Мадэль стварае прагнозы для мэтавых прапаноў, слова за словам, на аснове ўваходных паслядоўнасцей. Гэтыя прагнозы параўноўваюцца з рэальнымі мэтавымі паслядоўнасцямі з дапамогай функцыі страт, напрыклад, катэгарыяльнай крос-энтрапіі.

Зваротнае распаўсюджванне і абнаўленне параметраў

З дапамогай працэсу зваротнага распаўсюджвання мадэль разлічвае градыенты страт адносна сваіх параметраў. Гэтыя градыенты паказваюць кірунак і велічыню абнаўленняў параметраў, неабходных для мінімізацыі страт. Алгарытм аптымізацыі, напрыклад, стахастычны градыентны спуск (SGD) або Адам, выкарыстоўвае гэтыя градыенты для ітэрацыйнага абнаўлення параметраў мадэлі, робячы прагнозы з часам больш дакладнымі

Ітэрацыйнае навучанне

Працэс навучання адбываецца перыядычна на працягу некалькіх эпох. У кожную эпоху мадэль праходзіць увесь навучальны набор даных, абнаўляючы свае параметры і ўдакладняючы сваё разуменне шаблонаў трансляцыі. Паўтараючы гэты працэс, мадэль становіцца ўсё больш дасведчанай у стварэнні дакладных перакладаў.

Праверка і ацэнка

На працягу навучання мы перыядычна ацэньваем прадукцыйнасць мадэлі на наборы праверкі. Гэтая ацэнка дапамагае нам кантраляваць ход мадэлі і пры неабходнасці ўносіць карэктывы. Мы можам выкарыстоўваць такія паказчыкі, як BLEU (Bilingual Evaluation Understudy), каб ацаніць якасць перакладаў і параўнаць іх з эталоннымі перакладамі.

Разгортванне

Пасля навучання і ацэнкі мадэль гатовая да разгортвання. TensorFlow прапануе некалькі варыянтаў для разгортвання мадэляў машыннага перакладу, у тым ліку TensorFlow Serving, TensorFlow Lite і TensorFlow.js. TensorFlow Serving дазваляе абслугоўваць мадэль праз REST API, забяспечваючы лёгкую інтэграцыю з іншымі праграмамі. TensorFlow Lite дазваляе запускаць мадэль на мабільных прыладах з абмежаванымі рэсурсамі. TensorFlow.js дазваляе разгортванне ў вэб-браўзерах, што робіць пераклад даступным для карыстальнікаў непасрэдна на вэб-сайтах.

Вэб-фреймворк, такі як FastAPI, таксама можна выкарыстоўваць для стварэння REST API.

Вы таксама можаце азнаёміцца з нашым артыкулам пра як разгарнуць вашу мадэль машыннага навучання для атрымання дадатковай інфармацыі.

Пастаяннае ўдасканаленне

Пабудова мадэлі машыннага перакладу - гэта ітэрацыйны працэс. Маніторынг водгукаў карыстальнікаў, збор дадатковых даных і ўдасканаленне мадэлі шляхам рэгулярных абнаўленняў неабходныя для пастаяннага паляпшэння. Гнуткасць і маштабаванасць TensorFlow палягчаюць адаптацыю мадэлі да новых патрабаванняў і новых моў.