Naisip mo na ba kung paano gumagana ang machine translation? Sapat na ang ilang linya ng code para makabuo ng mga tool na katulad ng Google Translate, DeepL, atbp. Sa artikulong ito, gagabayan ka namin sa proseso ng paggawa ng sequence-to-sequence (seq2seq) machine translation model. Sa pagtatapos, mauunawaan mo kung paano ito gumagana, at kung paano magkaroon ng nade-deploy na modelo ng pagsasalin.
Pag-unawa sa Seq2Seq Model
Upang maunawaan ang konsepto ng modelo ng seq2seq, sumisid tayo sa isang halimbawa. Isipin na mayroon kang isang pangungusap sa Ingles:
"How are you?"
at gusto mong isalin ito sa Tamazight:
"Amek tettiliḍ?"
Ang modelo ng seq2seq ay binubuo ng isang encoder at isang decoder, na nagtutulungan upang maisagawa ang pagsasaling ito.
-
Encoder: Kinukuha ng encoder ang pinagmulang pangungusap, "Kumusta ka?", at pinoproseso ito ng salita sa bawat salita. Ine-encode nito ang impormasyon sa isang fixed-length na vector na tinatawag na context vector. Sa aming halimbawa, susuriin ng encoder ang bawat salita at lilikha ng makabuluhang representasyon ng pangungusap.
-
Decoder: Natatanggap ng decoder ang context vector mula sa encoder at nagsimulang bumuo ng target na pangungusap, "Amek tettiliḍ?". Ginagawa nito ang salita sa pamamagitan ng salita, na isinasaalang-alang ang vector ng konteksto at ang mga naunang nabuong salita. Natututo ang decoder na bumuo ng tamang pagsasalin batay sa mga pattern na natuklasan nito sa panahon ng pagsasanay.
Paghahanda ng Data
Ngayon na mayroon na tayong pag-unawa sa modelo ng seq2seq, pag-usapan natin ang paghahanda ng data gamit ang parehong halimbawa.
Upang sanayin ang isang modelo ng pagsasalin ng makina, kinakailangan ang isang parallel corpus, na binubuo ng mga nakahanay na pares ng pangungusap sa parehong pinagmulan (Ingles sa aming kaso) at mga target na wika (Tamazight). Maraming mapagkukunan tulad ng Europarl, at UN Parallel Corpus ang nagbibigay ng napakaraming data ng multilingual.
-
Tokenization: Ang unang hakbang sa paghahanda ng data ay tokenization. Hinahati namin ang English at Tamazight na mga pangungusap sa mga indibidwal na token o salita. Halimbawa, ang English na pangungusap na "How are you?" ay tokenized sa ['How', 'are', 'you', '?'], at ang Tamazight sentence na "Amek tettiliḍ?" ay tokenized sa ['SOS', 'Amek', 'tettiliḍ', '?', 'EOS']. Ginagamit namin ang SOS at EOS upang isaad ang simula at pagtatapos ng sequence.
-
Paglilinis at Normalisasyon: Susunod, nagsasagawa kami ng paglilinis at normalisasyon sa mga tokenized na pangungusap. Kabilang dito ang pag-alis ng anumang hindi kinakailangang mga character, bantas, o mga espesyal na simbolo na maaaring makahadlang sa proseso ng pagsasalin. Halimbawa, maaari naming alisin ang tandang pananong sa dulo ng parehong English at Tamazight na mga pangungusap upang pasimplehin ang data ng pagsasanay.
Depende sa mga katangian ng pinagmulan at target na mga wika, maaaring kailanganin ang mga karagdagang hakbang sa preprocessing na partikular sa wika. Halimbawa, sa French, maaaring kailanganin nating pangasiwaan ang mga espesyal na character tulad ng mga accent o diacritics.
- Paglikha ng Bokabularyo: Lumilikha kami ng isang bokabularyo sa pamamagitan ng pagkolekta ng mga natatanging salita mula sa parehong pinagmulan at target na mga pangungusap. Ang bawat salita ay pagkatapos ay itatalaga ng isang natatanging index o identifier, na nagreresulta sa tinatawag nating isang salita na naglalagay ng mapa, na gagamitin sa panahon ng proseso ng pagsasanay:
6: "how"
330: "are"
537: "you"
Sa pamamagitan nito ang aming tokenized na halimbawa ay magiging ganito:
[6, 330, 537] # How Are You
[420, 775] # Amek tettiliḍ
- Sequence Padding: Para matiyak ang pare-parehong haba ng sequence, nilagyan namin ang mga pangungusap ng mga espesyal na token (hal., "PAD", o 0) para magkapareho ang haba ng mga ito. Kinakailangan ang padding dahil karaniwang inaasahan ng mga neural network ang mga fixed-length na input. Sa pamamagitan ng pagdaragdag ng mga padding token sa dulo ng mas maiikling mga pangungusap, gumagawa kami ng pantay na haba ng mga pagkakasunud-sunod, na nagbibigay-daan sa mahusay na pagsasanay. Ang haba ay ang bilang ng mga salita ng pinakamahabang input na pangungusap.
Halimbawa, ang paglalapat ng padding na 13 sa aming input at output token ay magbibigay ng sumusunod na resulta:
[6, 330, 537, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # How Are You
[420, 775, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # Amek tettiliḍ
Pagsasanay ng Modelo
Gamit ang data na inihanda, maaari kaming magpatuloy sa pagsasanay sa aming modelo ng pagsasalin ng makina. Hinati namin ang data sa mga set ng pagsasanay at pagpapatunay. Ang set ng pagsasanay ay ginagamit upang i-update ang mga parameter ng modelo sa panahon ng pagsasanay, habang ang hanay ng pagpapatunay ay tumutulong sa amin na subaybayan ang pagganap ng modelo at maiwasan ang overfitting.
Pagsasanay sa Neural Network
Sa panahon ng pagsasanay, pinapakain namin ang modelo ng mga pinagmulang pangungusap (Ingles) bilang input at ang kaukulang target na mga pangungusap (Tamazight) bilang nais na output. Ang modelo ay bumubuo ng mga hula para sa mga target na pangungusap, bawat salita, batay sa mga pagkakasunud-sunod ng input. Ang mga hulang ito ay inihahambing sa aktwal na target na mga pagkakasunud-sunod gamit ang isang function ng pagkawala, tulad ng kategoryang cross-entropy.
Backpropagation at Mga Update ng Parameter
Sa pamamagitan ng proseso ng backpropagation, kinakalkula ng modelo ang mga gradient ng pagkawala na may paggalang sa mga parameter nito. Isinasaad ng mga gradient na ito ang direksyon at magnitude ng mga pag-update ng parameter na kailangan para mabawasan ang pagkawala. Ginagamit ng algorithm ng pag-optimize, gaya ng stochastic gradient descent (SGD) o Adam, ang mga gradient na ito upang paulit-ulit na i-update ang mga parameter ng modelo, na ginagawang mas tumpak ang mga hula sa paglipas ng panahon
Paulit-ulit na Pagsasanay
Ang proseso ng pagsasanay ay nangyayari nang paulit-ulit sa maraming panahon. Sa bawat panahon, dumaraan ang modelo sa buong dataset ng pagsasanay, ina-update ang mga parameter nito at pino-pino ang pag-unawa nito sa mga pattern ng pagsasalin. Sa pamamagitan ng pag-uulit ng prosesong ito, nagiging mas mahusay ang modelo sa pagbuo ng mga tumpak na pagsasalin.
Pagpapatunay at Pagsusuri
Sa buong pagsasanay, pana-panahon naming sinusuri ang pagganap ng modelo sa set ng pagpapatunay. Tinutulungan kami ng pagsusuring ito na subaybayan ang pag-unlad ng modelo at gumawa ng mga pagsasaayos kung kinakailangan. Maaari kaming gumamit ng mga sukatan tulad ng BLEU (Bilingual Evaluation Understudy) upang masuri ang kalidad ng mga pagsasalin at ihambing ang mga ito sa mga sangguniang pagsasalin.
Deployment
Kapag ang modelo ay nasanay at nasuri, ito ay handa na para sa pag-deploy. Nagbibigay ang TensorFlow ng ilang opsyon para sa pag-deploy ng mga modelo ng pagsasalin ng machine, kabilang ang TensorFlow Serving, TensorFlow Lite, at TensorFlow.js. Binibigyang-daan ng TensorFlow Serving ang paghahatid ng modelo sa pamamagitan ng REST API, na nagbibigay-daan sa madaling pagsasama sa iba pang mga application. Ang TensorFlow Lite ay nagbibigay-daan sa pagpapatakbo ng modelo sa mga mobile device na may limitadong mapagkukunan. Ang TensorFlow.js ay nagbibigay-daan sa pag-deploy sa mga web browser, na ginagawang naa-access ng mga user ang pagsasalin nang direkta sa mga website.
Magagamit din ang web framework gaya ng FastAPI para bumuo ng REST API.
Maaari mo ring tingnan ang aming artikulo sa paano i-deploy ang iyong modelo ng machine learning para sa higit pang mga detalye.
Patuloy na Pagpapabuti
Ang pagbuo ng modelo ng pagsasalin ng makina ay isang umuulit na proseso. Ang pagsubaybay sa feedback ng user, pagkolekta ng karagdagang data, at pagpino sa modelo sa pamamagitan ng mga regular na update ay mahalaga para sa patuloy na pagpapabuti. Pinapadali ng flexibility at scalability ng TensorFlow na iakma ang modelo sa mga umuusbong na kinakailangan at mga bagong wika.