Machinevertalingsmodel van reeks tot reeks

Bijgewerkt op September 03, 2024 5 Minuten lezen

Heeft u zich ooit afgevraagd hoe machinevertaling werkt? Er zijn maar weinig regels code genoeg om tools te bouwen die vergelijkbaar zijn met Google Translate, DeepL, enz. In dit artikel begeleiden we u door het proces van het maken van een sequentie-tot-sequentie (seq2seq) machinevertaalmodel. Aan het einde zul je begrijpen hoe het werkt en hoe je een inzetbaar vertaalmodel kunt hebben.

Het Seq2Seq-model begrijpen

Laten we een voorbeeld bekijken om het concept van het seq2seq-model te begrijpen. Stel je voor dat je een zin in het Engels hebt:

"How are you?"

en je wilt het vertalen in Tamazight:

"Amek tettiliḍ?"

Het seq2seq-model bestaat uit een encoder en een decoder, die samenwerken om deze vertaling uit te voeren.

Encoder: De encoder neemt de bronzin, “Hoe gaat het?”, en verwerkt deze woord voor woord. Het codeert de informatie in een vector met een vaste lengte, de contextvector. In ons voorbeeld analyseert de encoder elk woord en creëert een betekenisvolle representatie van de zin.
Decoder: De decoder ontvangt de contextvector van de encoder en begint met het genereren van de doelzin, “Amek tettiliḍ?”. Het doet dit woord voor woord, rekening houdend met de contextvector en de eerder gegenereerde woorden. De decoder leert de juiste vertaling te genereren op basis van de patronen die hij tijdens de training ontdekt.

Seq2Seq Schema

Data voorbereiding

Nu we het seq2seq-model begrijpen, gaan we het hebben over gegevensvoorbereiding aan de hand van hetzelfde voorbeeld.

Om een machinevertaalmodel te trainen is een parallel corpus nodig, dat bestaat uit uitgelijnde zinsparen in zowel de brontaal (in ons geval Engels) als de doeltaal (Tamazight). Verschillende bronnen zoals Europarl en UN Parallel Corpus bieden enorme hoeveelheden meertalige gegevens.

Tokenisatie: De eerste stap bij het voorbereiden van gegevens is tokenisatie. We splitsen de Engelse en Tamazight-zinnen op in individuele tokens of woorden. Bijvoorbeeld de Engelse zin “Hoe gaat het?” zou worden omgezet in [‘Hoe’, ‘zijn’, ‘jij’, ’?’], en de Tamazight-zin “Amek tettiliḍ?” zou worden omgezet in [‘SOS’, ‘Amek’, ‘tettiliḍ’, ’?’, ‘EOS’]. We gebruiken SOS en EOS om het begin en einde van de reeks aan te geven.
Opschoning en normalisatie: Vervolgens voeren we opschoning en normalisatie uit op de tokenized zinnen. Dit omvat het verwijderen van onnodige tekens, interpunctie of speciale symbolen die het vertaalproces kunnen belemmeren. We kunnen bijvoorbeeld het vraagteken aan het einde van zowel de Engelse als de Tamazight-zinnen verwijderen om de trainingsgegevens te vereenvoudigen.

Afhankelijk van de kenmerken van de bron- en doeltaal kunnen aanvullende taalspecifieke voorbewerkingsstappen nodig zijn. In het Frans moeten we bijvoorbeeld mogelijk speciale tekens gebruiken, zoals accenten of diakritische tekens.

Woordenschat creëren: We creëren een vocabulaire door unieke woorden te verzamelen uit zowel de bron- als de doelzinnen. Aan elk woord wordt vervolgens een unieke index of identificatie toegewezen, wat resulteert in wat wij een woordeninbeddingskaart noemen, die tijdens het trainingsproces zal worden gebruikt:

6: "how"
330: "are"
537: "you"

Daarmee zou ons tokenized voorbeeld er als volgt uitzien:

[6, 330, 537] # How Are You
[420, 775] # Amek tettiliḍ

Reeksopvulling: Om uniforme reekslengtes te garanderen, vullen we de zinnen op met speciale tokens (bijvoorbeeld “PAD” of 0), zodat ze allemaal dezelfde lengte hebben. Opvulling is nodig omdat neurale netwerken doorgaans input met een vaste lengte verwachten. Door opvullingstokens aan het einde van kortere zinnen toe te voegen, creëren we reeksen van gelijke lengte, waardoor efficiënte training mogelijk is. De lengte is het aantal woorden van de langste invoerzin.

Als u bijvoorbeeld een opvulling van 13 op onze invoer- en uitvoertokens toepast, krijgt u het volgende resultaat:

[6, 330, 537, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # How Are You
[420, 775, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # Amek tettiliḍ

Modeltraining

Nu de gegevens zijn voorbereid, kunnen we doorgaan met het trainen van ons machinevertaalmodel. We splitsen de gegevens op in trainings- en validatiesets. De trainingsset wordt gebruikt om de parameters van het model tijdens de training bij te werken, terwijl de validatieset ons helpt de prestaties van het model te monitoren en overfitting te voorkomen.

Neurale netwerktraining

Tijdens de training voeden we het model met de bronzinnen (Engels) als input en de bijbehorende doelzinnen (Tamazight) als gewenste output. Het model genereert woord voor woord voorspellingen voor de doelzinnen, op basis van de invoerreeksen. Deze voorspellingen worden vergeleken met de feitelijke doelsequenties met behulp van een verliesfunctie, zoals categorische kruisentropie.

Backpropagatie en parameterupdates

Via het proces van backpropagation berekent het model de gradiënten van het verlies ten opzichte van zijn parameters. Deze gradiënten geven de richting en omvang aan van parameterupdates die nodig zijn om het verlies te minimaliseren. Het optimalisatiealgoritme, zoals stochastische gradiëntafdaling (SGD) of Adam, gebruikt deze gradiënten om de parameters van het model iteratief bij te werken, waardoor de voorspellingen in de loop van de tijd nauwkeuriger worden.

Iteratieve training

Het trainingsproces vindt iteratief plaats over meerdere tijdperken. In elk tijdperk doorloopt het model de volledige trainingsdataset, waarbij de parameters worden bijgewerkt en het begrip van de vertaalpatronen wordt verfijnd. Door dit proces te herhalen, wordt het model steeds bekwamer in het genereren van nauwkeurige vertalingen.

Validatie en evaluatie

Tijdens de training evalueren we periodiek de prestaties van het model op de validatieset. Deze evaluatie helpt ons de voortgang van het model te monitoren en indien nodig bij te sturen. We kunnen statistieken zoals BLEU (Bilingual Evaluation Understudy) gebruiken om de kwaliteit van vertalingen te beoordelen en deze te vergelijken met de referentievertalingen.

Inzet

Zodra het model is getraind en geëvalueerd, is het klaar voor implementatie. TensorFlow biedt verschillende opties voor het implementeren van machinevertaalmodellen, waaronder TensorFlow Serving, TensorFlow Lite en TensorFlow.js. Met TensorFlow Serving kan het model worden bediend via een REST API, waardoor eenvoudige integratie met andere applicaties mogelijk is. TensorFlow Lite maakt het mogelijk om het model op mobiele apparaten met beperkte middelen uit te voeren. TensorFlow.js maakt implementatie in webbrowsers mogelijk, waardoor de vertaling rechtstreeks op websites toegankelijk wordt voor gebruikers.

Een webframework zoals FastAPI kan ook worden gebruikt om een REST API te bouwen.

U kunt ook ons artikel lezen over hoe u uw machine learning-model kunt implementeren voor meer informatie.

Continue verbetering

Het bouwen van een machinevertaalmodel is een iteratief proces. Het monitoren van gebruikersfeedback, het verzamelen van aanvullende gegevens en het verfijnen van het model door middel van regelmatige updates zijn essentieel voor voortdurende verbetering. De flexibiliteit en schaalbaarheid van TensorFlow maken het gemakkelijker om het model aan te passen aan veranderende vereisten en nieuwe talen.