Sequenz-zu-Sequenz-Maschinenübersetzungsmodell

Aktualisiert am November 15, 2024 Lesedauer: 5 Minuten

Haben Sie sich jemals gefragt, wie maschinelle Übersetzung funktioniert? Wenige Zeilen Code reichen aus, um Tools ähnlich wie Google Translate, DeepL usw. zu erstellen. In diesem Artikel führen wir Sie durch den Prozess der Erstellung eines maschinellen Übersetzungsmodells von Sequenz zu Sequenz (seq2seq). Am Ende werden Sie verstehen, wie es funktioniert und wie Sie ein einsetzbares Übersetzungsmodell erhalten.

Das Seq2Seq-Modell verstehen

Um das Konzept des seq2seq-Modells zu verstehen, schauen wir uns ein Beispiel an. Stellen Sie sich vor, Sie haben einen Satz auf Englisch:

"How are you?"

und Sie möchten es in Tamazight übersetzen:

"Amek tettiliḍ?"

Das seq2seq-Modell besteht aus einem Encoder und einem Decoder, die zusammenarbeiten, um diese Übersetzung durchzuführen.

Encoder: Der Encoder nimmt den Quellsatz „Wie geht es dir?“ und verarbeitet ihn Wort für Wort. Es kodiert die Informationen in einen Vektor fester Länge, den sogenannten Kontextvektor. In unserem Beispiel würde der Encoder jedes Wort analysieren und eine aussagekräftige Darstellung des Satzes erstellen.
Decoder: Der Decoder empfängt den Kontextvektor vom Encoder und beginnt mit der Generierung des Zielsatzes „Amek tettiliḍ?“. Dies geschieht Wort für Wort unter Berücksichtigung des Kontextvektors und der zuvor generierten Wörter. Der Decoder lernt, die richtige Übersetzung basierend auf den Mustern zu generieren, die er während des Trainings entdeckt.

Seq2Seq Schema

Datenvorbereitung

Nachdem wir nun das seq2seq-Modell verstanden haben, sprechen wir anhand desselben Beispiels über die Datenvorbereitung.

Um ein maschinelles Übersetzungsmodell zu trainieren, ist ein paralleler Korpus erforderlich, der aus ausgerichteten Satzpaaren sowohl in der Ausgangssprache (in unserem Fall Englisch) als auch in der Zielsprache (Tamazight) besteht. Mehrere Ressourcen wie Europarl und UN Parallel Corpus stellen große Mengen mehrsprachiger Daten bereit.

Tokenisierung: Der erste Schritt bei der Datenvorbereitung ist die Tokenisierung. Wir zerlegen die englischen und Tamazight-Sätze in einzelne Token oder Wörter. Zum Beispiel der englische Satz „How are you?“ würde in [‘Wie’, ‘sind’, ‘du’, ’?’] und den Tamazight-Satz „Amek tettiliḍ?“ tokenisiert werden. würde in [‘SOS’, ‘Amek’, ‘tettiliḍ’, ’?’, ‘EOS’] tokenisiert werden. Wir verwenden SOS und EOS, um den Beginn und das Ende der Sequenz anzuzeigen.
Bereinigung und Normalisierung: Als nächstes führen wir eine Bereinigung und Normalisierung der tokenisierten Sätze durch. Dabei werden alle unnötigen Zeichen, Satzzeichen oder Sonderzeichen entfernt, die den Übersetzungsprozess behindern könnten. Beispielsweise könnten wir das Fragezeichen am Ende sowohl der englischen als auch der Tamazight-Sätze entfernen, um die Trainingsdaten zu vereinfachen.

Abhängig von den Eigenschaften der Ausgangs- und Zielsprache können zusätzliche sprachspezifische Vorverarbeitungsschritte erforderlich sein. Im Französischen müssen wir beispielsweise möglicherweise mit Sonderzeichen wie Akzenten oder diakritischen Zeichen umgehen.

Vokabularerstellung: Wir erstellen ein Vokabular, indem wir einzigartige Wörter sowohl aus den Ausgangs- als auch aus den Zielsätzen sammeln. Jedem Wort wird dann ein eindeutiger Index oder Bezeichner zugewiesen, was zu einer sogenannten Worteinbettungskarte führt, die während des Trainingsprozesses verwendet wird:

6: "how"
330: "are"
537: "you"

Damit würde unser tokenisiertes Beispiel so aussehen:

[6, 330, 537] # How Are You
[420, 775] # Amek tettiliḍ

Sequenzauffüllung: Um einheitliche Sequenzlängen zu gewährleisten, füllen wir die Sätze mit speziellen Token (z. B. „PAD“ oder 0) auf, sodass sie alle die gleiche Länge haben. Das Auffüllen ist notwendig, da neuronale Netze normalerweise Eingaben mit fester Länge erwarten. Durch das Hinzufügen von Füllzeichen am Ende kürzerer Sätze erstellen wir Sequenzen gleicher Länge und ermöglichen so ein effizientes Training. Die Länge wäre die Anzahl der Wörter des längsten Eingabesatzes.

Das Anwenden einer Auffüllung von 13 auf unsere Eingabe- und Ausgabetoken führt beispielsweise zu folgendem Ergebnis:

[6, 330, 537, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # How Are You
[420, 775, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # Amek tettiliḍ

Modellschulung

Mit den vorbereiteten Daten können wir mit dem Training unseres maschinellen Übersetzungsmodells fortfahren. Wir teilen die Daten in Trainings- und Validierungssätze auf. Der Trainingssatz wird verwendet, um die Parameter des Modells während des Trainings zu aktualisieren, während der Validierungssatz uns hilft, die Leistung des Modells zu überwachen und eine Überanpassung zu verhindern.

Training für neuronale Netze

Während des Trainings füttern wir das Modell mit den Quellsätzen (Englisch) als Eingabe und den entsprechenden Zielsätzen (Tamazight) als gewünschter Ausgabe. Das Modell generiert Wort für Wort Vorhersagen für die Zielsätze basierend auf den Eingabesequenzen. Diese Vorhersagen werden mithilfe einer Verlustfunktion, beispielsweise der kategorialen Kreuzentropie, mit den tatsächlichen Zielsequenzen verglichen.

Backpropagation und Parameteraktualisierungen

Durch den Backpropagation-Prozess berechnet das Modell die Verlustgradienten in Bezug auf seine Parameter. Diese Gradienten geben die Richtung und das Ausmaß der Parameteraktualisierungen an, die zur Minimierung des Verlusts erforderlich sind. Der Optimierungsalgorithmus, beispielsweise der stochastische Gradientenabstieg (SGD) oder Adam, verwendet diese Gradienten, um die Parameter des Modells iterativ zu aktualisieren und so die Vorhersagen im Laufe der Zeit genauer zu machen

Iteratives Training

Der Trainingsprozess erfolgt iterativ über mehrere Epochen. In jeder Epoche durchläuft das Modell den gesamten Trainingsdatensatz, aktualisiert seine Parameter und verfeinert sein Verständnis der Übersetzungsmuster. Durch die Wiederholung dieses Vorgangs wird das Modell immer besser in der Lage, genaue Übersetzungen zu generieren.

Validierung und Bewertung

Während des Trainings bewerten wir regelmäßig die Leistung des Modells anhand des Validierungssatzes. Diese Auswertung hilft uns, den Fortschritt des Modells zu überwachen und bei Bedarf Anpassungen vorzunehmen. Wir können Metriken wie BLEU (Bilingual Evaluation Understudy) verwenden, um die Qualität von Übersetzungen zu bewerten und sie mit den Referenzübersetzungen zu vergleichen.

Bereitstellung

Sobald das Modell trainiert und bewertet wurde, ist es für den Einsatz bereit. TensorFlow bietet mehrere Optionen für die Bereitstellung maschineller Übersetzungsmodelle, darunter TensorFlow Serving, TensorFlow Lite und TensorFlow.js. TensorFlow Serving ermöglicht die Bereitstellung des Modells über eine REST-API und ermöglicht so eine einfache Integration mit anderen Anwendungen. TensorFlow Lite ermöglicht die Ausführung des Modells auf Mobilgeräten mit begrenzten Ressourcen. TensorFlow.js ermöglicht die Bereitstellung in Webbrowsern und macht die Übersetzung für Benutzer direkt auf Websites zugänglich.

Ein Webframework wie FastAPI kann auch zum Erstellen einer REST-API verwendet werden.

Weitere Informationen finden Sie auch in unserem Artikel zum So stellen Sie Ihr Machine-Learning-Modell bereit.

Kontinuierliche Verbesserung

Der Aufbau eines maschinellen Übersetzungsmodells ist ein iterativer Prozess. Die Überwachung des Benutzerfeedbacks, das Sammeln zusätzlicher Daten und die Verfeinerung des Modells durch regelmäßige Updates sind für eine kontinuierliche Verbesserung unerlässlich. Die Flexibilität und Skalierbarkeit von TensorFlow erleichtern die Anpassung des Modells an sich ändernde Anforderungen und neue Sprachen.

Meistern Sie Maschinelles Lernen mit Code Labs Academy! Nehmen Sie an unserem Online-Bootcamp teil – flexible Teilzeit- und Vollzeitoptionen verfügbar.