シーケンス間の機械翻訳モデル

September 03, 2024に更新 2議事録を読みます

機械翻訳がどのように機能するか疑問に思ったことはありますか? Google 翻訳や DeepL などのようなツールを構築するには、数行のコードで十分です。この記事では、シーケンスツーシーケンス (seq2seq) 機械翻訳モデルを作成するプロセスについて説明します。最後には、その仕組みと、展開可能な翻訳モデルの作り方を理解できるようになります。

Seq2Seq モデルを理解する

seq2seq モデルの概念を理解するために、例を見てみましょう。英語の文があると想像してください。

"How are you?"

それをタマジク語に翻訳したいとします。

"Amek tettiliḍ?"

seq2seq モデルはエンコーダーとデコーダーで構成され、これらが連携してこの変換を実行します。

エンコーダー: エンコーダーはソース文「お元気ですか?」を取得し、単語ごとに処理します。情報は コンテキストベクトル と呼ばれる固定長ベクトルにエンコードされます。この例では、エンコーダーは各単語を分析し、文の意味のある表現を作成します。
デコーダ: デコーダはエンコーダからコンテキストベクトルを受け取り、ターゲットセンテンス「Amek tettiliḍ?」の生成を開始します。コンテキストベクトルと以前に生成された単語を考慮して、これを単語ごとに実行します。デコーダは、トレーニング中に検出したパターンに基づいて正しい翻訳を生成することを学習します。

Seq2Seq Schema

データの準備

seq2seq モデルを理解したところで、同じ例を使用してデータの準備について説明しましょう。

機械翻訳モデルをトレーニングするには、ソース言語 (この場合は英語) とターゲット言語 (Tamazight) の両方で整列された文のペアで構成される対訳コーパスが必要です。 Europarl や UN Parallel Corpus などのいくつかのリソースは、膨大な量の多言語データを提供します。

トークン化: データ準備の最初のステップはトークン化です。英語とタマジク語の文を個々のトークンまたは単語に分割します。たとえば、「お元気ですか？」という英語の文章。は [‘How’, ‘are’, ‘you’, ’?’] とタマズ語文 “Amek tettiliḍ?” にトークン化されます。は [‘SOS’, ‘Amek’, ‘tettiliḍ’, ’?’, ‘EOS’] にトークン化されます。 SOS と EOS を使用してシーケンスの開始と終了を示します。
クリーニングと正規化: 次に、トークン化された文に対してクリーニングと正規化を実行します。これには、翻訳プロセスを妨げる可能性のある不要な文字、句読点、または特殊記号を削除することが含まれます。たとえば、トレーニングデータを簡素化するために、英語とタマジク語の両方の文の末尾にある疑問符を削除するとします。

ソース言語とターゲット言語の特性に応じて、追加の言語固有の前処理手順が必要になる場合があります。たとえば、フランス語では、アクセント記号や発音記号などの特殊文字を処理する必要がある場合があります。

語彙の作成: ソース文とターゲット文の両方からユニークな単語を収集して語彙を作成します。次に、各単語に一意のインデックスまたは識別子が割り当てられ、単語埋め込みマップと呼ばれるものが作成されます。これはトレーニングプロセス中に使用されます。

6: "how"
330: "are"
537: "you"

これにより、トークン化された例は次のようになります。

[6, 330, 537] # How Are You
[420, 775] # Amek tettiliḍ

シーケンスパディング: シーケンスの長さを均一にするために、すべてが同じ長さになるように特別なトークン (「PAD」または 0 など) で文をパディングします。ニューラルネットワークは通常、固定長の入力を想定しているため、パディングが必要です。短い文の末尾にパディングトークンを追加することで、等しい長さのシーケンスが作成され、効率的なトレーニングが可能になります。長さは最長の入力文の単語数になります。

たとえば、入力トークンと出力トークンにパディング 13 を適用すると、次の結果が得られます。

[6, 330, 537, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # How Are You
[420, 775, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # Amek tettiliḍ

モデルのトレーニング

データが準備できたら、機械翻訳モデルのトレーニングに進むことができます。データをトレーニングセットと検証セットに分割します。トレーニングセットはトレーニング中にモデルのパラメーターを更新するために使用され、検証セットはモデルのパフォーマンスを監視し、過剰適合を防ぐのに役立ちます。

ニューラルネットワークトレーニング

トレーニング中に、ソース文 (英語) を入力として、対応するターゲット文 (Tamazight) を目的の出力としてモデルに供給します。モデルは、入力シーケンスに基づいて、ターゲット文の予測を単語ごとに生成します。これらの予測は、カテゴリカルクロスエントロピーなどの損失関数を使用して実際のターゲットシーケンスと比較されます。

逆伝播とパラメータの更新

バックプロパゲーションのプロセスを通じて、モデルはそのパラメーターに関する損失の勾配を計算します。これらの勾配は、損失を最小限に抑えるために必要なパラメータ更新の方向と大きさを示します。確率的勾配降下法 (SGD) や Adam などの最適化アルゴリズムは、これらの勾配を使用してモデルのパラメーターを繰り返し更新し、時間の経過とともに予測の精度を高めます。

反復トレーニング

トレーニングプロセスは、複数のエポックにわたって繰り返し発生します。各エポックで、モデルはトレーニングデータセット全体を調べて、パラメーターを更新し、変換パターンの理解を微調整します。このプロセスを繰り返すことで、モデルは正確な翻訳を生成することにますます熟練していきます。

検証と評価

トレーニング全体を通じて、検証セットでのモデルのパフォーマンスを定期的に評価します。この評価は、モデルの進行状況を監視し、必要に応じて調整を行うのに役立ちます。 BLEU (Bilingual Evaluation Understudy) などの指標を使用して翻訳の品質を評価し、参照翻訳と比較できます。

導入

モデルのトレーニングと評価が完了すると、デプロイの準備が整います。 TensorFlow は、TensorFlow Serving、TensorFlow Lite、TensorFlow.js など、機械翻訳モデルをデプロイするためのいくつかのオプションを提供します。 TensorFlow Serving により、REST API を介してモデルを提供できるため、他のアプリケーションと簡単に統合できます。 TensorFlow Lite を使用すると、リソースが限られたモバイルデバイス上でモデルを実行できます。 TensorFlow.js を使用すると、Web ブラウザでのデプロイメントが可能になり、ユーザーが Web サイト上で直接翻訳にアクセスできるようになります。

FastAPI などの Web フレームワークを使用して REST API を構築することもできます。

詳細については、機械学習モデルをデプロイする方法に関する記事を確認することもできます。

＃＃＃継続的改善

機械翻訳モデルの構築は反復的なプロセスです。継続的な改善には、ユーザーのフィードバックを監視し、追加データを収集し、定期的な更新を通じてモデルを改良することが不可欠です。 TensorFlow の柔軟性と拡張性により、進化する要件や新しい言語にモデルを適応させることが容易になります。