Facebookは、最初に英語を介さずに100の異なる言語を翻訳できるAIを開発しました

Facebookは、今日の人工知能に基づく翻訳ツールでよく見られる、中間ステップとして最初に英語に翻訳する必要がなく、最大100言語での優れた翻訳機能を備えたAIモデルをオープンソース化しました。

このAI モデルはM2M-100 と呼ばれ、現在は研究プロジェクトレベルにすぎません。ただし、開発段階が完了すると（近い将来）、Facebook ユーザーの投稿やコメントを世界中のさまざまな言語から翻訳するタスクを完全に解決するために使用できるようになります。最新の統計によると、現在 Facebook ユーザーの 2/3 以上がこのソーシャルネットワーキングプラットフォームでのコミュニケーションに英語を使用していません。

「当社の AI 研究者は、さまざまな状況やタスクでさまざまな言語を理解できる単一の一般的なモデルを構築および開発するために、長年にわたって懸命に取り組んできました。すべての言語、方言、継続的に更新され最適化された翻訳をサポートする単一のモデルは、数十億の Facebook ユーザーにより良いエクスペリエンスを提供するのに役立ちます」と研究者は述べています。

新しい AI モデルは Facebook 上のさまざまな種類の翻訳をサポートできます

M2M-100 は、すべてインターネットから収集された、100 の異なる言語からの 75 億の共通文ペアのデータセットでトレーニングされています。Facebookは、リソースはすべてオープンソースであり、公開データを使用していると述べている。

このような大規模なトレーニングデータベースを管理するために、Facebook AI 研究者は主に、最も一般的に要求される言語の翻訳に焦点を当て、まれな文や言語は制限します。次に、言語的、地理的、文化的な類似性に基づいて、これらの言語を 14 の異なるグループにグループ化します。上記の共通の特徴を共有する国の人々は、特定の言語グループで最適化された翻訳からより多くの恩恵を受けるため、このアプローチはより最適であると考えられます。

異なるグループに属する言語は、少数のブリッジ言語を通じて接続されます。インド言語グループの例では、ヒンディー語、ベンガル語、タミル語がインド・アーリア語の橋渡し言語として機能します。収集と選択のプロセス全体を通じて、研究者らは、2,200 の翻訳方向に対応する 75 億の並列文からなるデータセットを達成しました。

高品質の翻訳データが不足している言語の場合、研究者は逆翻訳と呼ばれる方法を使用して、マイニングされたデータを補うことができる合成翻訳を作成しました。

全体として、これらの技術の組み合わせにより、データに依存せずに 100 言語のいずれかの間で翻訳できる世界初の多言語機械翻訳 (MMT) モデルが誕生したと Facebook の声明では述べています。

「たとえば、通常、中国語からフランス語に翻訳する場合、現在の多言語翻訳モデルのほとんどは英語中心であり、中国語から英語に、英語からフランス語に翻訳されます。英語のトレーニングデータが最も利用可能であり、人気があるためです。代わりに、英語のトレーニングデータが最も利用可能であり、人気があるためです。このモチーフに従って、私たちのモデルは中国語のデータをフランス語に直接翻訳して、翻訳の意味を最大限に保持することを保証します。」

現在、M2M-100 はまだどの製品にも統合されていませんが、テストの結果、Facebook では依然として 1 時間ごとにコンテンツが投稿されており、160 を超える言語でさまざまな種類の翻訳をサポートできることが示されています。