マイクロソフトの AI は人の声を模倣するのに 3 秒かかる

Microsoft が作成した AI である Vall-E は、実際の人の声を 3 秒間聞くことで、その人の口調や話し方を模倣することができますが、それでもロボットの声のように聞こえます。

マイクロソフトのAI Val-E。イラスト写真：VallE-Demo.

Microsoft のこの AI システムは「ニューラルコーデック言語モデル」と呼ばれます。コーデックは、アルゴリズムを使用してビデオを処理し、バイトストリームに保存するツールです。オーディオファイルまたはビデオファイルは、さまざまな目的のために縮小され、解凍されます。

Vall-E は、2022 年に Meta によって開発された機械学習技術を使用したオーディオコーデックである EnCodec プラットフォーム上で Microsoft によって構築されました。Vall-E は、各人の音声をキャプチャして分析することで独自の音声コーデックを作成し、その情報は EnCodec を通じて「トークン」と呼ばれる部分に分割されます。これは、通常は波形で行われる以前のテキスト読み上げ方式とは異なります。

次に、Vall-E はトレーニングデータを使用して、音声のイントネーションについて「知っている」内容と一致させるため、「学習した」内容に応じて他のフレーズを言うことができます。

この音声模倣プロセス全体は 3 秒で完了します。これは、今日の言語模倣 AI システムによってこれまでに達成されたことはありません。

Microsoft は、7,000 人以上からの 60,000 時間分の英語を収録したライブラリを Vall-E のトレーニングに使用しています。このライブラリは、時間の経過とともにさらに多くの言語で追加される予定です。

MicrosoftはVall-Eが高品質の音声合成ソフトウェアに適用されることを期待している。

しかし、Vall-E は悪意のある目的に使用される可能性があると専門家を心配させています。この AI は、悪者が詐欺や恐喝を目的として音声を偽装するために使用される可能性があります。この AI がディープフェイク動画と組み合わされると、危険性のレベルは何倍にもなる可能性があります。