Microsoft の AI はわずか 200 のトレーニング サンプルでリアルな音声を作成します

Microsoft の AI はわずか 200 のトレーニング サンプルでリアルな音声を作成します

最新のテキスト読み上げアルゴリズムは、驚くべき機能を備えています。最も明らかな証拠は、Google が最近リリースした SpecAugment と Translatotron という 2 つのオープンソース ツールです。特に、Translatotron は、文の調子やイントネーションを維持しながら、人の発話を別の言語に直接完全に翻訳できます。しかし、テクノロジーにおける創造性は無限であり、より驚異的なものを生み出す余地は常にあります。

Microsoft の AI はわずか 200 のトレーニング サンプルでリアルな音声を作成します

Microsoft の人工知能研究者は最近、「ほぼ教師なしのテキスト読み上げと自動音声認識」というタイトルの論文を発表し、教師なし学習を活用する AI システムについて詳しく説明しています。ラベルなし、分類されていない、フォーマットされていないテスト データから。マイクロソフトのこの AI システムは、読解と文書処理の精度が最大 99.84% に達し、同時に自動音声シミュレーション能力も 11.7% に向上したことで大きな話題となりました。さらに驚くべきことに、この高度な機械学習モデルは、入力トレーニング データとして 200 個のオーディオ クリップと対応する文字起こしを使用するだけで済みます。

この AI モデル開発の鍵となるのは、Google の AI 研究部門である Google Brain の科学者チームによって構築されたニューラル アーキテクチャの一種であるトランスフォーマーであり、2017 年に詳細なテクノロジー記事で紹介されました。他のディープ ニューラル ネットワークと同様、トランスフォーマーも含まれるニューロン(生物学的ニューロンによって「緩やかに」モデル化された数学的関数)は相互接続された層に配置され、入力データから「信号」を送信し、各接続のシナプスの強さ(重み)を段階的に調整します(これにより、モデルが特徴を抽出し、学習する方法が決まります)予測を行います)。ただし、Transformer には独自の機能もあります。すべての出力要素がすべての入力要素に接続され、それらの間の重みが非常に柔軟に計算されます。

Microsoft の AI はわずか 200 のトレーニング サンプルでリアルな音声を作成します

この現実から、Microsoft の研究者は Transformer コンポーネントを AI システム設計に組み込むことを進め、音声やテキストを入力または出力データとして受信できるようにしました。そして研究者らは、AI システムのトレーニング データとして、公開されている LJSpeech データ ソース (13,100 の英語音声の抜粋と対応するトランスクリプト (トランスクリプト) が含まれている) を使用することにしました。次に、研究チームは、上記の 13,100 の音声抜粋から 200 をランダムに選択してトレーニング データ セットを作成し、また、自動ノイズ除去エンコーディング コンポーネントを利用してデータを再構築しましたが、音声とテキストの構造は壊れています。

結果は全く悪くありません。それぞれの小さな断片を観察すると、研究者らは、テストで使用された基本的なアルゴリズムよりも優れた結果が得られることを発見しました。そして、結果として得られるサンプルのいくつかは、人間が作成したものとほとんど同じように聞こえます。

たとえば、「印刷された文字の形式は美しくなければならず、ページ上の配置は合理的であり、文字自体の形状を助けるものでなければなりません」という文は、次のように解釈されます。

または、「特に、鋳造設定や美しい文字の印刷に時間やコストがかからないため」という文:

今後、研究者の目標は、高度な手法の助けを借りて、ペアになっていないテキストと音声のデータを最大限に活用することで、教師なし学習テクノロジーの限界を押し上げることです。「このタスクのために、私たちはテキスト読み上げと自動音声認識のためのほぼ教師なしのアプローチを提案しました。これは、少数の連結されたテキストと連結された音声データ、および少量の追加の非連結データのみを使用します。実験で実証されたように、私たちの設計コンポーネントは、連結されたデータを含む音声とテキストを変換する機能を開発するために不可欠です。

このプロジェクトの詳細は、6 月 10 日から 15 日までカリフォルニア州ロングビーチで開催される機械学習に関する国際会議で Microsoft によって発表される予定で、研究チームは今後数週間以内にオープンソース リリースも計画しています。


ChatGPTタスクフォースはヨーロッパによって設立されます

ChatGPTタスクフォースはヨーロッパによって設立されます

欧州の国家プライバシー監視団体を統合する団体は木曜日、ChatGPT専用の対策委員会を設置したと発表した。

AI は人間の死亡時刻を 78% の精度で予測します

AI は人間の死亡時刻を 78% の精度で予測します

デンマークとアメリカの科学者は共同で、人間の死亡時刻を高精度で予測できる life2vec と呼ばれる AI システムを開発しました。

AIが尿音だけで泌尿器疾患を予測

AIが尿音だけで泌尿器疾患を予測

Audioflow と呼ばれる AI アルゴリズムは、排尿音を聞いて、異常な排尿の流れとそれに対応する患者の健康上の問題を効果的かつ首尾よく特定できます。

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

日本では高齢化と人口減少により、特にサービス部門で大量の若年労働者が不足しています。

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

u/LegalBeagle1966 という名前の Reddit ユーザーは、このプラットフォームで魅惑的な自撮り写真、さらにはヌード写真を頻繁に共有する映画スターのような女の子、クローディアに夢中になっている多くのユーザーの 1 人です。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

Microsoft は、さらに 12 社のテクノロジー企業が AI for Good プログラムに参加すると発表しました。

AI がドラゴンボールのキャラクターを生身で再現

AI がドラゴンボールのキャラクターを生身で再現

ユーザー @mortecouille92 は、グラフィック デザイン ツール Midjourney の力を活用し、悟空、ベジータ、ブルマ、カメ長老などの有名なドラゴンボールのキャラクターのユニークでリアルなバージョンを作成しました。

ChatGPT の応答を改善する 7 つのテクニック

ChatGPT の応答を改善する 7 つのテクニック

いくつかの条件を追加したり、いくつかのシナリオを設定したりするだけで、ChatGPT はクエリに対してより適切な回答を与えることができます。ChatGPT 応答の品質を向上させる方法をいくつか見てみましょう。

人工知能が描く美しい絵画に驚嘆

人工知能が描く美しい絵画に驚嘆

Midjourney は、本物のアーティストに劣らない非常に美しい絵画のため、最近オンライン コミュニティとアーティスト界で「フィーバー」を引き起こしている人工知能システムです。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

中国が発生を発表してから数日後、世界の航空券販売データにアクセスできるブルードットのAIシステムは、武漢コロナウイルスのバンコク、ソウル、台北、東京への感染拡大を正確に予測し続けた。