言語を身体の動きに変換できるAIモデルの開発に成功

米国ペンシルバニア州カーネギーメロン大学のAI研究者らは最近、言語（テキスト、音声）を動きやジェスチャー物理学に比較的高い精度で変換できるディープAIモデルの開発に成功した。

この AI モデルは Joint Language-to-Pose (JL2P) と呼ばれ、自然言語と効果的な 3D ポーズシミュレーションモデルを組み合わせて使用できる手法として知られており、近い将来に実用化されます。

DeepMind の AI モデルは、YouTube クリップを見るだけでビデオの作成方法を学習できます

言語を身体の動きに変換できるAIモデルの開発に成功 この AI モデルは、Joint Language-to-Pose (JL2P) と呼ばれます。

3D 空間で姿勢やジェスチャーを分析およびシミュレートする JL2P の能力は、プログラミングへの強力かつ効果的なアプローチであるエンドツーエンドのプログラムを通じて徹底的にトレーニングされており、トレーニングプログラムは個々のシーケンスに「分割」されています。AI モデルは、より複雑な目標に進む前に、短くて単純なタスクを完了する必要があります。

現在、JL2P のアニメーションシミュレーション機能は基本的な画像 (単純な直線で構成) に限定されていますが、人間のような動きをシミュレートする機能はモデルの言語に基づいており、この AI 視覚化は比較的正確で直感的です。研究チームは、JL2P のようなモデルが、いつかロボットが人間と同様の現実世界の物理的なタスクを実行したり、ビデオゲームや映画用の仮想アニメーションキャラクターの作成を支援できるようになると考えています。

人間と同じように推論して学習できるAIチップを使った自走自転車の開発に成功

言語を身体の動きに変換できるAIモデルの開発に成功 JL2P のアニメーションシミュレーション機能は、基本的な単純な画像に限定されています

実際、言語を物理的な動きに変換する機能を備えた AI モデルを開発するというアイデアは新しいものではありません。カーネギーメロン大学が JL2P を導入する前に、Microsoft は言語注釈から画像とストーリーボード (伝えたいストーリーを画像形式でスケッチするボード) をスケッチするタスクを備えた、ObjGAN と呼ばれるモデルの開発にも成功しました。別の Disney AI モデルも、脚本内の単語を使用してストーリーボードを作成する機能で広く知られています。最も有名なのは、Nvidia の GauGAN モデルです。これは、トラックパッドや Microsoft ペイントで作成されたような落書きを、非常に審美性の高いスマートなデジタルスケッチに変えることができます。

JL2P に戻ると、この AI モデルは、歩く、走る、楽器 (ギターやバイオリンなど) を演奏する、方向 (左または右) または速度に従うなど、単純なものから比較的複雑なものまで、さまざまな動きを非常に正確にシミュレートできるようになりました。コントロール（速いか遅いか）。

AIを活用したタッチスクリーンとVR用の「空想キーボード」の開発に成功

言語を身体の動きに変換できるAIモデルの開発に成功 JL2P は、単純なものから比較的複雑なものまで、さまざまな動きを非常に正確にシミュレートできるようになりました。

「私たちはまず、完全な文に基づいて 2 つのタイムステップを予測するようにモデルを最適化しました。この単純なタスクは、AI モデルが、歩行中の脚の動き、手を振っている間の手の動き、またはお辞儀をするときの体の姿勢と姿勢など、非常に短い姿勢シーケンスをシミュレートすることを学習するのに役立ちます。JL2P が同じジェスチャーを高精度でシミュレートする方法を学習したら、カリキュラムの次の段階に進みます。モデルには同時に予測する 2 つのポーズが与えられています」とカーネギーメロン大学の研究チームは述べています。

AI はすでにポーカーの遊び方を知っており、6 人プレイヤーゲームで世界最高のプレイヤーに勝利しました。

言語を身体の動きに変換できるAIモデルの開発に成功 一般人の走行姿勢を再現

JL2P の動作モードと典型的な「作品」の詳細は、arXiv.org Web サイトで 7 月 2 日に公開された科学論文で初めて発表され、今後発表される予定です。 9月19日、カナダのケベック州で開催される3Dビジョンに関する国際会議のステージで、CMUチャイタニヤ・アフジャ言語技術研究所。

研究チームは、JL2P は、2018 年に SRI インターナショナルの AI 専門家によって開発された別の「一流」AI モデルよりも 9% 正確に姿勢と身体の動きをシミュレートできると自信を持って主張しています。

サムスンのディープフェイクで闇の修道士ラスプーチンを本物に歌わせることができる

言語を身体の動きに変換できるAIモデルの開発に成功 JL2P は片手で立ち上がるという人間の動作をシミュレートします

KIT モーション言語データセット (KIT Motion-Language Dataset) でトレーニングされた後、JL2P によって作成された製品。

言語を身体の動きに変換できるAIモデルの開発に成功 JL2Pは障害物を飛び越えて走る動作をシミュレートします。

ドイツの Performance Humanoid Technologies によって 2016 年に初めて導入されたこのマイニングデータセットは、人間の動きと自然言語の記述を組み合わせたもので、11 時間の連続的な動きを一度に 1 つずつマッピングし、それぞれ約 8 単語からなる 6,200 以上の英語の文に記録されています。長さ。