ディズニーの AI モデルはスクリプトからアニメーションシーケンスを生成します

現実的に言えば、AI が 1 つまたは複数のテキストからオリジナルのクリップを作成できるという事実は、テクノロジーの世界において衝撃的なニュースではありません。昨年、研究者らは、システムがニューラルネットワーク (生物学的ニューラルネットワーク (ニューロン) をモデルにした数学的関数の層) を利用して情報の断片を作成する方法を詳細に説明しました。ビデオは、長さ 32 フレーム、サイズ 64 × 64 ピクセルで、次のような多くの刺激的な説明からのものです。「芝生の上でサッカーをする」という意味です。ただし、Arxiv.org で公開された新しい記事によると、Disney Research と Rutgers の科学者は、クロスワード AI モデルを使用してこのアイデアをさらに一歩進めることに成功しました。脚本のテキストのビデオ説明も含まれています。具体的には、科学者のテキストからアニメーションへのモデルは、アクティビティに説明的な入力テキストを提供するために使用される準備段階である、注釈データを必要とせずにアニメーションを作成するのに役立ちます。

人工知能 OpenAI が現世界チャンピオン Dota 2 チームを破った

「自然言語テキストからアニメーションを自動生成することは、映画の脚本の作成や教育ビデオの作成など、さまざまな分野に応用できる非常に便利なテクノロジーです。これらの AI システムは、より迅速なイテレーション、プロトタイピング、概念実証を可能にするため、スクリプト作成に適用すると特に価値があります。本研究では、複雑な文章を十分に処理できるテキストアニメーションシステムの開発に成功しました。このAIシステムの目的は、作家や脚本家を完全に置き換えることではなく、脚本家の仕事を効果的にサポートし、より簡単に、より面白くすることができるAIアシスタントを作成することです」と研究チームは語った。

研究者らが説明したように、テキストをアニメーションに変換するのは簡単な作業ではありません。実際、文章 (入力データ) とアニメーション (出力データ) はどちらも固定された構造を持っていません。これは、現在のテキストからビデオへのツールのほとんどが複雑な文パターンを処理できない理由でもあります。現在のシステムの制限に対処するために、研究チームは、次のような多くのコンポーネントを含むモジュール式ニューラルネットワークを構築しました。新しいスクリプト解析モジュール。スクリプト内のシーンの説明から関連するテキストを自動的に動的に分離します。一連の言語ルールを使用して複雑な文パターンを簡略化し、その簡略化された文から事前定義されたアクション表現に情報を抽出する自然言語処理モジュール。そしてアニメーションモジュールは、前記表現を複数のアニメーションシーケンスに変換する責任を負う。

EU: AI システムは透明性のある責任ある方法で構築および導入されるべきである

研究者らによると、この簡素化されたアプローチにより、重要なスクリプト情報の抽出がはるかに簡単になり、システムはコードの一部に特定の構文構造が与えられたことを自動的に識別し、それをより単純な文に分解して組み立てることができるようになります。これ以上単純化できなくなるまで再帰的に処理します。次の「調整ステップ」は、同じ構文関係を持ち、同時に同じ機能的役割を果たす文に適用されます。そして最後に、文章で記述された動作と一致する語彙シミュレーターが、事前定義されたライブラリ内の 52 種類のアニメーション (同義語辞書を使用すると 92 種類のアニメーションに拡張可能) で簡略化されます。

次に、Cardinal と呼ばれるシステムがこれらのアニメーションをアクションの入力として使用し、Epic Games が開発した人気のビデオゲームエンジンである Unreal で事前視覚化を作成します。事前定義されたアニメーションライブラリに基づいて、キャラクターの作成に使用できるオブジェクトとモデルがプリロードされるため、処理されたシナリオに忠実に描写する 3D アニメーションビデオの作成に役立ちます。

ディズニーの AI モデルはスクリプトからアニメーションシーケンスを生成します

AI チャットボットは詐欺や不正行為に関する情報の検索を支援します

この優れたシステムをトレーニングするために、研究者らは、IMSDb、SimplyScripts、ScriptORama5 など、自由に利用できるソースから取得した 1,000 以上のスクリプトを基にして、996 のシナリオで構成されるシーン記述データベースの編集を開始しました。合計すると、このコーパスには 1,402,864 文を含む 525,708 件の記述が含まれており、そのうちの 920,817 (40% 以上) には動作を説明する動詞が少なくとも 1 つ含まれています。

定性的な実験では、科学者らは 22 人の参加者に、システムが生成した 20 個のアニメーションを 5 段階で評価するよう依頼しました (例: ビデオは、テキストの内容を考慮して適切にアニメーション表示されていますか? テキストですか?、またはビデオ内でどの程度のテキスト情報が説明されているかなど)参加者の 68% が、システムが効果的なアニメーションを作成したと回答しました。入力シナリオからの公正価値は、特に高い率ではありませんが、非常に賞賛に値します。

これは、これが真に完璧なシステムではないことを示しています。実際、アクションとそのオブジェクトのリストは網羅的ではなく、語彙の単純化プロセスで複雑な動詞を類似のアニメーターにうまくマッピングできない場合や、元の文に複数の主語がある動詞に対していくつかの単純な文しか作成できない場合があります。。ただし、これはまだ若い研究であり、そのような制限があることは完全に理解できます。研究者らは、近い将来に上記の欠点に対処する予定です。

ディズニーの AI モデルはスクリプトからアニメーションシーケンスを生成します

MIT の AI モデルは、最小限のトレーニングデータでオブジェクト間の関係を独自にキャプチャできる

「内部および外部の評価では、このシステムの妥当なパフォーマンスが示されており、テキストの断片に記述されている一連のアクションを調べることで談話情報を活用したいと考えていました。これは、アクションに関するテキスト内の曖昧さを解決するのにも役立ちます。さらに、私たちのシステムは、同様のエンドツーエンドのニューラルシステムをトレーニングするために必要なデータを生成するために使用できます」とチームは述べています。

Tags: #Artificial Intelligence (AI)