ディズニーの AI モデルはスクリプトからアニメーション シーケンスを生成します

ディズニーの AI モデルはスクリプトからアニメーション シーケンスを生成します

現実的に言えば、AI が 1 つまたは複数のテキストからオリジナルのクリップを作成できるという事実は、テクノロジーの世界において衝撃的なニュースではありません。昨年、研究者らは、システムがニューラル ネットワーク (生物学的ニューラル ネットワーク (ニューロン) をモデルにした数学的関数の層) を利用して情報の断片を作成する方法を詳細に説明しました。ビデオは、長さ 32 フレーム、サイズ 64 × 64 ピクセルで、次のような多くの刺激的な説明からのものです。 「芝生の上でサッカーをする」という意味です。ただし、Arxiv.org で公開された新しい記事によると、Disney Research と Rutgers の科学者は、クロスワード AI モデルを使用してこのアイデアをさらに一歩進めることに成功しました。脚本のテキストのビデオ説明も含まれています。具体的には、科学者のテキストからアニメーションへのモデルは、アクティビティに説明的な入力テキストを提供するために使用される準備段階である、注釈データを必要とせずにアニメーションを作成するのに役立ちます。

「自然言語テキストからアニメーションを自動生成することは、映画の脚本の作成や教育ビデオの作成など、さまざまな分野に応用できる非常に便利なテクノロジーです。これらの AI システムは、より迅速なイテレーション、プロトタイピング、概念実証を可能にするため、スクリプト作成に適用すると特に価値があります。本研究では、複雑な文章を十分に処理できるテキストアニメーションシステムの開発に成功しました。このAIシステムの目的は、作家や脚本家を完全に置き換えることではなく、脚本家の仕事を効果的にサポートし、より簡単に、より面白くすることができるAIアシスタントを作成することです」と研究チームは語った。

研究者らが説明したように、テキストをアニメーションに変換するのは簡単な作業ではありません。実際、文章 (入力データ) とアニメーション (出力データ) はどちらも固定された構造を持っていません。これは、現在のテキストからビデオへのツールのほとんどが複雑な文パターンを処理できない理由でもあります。現在のシステムの制限に対処するために、研究チームは、次のような多くのコンポーネントを含むモジュール式ニューラル ネットワークを構築しました。 新しいスクリプト解析モジュール。スクリプト内のシーンの説明から関連するテキストを自動的に動的に分離します。一連の言語ルールを使用して複雑な文パターンを簡略化し、その簡略化された文から事前定義されたアクション表現に情報を抽出する自然言語処理モジュール。そしてアニメーションモジュールは、前記表現を複数のアニメーションシーケンスに変換する責任を負う。

ディズニーの AI モデルはスクリプトからアニメーション シーケンスを生成します

研究者らによると、この簡素化されたアプローチにより、重要なスクリプト情報の抽出がはるかに簡単になり、システムはコードの一部に特定の構文構造が与えられたことを自動的に識別し、それをより単純な文に分解して組み立てることができるようになります。これ以上単純化できなくなるまで再帰的に処理します。次の「調整ステップ」は、同じ構文関係を持ち、同時に同じ機能的役割を果たす文に適用されます。そして最後に、文章で記述された動作と一致する語彙シミュレーターが、事前定義されたライブラリ内の 52 種類のアニメーション (同義語辞書を使用すると 92 種類のアニメーションに拡張可能) で簡略化されます。

次に、Cardinal と呼ばれるシステムがこれらのアニメーションをアクションの入力として使用し、Epic Games が開発した人気のビデオ ゲーム エンジンである Unreal で事前視覚化を作成します。事前定義されたアニメーション ライブラリに基づいて、キャラクターの作成に使用できるオブジェクトとモデルがプリロードされるため、処理されたシナリオに忠実に描写する 3D アニメーション ビデオの作成に役立ちます。

ディズニーの AI モデルはスクリプトからアニメーション シーケンスを生成します

この優れたシステムをトレーニングするために、研究者らは、IMSDb、SimplyScripts、ScriptORama5 など、自由に利用できるソースから取得した 1,000 以上のスクリプトを基にして、996 のシナリオで構成されるシーン記述データベースの編集を開始しました。合計すると、このコーパスには 1,402,864 文を含む 525,708 件の記述が含まれており、そのうちの 920,817 (40% 以上) には動作を説明する動詞が少なくとも 1 つ含まれています。

定性的な実験では、科学者らは 22 人の参加者に、システムが生成した 20 個のアニメーションを 5 段階で評価するよう依頼しました (例: ビデオは、テキストの内容を考慮して適切にアニメーション表示されていますか? テキストですか?、またはビデオ内でどの程度のテキスト情報が説明されているかなど)参加者の 68% が、システムが効果的なアニメーションを作成したと回答しました。入力シナリオからの公正価値は、特に高い率ではありませんが、非常に賞賛に値します。

これは、これが真に完璧なシステムではないことを示しています。実際、アクションとそのオブジェクトのリストは網羅的ではなく、語彙の単純化プロセスで複雑な動詞を類似のアニメーターにうまくマッピングできない場合や、元の文に複数の主語がある動詞に対していくつかの単純な文しか作成できない場合があります。 。ただし、これはまだ若い研究であり、そのような制限があることは完全に理解できます。研究者らは、近い将来に上記の欠点に対処する予定です。

ディズニーの AI モデルはスクリプトからアニメーション シーケンスを生成します

「内部および外部の評価では、このシステムの妥当なパフォーマンスが示されており、テキストの断片に記述されている一連のアクションを調べることで談話情報を活用したいと考えていました。これは、アクションに関するテキスト内の曖昧さを解決するのにも役立ちます。さらに、私たちのシステムは、同様のエンドツーエンドのニューラル システムをトレーニングするために必要なデータを生成するために使用できます」とチームは述べています。


ChatGPTタスクフォースはヨーロッパによって設立されます

ChatGPTタスクフォースはヨーロッパによって設立されます

欧州の国家プライバシー監視団体を統合する団体は木曜日、ChatGPT専用の対策委員会を設置したと発表した。

AI は人間の死亡時刻を 78% の精度で予測します

AI は人間の死亡時刻を 78% の精度で予測します

デンマークとアメリカの科学者は共同で、人間の死亡時刻を高精度で予測できる life2vec と呼ばれる AI システムを開発しました。

AIが尿音だけで泌尿器疾患を予測

AIが尿音だけで泌尿器疾患を予測

Audioflow と呼ばれる AI アルゴリズムは、排尿音を聞いて、異常な排尿の流れとそれに対応する患者の健康上の問題を効果的かつ首尾よく特定できます。

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

日本では高齢化と人口減少により、特にサービス部門で大量の若年労働者が不足しています。

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

u/LegalBeagle1966 という名前の Reddit ユーザーは、このプラットフォームで魅惑的な自撮り写真、さらにはヌード写真を頻繁に共有する映画スターのような女の子、クローディアに夢中になっている多くのユーザーの 1 人です。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

Microsoft は、さらに 12 社のテクノロジー企業が AI for Good プログラムに参加すると発表しました。

AI がドラゴンボールのキャラクターを生身で再現

AI がドラゴンボールのキャラクターを生身で再現

ユーザー @mortecouille92 は、グラフィック デザイン ツール Midjourney の力を活用し、悟空、ベジータ、ブルマ、カメ長老などの有名なドラゴンボールのキャラクターのユニークでリアルなバージョンを作成しました。

ChatGPT の応答を改善する 7 つのテクニック

ChatGPT の応答を改善する 7 つのテクニック

いくつかの条件を追加したり、いくつかのシナリオを設定したりするだけで、ChatGPT はクエリに対してより適切な回答を与えることができます。ChatGPT 応答の品質を向上させる方法をいくつか見てみましょう。

人工知能が描く美しい絵画に驚嘆

人工知能が描く美しい絵画に驚嘆

Midjourney は、本物のアーティストに劣らない非常に美しい絵画のため、最近オンライン コミュニティとアーティスト界で「フィーバー」を引き起こしている人工知能システムです。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

中国が発生を発表してから数日後、世界の航空券販売データにアクセスできるブルードットのAIシステムは、武漢コロナウイルスのバンコク、ソウル、台北、東京への感染拡大を正確に予測し続けた。