DeepMind の AI モデルは、YouTube クリップを見るだけでビデオの作成方法を学習できます

DeepMind の AI モデルは、YouTube クリップを見るだけでビデオの作成方法を学習できます

おそらく、FaceApp について聞いたことがあるでしょう。これは、人工知能 (AI) を適用して非常に高い信頼性で自撮り写真を編集する機能を備え、世界中で大きな注目を集めているモバイル写真編集アプリケーションです。Or This People Does Not Exist は、コンピューターで生成された架空のグラフィック キャラクターに基づいて興味深いポートレートを作成できる別の写真編集アプリです。これらは、写真の編集と作成に関連するタスクに AI が存在する多くの優れたアプリケーションのうちの 2 つにすぎません。では、ビデオ編集はどうでしょうか?

最近、Alphabet の子会社で主に人工知能開発の分野で事業を展開している DeepMind は、「複雑なデータセットでの効率的なビデオ生成」と呼ばれるまったく新しい発明を発表しました。ビデオは複雑なデータセットに基づいて効果的に生成され、社会に多くの変化をもたらすと約束されています。将来的にはビデオ編集とポストプロダクションの分野に。これは基本的に、トレーニング プロセス中に公開されたビデオから簡単なクリップを作成する方法を学習できる AI アルゴリズムです。

DeepMind の AI モデルは、YouTube クリップを見るだけでビデオの作成方法を学習できますDVD-GAN は、完全なオブジェクト レイアウトを含むサンプル ビデオを自動的に生成できるようになりました

DeepMind の研究者らは、これまでで最もパフォーマンスの高いモデルである Dual Video Discriminator GAN (DVD-GAN) が、高解像度と組み合わせて 256 x 256 ピクセルの解像度でビデオを作成できたと述べています。 48フレームまで。

「高いレベルの自然さとリアリズムを備えたビデオを作成することは、今日の AI モデルにとって最大の課題です。中でも最も大きな阻害要因は、データ収集と計算要件の複雑さに他なりません。このため、これまでのビデオ作成に関連する多くの仕事は、比​​較的単純なデータ セットや、リアルタイム情報が利用可能なタスクを中心に展開することが多かったです。現在、私たちはビデオ合成と予測タスクに焦点を当てており、今日の主要な画像作成 AI モデルの結果をビデオに拡張し、複雑な側面をより良くすることを目指しています」と研究チームの代表者は述べています。

チームは高度な AI アーキテクチャを中心にシステムを構築すると同時に、ビデオ固有の調整を多数導入しました。これにより、Kinetic-600 に基づいてトレーニング プロセスを実行できるようになりました。データセットには、はるかに大きい「自然な」ビデオが含まれています。いつもよりスケールが大きい。具体的には、研究者は敵対的生成ネットワーク (GAN) を活用しています。

DeepMind の AI モデルは、YouTube クリップを見るだけでビデオの作成方法を学習できますKinetic-600 の 12 個の 128 × 128 フレームでトレーニングされた 4 秒の合成ビデオ クリップのセット。

ご存じない方のために説明すると、GAN は 2 つの別々の部分で構成される AI システムです: 1 つは生成ネットワークで、トレーニング データを作成する方法を目的として、トレーニング サンプル (偽データ) の作成に役立ちます。 。2 つ目は、本物のデータと偽のデータを区別しようとする識別ネットワークです。GAN システムは、キャプションを文脈に沿ったストーリーに変換するなど、特に非常にリアリズムの高い人工写真を作成するなど、多くの集中的なタスクに適用されています。

DVD-GAN には二重の識別ネットワークが含まれています: 識別アルゴリズムは、フル解像度のフレームをランダムにサンプリングし、それらを処理することで、単一フレームのコンテンツと構造の違いを明らかにします。それらを個別に処理し、時間の経過とともに区別して処理することで、動きを生成するための学習キューが提供されます。Transformer という名前の単一モジュールにより、学習されたデータと情報を AI モデル全体に​​分散できます。

Kinetic-600 トレーニング コーパスに関しては、これは本質的に巨大なデータセットであり、長さが 10 秒以内の 500,000 以上の高解像度 YouTube クリップから編集されています。これらのビデオは当初、人間の行動を認識するために厳選されており、研究者らはこのコーパスを「多様」かつ「制約のない」要素であり、DeepMind の DVD-GAN に似たオープン モデルのトレーニングに特に関連する要素であると説明しています。(機械学習の分野では、「過学習」という用語があります。これは、特定のデータセットに近づきすぎて、その結果、データ内の観測値を確実に予測できないモデルを指すために使用されます。) 。

研究チームのレポートによると、Google の第 3 世代 Tensor Processing Units システムによって 12 ~ 96 時間継続的にトレーニングされた後、DVD-GAN は独自にビデオを生成できるようになり、モデルは完全なオブジェクトのレイアウト、動き、および川面の反射やアイスリンクなどの複雑な構造も...DVD-GAN は、この領域で複雑なオブジェクトを作成するために「苦労」しなければなりませんでした。より高い解像度では、動きがはるかに多くのピクセルを必要とします。しかし、研究者らは、UCF-101 (人間の行動を撮影した 13,320 個のビデオからなる小規模なデータセット) で評価した後、DVD-GAN によって生成されたビデオ サンプルのスコアが高く、インセプション スコアは 32.97 であり、決して悪くはありませんでした。

DeepMind の AI モデルは、YouTube クリップを見るだけでビデオの作成方法を学習できますDVD-GAN が作成したビデオ サンプルは、32.97 のインセプション スコアを達成しました。

「今後は、Kinetic-600 などの大規模で複雑なビデオ データセットで生成モデルをトレーニングする利点をさらに強調したいと考えています。無制限の設定範囲でリアルなビデオを一貫して生成できるようになるまでには、やるべきことはまだたくさんありますが、DVD-GAN はこの夢を実現するための完璧な足がかりになると信じています。」研究チーム。

DeepMind の DVD-GAN AI モデルについてどう思いますか? 以下にコメントを残してください。


ChatGPTタスクフォースはヨーロッパによって設立されます

ChatGPTタスクフォースはヨーロッパによって設立されます

欧州の国家プライバシー監視団体を統合する団体は木曜日、ChatGPT専用の対策委員会を設置したと発表した。

AI は人間の死亡時刻を 78% の精度で予測します

AI は人間の死亡時刻を 78% の精度で予測します

デンマークとアメリカの科学者は共同で、人間の死亡時刻を高精度で予測できる life2vec と呼ばれる AI システムを開発しました。

AIが尿音だけで泌尿器疾患を予測

AIが尿音だけで泌尿器疾患を予測

Audioflow と呼ばれる AI アルゴリズムは、排尿音を聞いて、異常な排尿の流れとそれに対応する患者の健康上の問題を効果的かつ首尾よく特定できます。

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

バーテンダーの皆さん、気をつけてください: このロボットはわずか 1 分でカクテルを作ることができます

日本では高齢化と人口減少により、特にサービス部門で大量の若年労働者が不足しています。

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

自分たちが愛した少女がAIの産物だと知り、何百人もの人々が幻滅した

u/LegalBeagle1966 という名前の Reddit ユーザーは、このプラットフォームで魅惑的な自撮り写真、さらにはヌード写真を頻繁に共有する映画スターのような女の子、クローディアに夢中になっている多くのユーザーの 1 人です。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

さらに 12 社の潜在的な企業がマイクロソフトの「AI アライアンス」に参加します。

Microsoft は、さらに 12 社のテクノロジー企業が AI for Good プログラムに参加すると発表しました。

AI がドラゴンボールのキャラクターを生身で再現

AI がドラゴンボールのキャラクターを生身で再現

ユーザー @mortecouille92 は、グラフィック デザイン ツール Midjourney の力を活用し、悟空、ベジータ、ブルマ、カメ長老などの有名なドラゴンボールのキャラクターのユニークでリアルなバージョンを作成しました。

ChatGPT の応答を改善する 7 つのテクニック

ChatGPT の応答を改善する 7 つのテクニック

いくつかの条件を追加したり、いくつかのシナリオを設定したりするだけで、ChatGPT はクエリに対してより適切な回答を与えることができます。ChatGPT 応答の品質を向上させる方法をいくつか見てみましょう。

人工知能が描く美しい絵画に驚嘆

人工知能が描く美しい絵画に驚嘆

Midjourney は、本物のアーティストに劣らない非常に美しい絵画のため、最近オンライン コミュニティとアーティスト界で「フィーバー」を引き起こしている人工知能システムです。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

この AI モデルは、武漢肺炎の発生に関するニュースを発見した最初の「専門家」の 1 人でした。

中国が発生を発表してから数日後、世界の航空券販売データにアクセスできるブルードットのAIシステムは、武漢コロナウイルスのバンコク、ソウル、台北、東京への感染拡大を正確に予測し続けた。