DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻

也許你聽說過FaceApp，這是一款在全球範圍內受到高度關注的行動照片編輯應用程序，它能夠應用人工智慧（AI）編輯自拍照，真實度極高。或者這個人不存在，另一個照片編輯應用程序，可以根據虛構的電腦生成的圖形人物創建有趣的肖像。這些只是人工智慧在照片編輯和創建相關任務中的眾多出色應用中的兩個。那麼影片編輯呢？

近日，Alphabet旗下主要從事人工智慧開發領域的DeepMind宣布了一項全新發明，名為「複雜資料集上的高效視訊生成」（基於複雜資料集的視訊有效生成），預計將為人工智慧領域帶來諸多變革。未來將涉足影片編輯和後製領域。這基本上是一種人工智慧演算法，可以學習如何從訓練過程中接觸過的影片中創建簡單的剪輯。

這個網站可以把你年輕的自拍照變成詭異的復古肖像

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻 DVD-GAN 現在可以自動產生具有完整物件佈局的範例視頻

DeepMind 的研究人員表示，他們迄今為止表現最好的模型——雙視頻鑑別器GAN（DVD-GAN）——能夠創建分辨率為256 x 256 像素的視頻，結合高分辨率，保真度值得稱讚，長度也增加了至 48 格。

「創建高度自然和真實的影片是當今人工智慧模型面臨的最大挑戰。其中，最顯著的阻礙因素莫過於資料收集和計算要求的複雜性。因此，過去許多與視訊創作相關的工作往往圍繞著相對簡單的數據集或可以獲得即時資訊的任務。目前，我們專注於視訊合成和預測任務，旨在將當今領先的圖像創建人工智慧模型的成果擴展到視訊——複雜的方面更好。」研究團隊的一位代表表示。

該團隊圍繞著先進的人工智慧架構構建了他們的系統，同時還引入了一些特定於視頻的調整，從而允許基於 Kinetic-600 進行訓練過程 - a 數據集包括“自然”視頻，這些視頻在規模比平常大。具體來說，研究人員利用了生成對抗網路（GAN）。

Nvidia 僅花了 3 週就打造出世界上最強大的 AI 超級電腦之一

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻 一組 4 秒的合成影片剪輯，在 Kinetic-600 的 12 128 × 128 幀上進行訓練。

如果你不知道，GAN是一個AI系統，由兩個獨立的部分組成：第一個是產生網絡，它幫助創建訓練樣本（假資料），目標是如何創建訓練資料創建最真實的相似性。第二個是判別網絡：它試圖區分真實數據和虛假數據。GAN 系統已應用於許多密集型任務，例如將字幕轉換為上下文故事，尤其是創建具有極高真實感的人造照片。

DVD-GAN包含雙重判別網路：判別演算法可以透過隨機取樣全解析度幀然後對其進行處理來揭示單幀內容和結構的差異，單獨處理它們並隨著時間的推移進行區分，為生成運動提供學習線索。名為 Transformer 的單一模組允許在整個人工智慧模型中分發學習的數據和資訊。

谷歌發表龐大的AI訓練資料倉儲，包含全球20萬個地標的超過500萬張照片

至於 Kinetic-600 訓練語料庫，這本質上是一個巨大的資料集，由超過 500,000 個時長不超過 10 秒的高解析度 YouTube 剪輯編譯而來。這些影片最初是為了識別人類行為而設計的，研究人員將這個語料庫描述為“多樣化”和“不受約束”，這些因素與訓練開放模型特別相關，類似於 DeepMind 的 DVD-GAN。（在機器學習領域，有一個術語“過度擬合”，它是指模型與特定數據集過於擬合，從而無法可靠地預測數據中的觀察結果的未來）。

根據研究團隊的報告，經過谷歌第三代張量處理單元系統持續訓練12至96小時後，DVD-GAN現在已經能夠自行生成視頻，模型擁有完整的物體佈局、運動和圖像。即使是複雜的結構，例如河流表面的倒影、溜冰場…DVD-GAN 也必須「努力」在這個區域創建複雜的物體。分辨率更高，其中運動涉及更多的像素。然而，研究人員指出，在 UCF-101（包含 13,320 個人類動作影片的較小資料集）上進行評估後，DVD-GAN 產生的影片樣本得分很高，初始得分為 32.97，一點也不差。