DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻

也許你聽說過FaceApp,這是一款在全球範圍內受到高度關注的行動照片編輯應用程序,它能夠應用人工智慧(AI)編輯自拍照,真實度極高。或者這個人不存在,另一個照片編輯應用程序,可以根據虛構的電腦生成的圖形人物創建有趣的肖像。這些只是人工智慧在照片編輯和創建相關任務中的眾多出色應用中的兩個。那麼影片編輯呢?

近日,Alphabet旗下主要從事人工智慧開發領域的DeepMind宣布了一項全新發明,名為「複雜資料集上的高效視訊生成」(基於複雜資料集的視訊有效生成),預計將為人工智慧領域帶來諸多變革。未來將涉足影片編輯和後製領域。這基本上是一種人工智慧演算法,可以學習如何從訓練過程中接觸過的影片中創建簡單的剪輯。

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻DVD-GAN 現在可以自動產生具有完整物件佈局的範例視頻

DeepMind 的研究人員表示,他們迄今為止表現最好的模型——雙視頻鑑別器GAN(DVD-GAN)——能夠創建分辨率為256 x 256 像素的視頻,結合高分辨率,保真度值得稱讚,長度也增加了至 48 格。

「創建高度自然和真實的影片是當今人工智慧模型面臨的最大挑戰。其中,最顯著的阻礙因素莫過於資料收集和計算要求的複雜性。因此,過去許多與視訊創作相關的工作往往圍繞著相對簡單的數據集或可以獲得即時資訊的任務。目前,我們專注於視訊合成和預測任務,旨在將當今領先的圖像創建人工智慧模型的成果擴展到視訊——複雜的方面更好。」研究團隊的一位代表表示。

該團隊圍繞著先進的人工智慧架構構建了他們的系統,同時還引入了一些特定於視頻的調整,從而允許基於 Kinetic-600 進行訓練過程 - a 數據集包括“自然”視頻,這些視頻在規模比平常大。具體來說,研究人員利用了生成對抗網路(GAN)。

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻一組 4 秒的合成影片剪輯,在 Kinetic-600 的 12 128 × 128 幀上進行訓練。

如果你不知道,GAN是一個AI系統,由兩個獨立的部分組成:第一個是產生網絡,它幫助創建訓練樣本(假資料),目標是如何創建訓練資料創建最真實的相似性。第二個是判別網絡:它試圖區分真實數據和虛假數據。GAN 系統已應用於許多密集型任務,例如將字幕轉換為上下文故事,尤其是創建具有極高真實感的人造照片。

DVD-GAN包含雙重判別網路:判別演算法可以透過隨機取樣全解析度幀然後對其進行處理來揭示單幀內容和結構的差異,單獨處理它們並隨著時間的推移進行區分,為生成運動提供學習線索。名為 Transformer 的單一模組允許在整個人工智慧模型中分發學習的數據和資訊。

至於 Kinetic-600 訓練語料庫,這本質上是一個巨大的資料集,由超過 500,000 個時長不超過 10 秒的高解析度 YouTube 剪輯編譯而來。這些影片最初是為了識別人類行為而設計的,研究人員將這個語料庫描述為“多樣化”和“不受約束”,這些因素與訓練開放模型特別相關,類似於 DeepMind 的 DVD-GAN。(在機器學習領域,有一個術語“過度擬合”,它是指模型與特定數據集過於擬合,從而無法可靠地預測數據中的觀察結果的未來) 。

根據研究團隊的報告,經過谷歌第三代張量處理單元系統持續訓練12至96小時後,DVD-GAN現在已經能夠自行生成視頻,模型擁有完整的物體佈局、運動和圖像。即使是複雜的結構,例如河流表面的倒影、溜冰場…DVD-GAN 也必須「努力」在這個區域創建複雜的物體。分辨率更高,其中運動涉及更多的像素。然而,研究人員指出,在 UCF-101(包含 13,320 個人類動作影片的較小資料集)上進行評估後,DVD-GAN 產生的影片樣本得分很高,初始得分為 32.97,一點也不差。

DeepMind 的 AI 模型只需觀看 YouTube 剪輯即可學習如何創建視頻DVD-GAN 創建的視訊樣本獲得了 32.97 的初始分數

「展望未來,我們希望進一步強調在大型複雜視訊資料集(例如 Kinetic-600)上訓練生成模型的好處。雖然在不受限制的設定範圍內一致生成逼真的影片之前還有很多工作要做,但我們相信 DVD-GAN 是實現這一夢想的完美墊腳石。」研究團隊。

您對 DeepMind 的 DVD-GAN AI 模型有何看法?請在下方留下你的意見!


歐洲將成立ChatGPT工作小組

歐洲將成立ChatGPT工作小組

聯合歐洲國家隱私監管機構的機構週四表示,已成立一個專門負責 ChatGPT 的工作小組

AI預測人類死亡時間,準確率達78%

AI預測人類死亡時間,準確率達78%

丹麥和美國科學家合作開發了一種名為 life2vec 的人工智慧系統,能夠高精度預測人類死亡時間。

AI僅透過尿液聲音預測泌尿系統疾病

AI僅透過尿液聲音預測泌尿系統疾病

一種名為 Audioflow 的人工智慧演算法可以聆聽排尿的聲音,從而有效、成功地識別患者的異常尿流和相應的健康問題。

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

調酒師注意了:這個機器人只要1分鐘就能調出一杯雞尾酒

日本的老化和人口減少導致該國缺乏大量年輕工人,特別是在服務業。

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

當數百人得知他們所愛的女孩是人工智慧的產物時,他們的幻想破滅了

名為 u/LegalBeagle1966 的 Reddit 用戶是眾多迷戀 Claudia 的用戶之一,Claudia 是一個電影明星般的女孩,經常在這個平台上分享誘人的自拍照,甚至是裸體的。

又有12家潛力公司加入微軟「AI聯盟」。

又有12家潛力公司加入微軟「AI聯盟」。

微軟剛剛宣布,又有 12 家科技公司將參與其 AI for Good 計畫。

AI有血有肉再現七龍珠角色

AI有血有肉再現七龍珠角色

使用者@mortecouille92利用圖形設計工具Midjourney的力量,創建了著名龍珠角色的獨特逼真版本,如悟空、貝吉塔、布瑪和老龜。

改善 ChatGPT 反應的 7 種技巧

改善 ChatGPT 反應的 7 種技巧

只需添加一些條件或設定一些場景,ChatGPT 就可以為您的查詢提供更相關的答案。讓我們看看可以提高 ChatGPT 響應品質的一些方法。

驚嘆人工智慧繪製的精美畫作

驚嘆人工智慧繪製的精美畫作

Midjourney是一個人工智慧系統,最近在網路社群和藝術家界引起了“熱潮”,因為它的畫作極其精美,不遜色於真正的藝術家。

這個人工智慧模型是最早發現武漢肺炎疫情消息的「專家」之一。

這個人工智慧模型是最早發現武漢肺炎疫情消息的「專家」之一。

在中國宣布疫情爆發幾天后,透過獲取全球機票銷售數據,BlueDot 的人工智慧系統繼續準確預測武漢冠狀病毒向曼谷、首爾、台北和東京的傳播。