Model AI DeepMind boleh belajar cara membuat video hanya dengan menonton klip YouTube

Model AI DeepMind boleh belajar cara membuat video hanya dengan menonton klip YouTube

Mungkin anda pernah mendengar tentang FaceApp, aplikasi penyuntingan foto mudah alih yang mendapat perhatian hebat di seluruh dunia dengan keupayaan untuk menggunakan kecerdasan buatan (AI) untuk mengedit swafoto dengan tahap ketulenan yang sangat tinggi. Atau Orang Ini Tidak Wujud, satu lagi aplikasi penyuntingan foto yang boleh mencipta potret menarik berdasarkan watak grafik yang dijana komputer fiksyen. Itu hanyalah dua daripada banyak aplikasi hebat dengan kehadiran AI dalam tugas yang berkaitan dengan penyuntingan dan penciptaan foto. Jadi bagaimana dengan penyuntingan video?

Baru-baru ini, DeepMind, anak syarikat Alphabet, yang beroperasi terutamanya dalam bidang pembangunan kecerdasan buatan, mengumumkan ciptaan baharu yang dipanggil "Penjanaan Video Cekap pada Set Data Kompleks". video yang berkesan berdasarkan set data yang kompleks), menjanjikan banyak perubahan dalam bidang penyuntingan video dan pasca produksi pada masa hadapan. Ini pada asasnya adalah algoritma AI yang boleh belajar cara mencipta klip mudah daripada video yang telah didedahkan semasa proses latihan.

Model AI DeepMind boleh belajar cara membuat video hanya dengan menonton klip YouTubeDVD-GAN kini boleh menjana sampel video secara automatik dengan susun atur objek penuh

Penyelidik di DeepMind berkata model berprestasi terbaik mereka setakat ini - Dual Video Discriminator GAN (DVD-GAN) - dapat mencipta video pada resolusi 256 x 256 piksel, digabungkan dengan resolusi tinggi. Kesetiaan patut dipuji dan panjangnya meningkat. kepada 48 bingkai.

“Mencipta video dengan tahap semula jadi dan realisme yang tinggi adalah cabaran terbesar untuk model AI hari ini. Antaranya, faktor penghalang yang paling ketara adalah tidak lain daripada kerumitan pengumpulan data dan keperluan pengiraan. Atas sebab ini, banyak pekerjaan yang berkaitan dengan penciptaan video pada masa lalu sering berkisar pada set data yang agak mudah, atau tugas di mana maklumat masa nyata tersedia. Pada masa ini, kami menumpukan pada tugas sintesis dan ramalan video, dan menyasarkan untuk memanjangkan hasil model AI penciptaan imej terkemuka hari ini kepada video - bahagian yang kompleks dengan lebih baik,” kata wakil pasukan penyelidik.

Pasukan itu membina sistem mereka di sekitar seni bina AI lanjutan, sambil turut memperkenalkan beberapa tweak khusus video, dengan itu membenarkan proses latihan dijalankan berdasarkan Kinetic-600 - a Set data termasuk video "semula jadi", yang lebih besar dalam skala daripada biasa. Khususnya, penyelidik telah mengambil kesempatan daripada rangkaian permusuhan generatif (GAN).

Model AI DeepMind boleh belajar cara membuat video hanya dengan menonton klip YouTubeSatu set klip video sintetik 4 saat yang dilatih pada 12 128 × 128 bingkai daripada Kinetic-600.

Jika anda tidak tahu, GAN ialah sistem AI yang terdiri daripada dua bahagian berasingan: Yang pertama ialah rangkaian Generatif, yang membantu mencipta sampel latihan (data palsu), dengan matlamat untuk mencipta data latihan. mencipta persamaan yang paling realistik . Dan yang kedua ialah rangkaian Diskriminatif: yang cuba membezakan antara data sebenar dan data palsu. Sistem GAN telah digunakan dalam banyak tugas intensif seperti menukar kapsyen kepada cerita kontekstual, terutamanya mencipta foto tiruan dengan realisme yang sangat tinggi.

DVD-GAN mengandungi rangkaian dwi diskriminatif: Algoritma diskriminatif boleh mendedahkan perbezaan dalam kandungan dan struktur bingkai tunggal dengan mengambil sampel bingkai resolusi penuh secara rawak, kemudian memprosesnya. Memprosesnya secara individu dan dibezakan dari semasa ke semasa memberikan isyarat pembelajaran untuk menjana pergerakan. Satu modul - dinamakan Transformer - membenarkan pengedaran data dan maklumat yang dipelajari merentas keseluruhan model AI.

Bagi korpus latihan Kinetic-600, ini pada asasnya adalah set data gergasi, yang disusun daripada lebih 500,000 klip YouTube resolusi tinggi dengan tempoh tidak lebih daripada 10 saat. Video ini pada mulanya disusun untuk mengiktiraf tindakan manusia, dengan penyelidik menyifatkan korpus ini sebagai faktor "pelbagai" dan "tidak terhad", yang amat relevan dalam latihan. model terbuka serupa dengan DVD-GAN DeepMind. (Dalam bidang pembelajaran mesin, terdapat istilah "overfitting," yang digunakan untuk merujuk kepada model yang sesuai terlalu rapat dengan set data tertentu dan akibatnya gagal untuk meramalkan pemerhatian dalam data. masa hadapan dengan pasti) .

Menurut laporan pasukan penyelidik, selepas dilatih secara berterusan oleh sistem Unit Pemprosesan Tensor generasi ke-3 Google untuk tempoh 12 hingga 96 jam, DVD-GAN kini mampu menjana video sendiri. Model ini mempunyai susun atur objek yang lengkap, pergerakan dan malah struktur kompleks seperti pantulan pada permukaan sungai, gelanggang ais... DVD-GAN terpaksa "bergelut" untuk mencipta objek kompleks di kawasan ini. resolusi yang lebih tinggi, di mana gerakan melibatkan bilangan piksel yang lebih besar. Walau bagaimanapun, penyelidik menyatakan bahawa, selepas dinilai pada UCF-101 (set data yang lebih kecil daripada 13,320 video tindakan manusia), sampel video yang dijana oleh DVD-GAN mendapat markah yang baik. Skor Permulaan ialah 32.97 - tidak teruk sama sekali.

Model AI DeepMind boleh belajar cara membuat video hanya dengan menonton klip YouTubeSampel video yang dibuat oleh DVD-GAN mencapai Skor Permulaan 32.97

“Melangkah ke hadapan, kami ingin menekankan lagi faedah melatih model generatif pada set data video yang besar dan kompleks, seperti Kinetic-600. Walaupun masih banyak kerja yang perlu dilakukan sebelum video realistik boleh dijana secara konsisten dalam julat tetapan tanpa had, kami percaya bahawa DVD-GAN adalah batu loncatan yang sempurna untuk merealisasikan impian ini menjadi kenyataan,” kata seorang wakil pasukan penyelidik.

Apakah pendapat anda tentang model DVD-GAN AI DeepMind? Sila tinggalkan komen anda di bawah!


Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Pasukan petugas ChatGPT akan ditubuhkan oleh Eropah

Badan yang menyatukan pemerhati privasi negara Eropah berkata pada hari Khamis ia telah menubuhkan pasukan petugas khusus untuk ChatGPT

AI meramalkan masa kematian manusia dengan ketepatan 78%.

AI meramalkan masa kematian manusia dengan ketepatan 78%.

Para saintis Denmark dan Amerika telah bekerjasama untuk membangunkan sistem AI yang dipanggil life2vec, yang mampu meramalkan masa kematian manusia dengan ketepatan yang tinggi.

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

AI meramalkan penyakit kencing hanya dengan bunyi air kencing

Algoritma AI yang dipanggil Audioflow boleh mendengar bunyi kencing untuk mengenal pasti aliran tidak normal dan masalah kesihatan pesakit yang sepadan dengan berkesan dan berjaya.

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Pelayan bar, berhati-hati: Robot ini boleh mencampurkan koktel dalam masa 1 minit sahaja

Penduduk Jepun yang semakin tua dan semakin berkurangan menyebabkan negara itu kekurangan sejumlah besar pekerja muda, terutamanya dalam sektor perkhidmatan.

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Beratus-ratus orang kecewa apabila mereka mengetahui bahawa gadis yang mereka cintai adalah produk AI

Pengguna Reddit bernama u/LegalBeagle1966 ialah salah satu daripada ramai pengguna yang terpikat dengan Claudia, seorang gadis seperti bintang filem yang sering berkongsi swafoto yang menggoda, malah bogel. di platform ini.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

12 lagi syarikat berpotensi menyertai AI alliance Microsoft.

Microsoft baru sahaja mengumumkan bahawa 12 lagi syarikat teknologi akan mengambil bahagian dalam program AI for Goodnya.

AI mencipta semula watak Dragon Ball dalam daging dan darah

AI mencipta semula watak Dragon Ball dalam daging dan darah

Pengguna @mortecouille92 telah meletakkan kuasa alat reka bentuk grafik Midjourney untuk berfungsi dan mencipta versi unik realistik watak Dragon Ball yang terkenal seperti Goku, Vegeta, Bulma dan Kame yang lebih tua. .

7 teknik untuk meningkatkan respons ChatGPT

7 teknik untuk meningkatkan respons ChatGPT

Hanya dengan menambah beberapa syarat atau menyediakan beberapa senario, ChatGPT boleh memberikan jawapan yang lebih berkaitan kepada pertanyaan anda. Mari lihat beberapa cara anda boleh meningkatkan kualiti respons ChatGPT anda.

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Kagum dengan lukisan cantik yang dilukis oleh kecerdasan buatan

Midjourney ialah sistem kecerdasan buatan yang baru-baru ini menyebabkan "demam" dalam komuniti dalam talian dan dunia artis kerana lukisannya yang sangat cantik yang tidak kalah dengan lukisan artis sebenar.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Model AI ini adalah salah seorang pakar pertama yang menemui berita tentang wabak pneumonia Wuhan.

Beberapa hari selepas China mengumumkan wabak itu, dengan akses kepada data jualan tiket penerbangan global, sistem AI BlueDot terus meramalkan dengan tepat penyebaran virus Wuhan Corona ke Bangkok, Seoul, Taipei dan Tokyo.