Modelul AI al DeepMind poate învăța cum să creeze videoclipuri doar vizionând clipuri YouTube

Modelul AI al DeepMind poate învăța cum să creeze videoclipuri doar vizionând clipuri YouTube

Poate ați auzit de FaceApp, o aplicație mobilă de editare a fotografiilor care primește o atenție deosebită la nivel mondial, având capacitatea de a aplica inteligența artificială (AI) pentru a edita selfie-uri cu un grad extrem de ridicat de autenticitate. Or This Person Does Not Exist, o altă aplicație de editare foto care poate crea portrete interesante bazate pe personaje grafice fictive generate de computer. Acestea sunt doar două dintre multele aplicații grozave cu prezența AI în sarcinile legate de editarea și crearea fotografiilor. Deci, cum rămâne cu editarea video?

Recent, DeepMind, o subsidiară a Alphabet, care operează în principal în domeniul dezvoltării inteligenței artificiale, a anunțat o invenție complet nouă, numită „Efficient Video Generation on Complex Datasets”. video bazat efectiv pe seturi de date complexe), promite să aducă multe schimbări în domeniul editării video și post-producției în viitor. Acesta este practic un algoritm AI care poate învăța cum să creeze clipuri simple din videoclipurile la care a fost expus în timpul procesului de antrenament.

Modelul AI al DeepMind poate învăța cum să creeze videoclipuri doar vizionând clipuri YouTubeDVD-GAN poate acum genera automat videoclipuri eșantioane cu aspect complet al obiectelor

Cercetătorii de la DeepMind au spus că modelul lor cel mai performant până în prezent - Dual Video Discriminator GAN (DVD-GAN) - a reușit să creeze videoclipuri la o rezoluție de 256 x 256 pixeli, combinată cu rezoluție înaltă. Fidelitatea este lăudabilă și lungimea este mai mare. la 48 de cadre.

„Crearea videoclipurilor cu un nivel ridicat de naturalețe și realism este cea mai mare provocare pentru modelele AI de astăzi. Dintre aceștia, cei mai importanți factori care împiedică nu sunt alții decât complexitatea cerințelor de colectare și calcul a datelor. Din acest motiv, multe locuri de muncă legate de crearea video în trecut se învârteau adesea în jurul unor seturi de date relativ simple sau sarcini în care erau disponibile informații în timp real. În prezent, ne concentrăm pe sarcinile de sinteză și predicție video și ne propunem să extindem rezultatele modelelor AI de creare de imagini de astăzi la video - latura complexă mult mai bine”, a spus un reprezentant al echipei de cercetare.

Echipa și-a construit sistemul în jurul unei arhitecturi AI avansate, introducând în același timp o serie de modificări specifice video, permițând astfel desfășurarea procesului de antrenament pe baza Kinetic-600 - a Setul de date include videoclipuri „naturale”, care sunt mult mai mari în scară decât de obicei. Mai exact, cercetătorii au profitat de rețelele generative adversarial (GAN).

Modelul AI al DeepMind poate învăța cum să creeze videoclipuri doar vizionând clipuri YouTubeUn set de clipuri video sintetice de 4 secunde antrenate pe 12 cadre 128 × 128 de la Kinetic-600.

Dacă nu știți, GAN este un sistem AI format din două părți separate: Prima este o rețea generativă, care ajută la crearea mostrelor de antrenament (date false), cu scopul de a crea date de antrenament. creați cea mai realistă asemănare . Iar a doua este rețeaua discriminativă: care încearcă să facă distincția între datele reale și datele false. Sistemele GAN au fost aplicate în multe sarcini intensive, cum ar fi convertirea subtitrărilor în povești contextuale, în special crearea de fotografii artificiale cu un realism extrem de ridicat.

DVD-GAN conține rețele de discriminare dublă: algoritmul de discriminare poate dezvălui diferențe în conținutul și structura unui singur cadru prin eșantionarea aleatorie a cadrelor cu rezoluție completă, apoi procesarea lor.Procesarea lor individuală și diferențiată în timp oferă indicii de învățare pentru generarea mișcării. Un singur modul - numit Transformer - permite distribuirea datelor și informațiilor învățate în întregul model AI.

În ceea ce privește corpusul de antrenament Kinetic-600, acesta este în esență un set de date uriaș, compilat din peste 500.000 de clipuri YouTube de înaltă rezoluție, cu o durată de cel mult 10 secunde. Aceste videoclipuri au fost inițial organizate pentru a recunoaște acțiunile umane, cercetătorii descriind acest corp drept „divers” și „neconstrâns”, factori care sunt deosebit de relevanți în antrenament.modele deschise similare cu DVD-GAN de la DeepMind. (În domeniul învățării automate, există un termen „suprafitting”, care este folosit pentru a se referi la modele care se potrivesc prea mult cu un anumit set de date și, ca urmare, nu reușesc să prezică observațiile din date. viitorul în mod fiabil) .

Potrivit raportului echipei de cercetare, după ce a fost instruit continuu de sistemul de unități de procesare a tensoarelor de generația a treia de la Google pentru o perioadă de 12 până la 96 de ore, DVD-GAN este acum capabil să genereze videoclipuri pe cont propriu. Modelul dispune de aspecte complete de obiecte, mișcări și chiar și structuri complexe precum reflexiile pe suprafețele râurilor, patinoare... DVD-GAN a trebuit să „lupte” să creeze obiecte complexe în această zonă.rezoluție mai mare, unde mișcarea implică un număr mult mai mare de pixeli. Totuși, cercetătorii au remarcat că, după ce au fost evaluați pe UCF-101 (un set de date mai mic de 13.320 de videoclipuri cu acțiuni umane), mostrele video generate de DVD-GAN au obținut un scor bun. Scorul inițial este de 32,97 - deloc rău.

Modelul AI al DeepMind poate învăța cum să creeze videoclipuri doar vizionând clipuri YouTubeEșantionul video creat de DVD-GAN a atins un scor inițial de 32,97

„În continuare, dorim să subliniem și mai mult beneficiile antrenării modelelor generative pe seturi de date video mari și complexe, cum ar fi Kinetic-600. Deși mai este mult de făcut înainte ca videoclipurile realiste să poată fi generate în mod constant într-o gamă nelimitată de setări, credem că DVD-GAN este piatra de temelie perfectă pentru a realiza acest vis”, a spus un reprezentant al companiei. echipa de cercetare.

Ce părere aveți despre modelul DVD-GAN AI al DeepMind? Vă rugăm să lăsați comentariile voastre mai jos!


Grupul de lucru ChatGPT va fi înființat de Europa

Grupul de lucru ChatGPT va fi înființat de Europa

Organismul care reunește organele naționale de supraveghere a vieții private din Europa a declarat joi că a înființat un grup operativ dedicat ChatGPT

AI prezice ora morții umane cu o precizie de 78%.

AI prezice ora morții umane cu o precizie de 78%.

Oamenii de știință danezi și americani au colaborat pentru a dezvolta un sistem AI numit life2vec, capabil să prezică ora morții umane cu mare precizie.

AI prezice bolile urinare doar prin sunetul urinei

AI prezice bolile urinare doar prin sunetul urinei

Un algoritm AI numit Audioflow poate asculta sunetul urinării pentru a identifica eficient și cu succes fluxurile anormale și problemele de sănătate corespunzătoare ale pacientului.

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Barmani, atenție: acest robot poate amesteca un cocktail în doar 1 minut

Îmbătrânirea și scăderea populației din Japonia a lăsat țara lipsită de un număr semnificativ de tineri lucrători, în special în sectorul serviciilor.

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Sute de oameni au fost dezamăgiți când au aflat că fata pe care o iubeau este un produs al inteligenței artificiale

Un utilizator Reddit numit u/LegalBeagle1966 este unul dintre mulți utilizatori îndrăgostiți de Claudia, o fată asemănătoare vedetei de cinema care deseori împărtășește selfie-uri seducătoare, chiar și nud, pe această platformă.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Încă 12 companii potențiale se alătură „alianței AI” a Microsoft.

Microsoft tocmai a anunțat că alte 12 companii de tehnologie vor participa la programul său AI for Good.

AI recreează personajele Dragon Ball în carne și oase

AI recreează personajele Dragon Ball în carne și oase

Utilizatorul @mortecouille92 a pus în funcțiune puterea instrumentului de design grafic Midjourney și a creat versiuni realiste unice ale personajelor celebre Dragon Ball precum Goku, Vegeta, Bulma și bătrânul Kame. .

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

7 tehnici pentru a îmbunătăți răspunsurile ChatGPT

Doar prin adăugarea unor condiții sau configurarea unor scenarii, ChatGPT poate oferi răspunsuri mai relevante la întrebările dvs. Să vedem câteva modalități prin care puteți îmbunătăți calitatea răspunsurilor dvs. ChatGPT.

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Minunați-vă de tablourile frumoase desenate de inteligența artificială

Midjourney este un sistem de inteligență artificială care a provocat recent o „febră” în comunitatea online și în lumea artiștilor din cauza picturilor sale extrem de frumoase, care nu sunt inferioare celor ale artiștilor adevărați.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

Acest model AI a fost unul dintre primii „experți” care au descoperit știri despre focarul de pneumonie din Wuhan.

La câteva zile după ce China a anunțat focarul, având acces la datele globale despre vânzările de bilete de avion, sistemul AI al BlueDot a continuat să prezică cu exactitate răspândirea virusului Wuhan Corona la Bangkok, Seul, Taipei și Tokyo.