Le modèle dIA de DeepMind peut apprendre à créer des vidéos simplement en regardant des clips YouTube

Le modèle dIA de DeepMind peut apprendre à créer des vidéos simplement en regardant des clips YouTube

Peut-être avez-vous entendu parler de FaceApp, une application mobile de retouche photo qui suscite une grande attention dans le monde entier et qui permet d'appliquer l'intelligence artificielle (IA) pour éditer des selfies avec un degré d'authenticité extrêmement élevé. Ou encore This Person Does Not Exist, une autre application de retouche photo capable de créer des portraits intéressants basés sur des personnages graphiques fictifs générés par ordinateur. Ce ne sont là que deux des nombreuses applications intéressantes avec la présence de l'IA dans les tâches liées à la retouche et à la création de photos. Alors qu’en est-il du montage vidéo ?

Récemment, DeepMind, une filiale d'Alphabet, opérant principalement dans le domaine du développement de l'intelligence artificielle, a annoncé une toute nouvelle invention appelée "Génération vidéo efficace sur des ensembles de données complexes ((vidéo effectivement basée sur des ensembles de données complexes), promet d'apporter de nombreux changements dans le domaine du montage vidéo et de la post-production à l'avenir. Il s’agit essentiellement d’un algorithme d’IA capable d’apprendre à créer des clips simples à partir des vidéos auxquelles il a été exposé pendant le processus de formation.

Le modèle d'IA de DeepMind peut apprendre à créer des vidéos simplement en regardant des clips YouTubeDVD-GAN peut désormais générer automatiquement des exemples de vidéos avec des mises en page d'objets complètes

Les chercheurs de DeepMind ont déclaré que leur modèle le plus performant à ce jour, le Dual Video Discriminator GAN (DVD-GAN), était capable de créer des vidéos à une résolution de 256 x 256 pixels, combinée à une haute résolution. La fidélité est louable et la longueur est en hausse. à 48 images.

« Créer des vidéos avec un haut niveau de naturel et de réalisme est le plus grand défi pour les modèles d'IA d'aujourd'hui. Parmi eux, les facteurs entravants les plus importants ne sont autres que la complexité des exigences en matière de collecte de données et de calcul. Pour cette raison, de nombreux emplois liés à la création vidéo dans le passé tournaient souvent autour d'ensembles de données relativement simples ou de tâches pour lesquelles des informations en temps réel étaient disponibles. Actuellement, nous nous concentrons sur les tâches de synthèse et de prédiction vidéo, et visons à étendre les résultats des principaux modèles d'IA de création d'images actuels à la vidéo - le côté complexe est bien meilleur », a déclaré un représentant de l'équipe de recherche.

L'équipe a construit son système autour d'une architecture d'IA avancée, tout en introduisant un certain nombre d'ajustements spécifiques à la vidéo, permettant ainsi au processus de formation d'être mené sur la base de Kinetic-600 - un ensemble de données comprenant des vidéos « naturelles », qui sont beaucoup plus volumineuses. échelle que d’habitude. Plus précisément, les chercheurs ont tiré parti des réseaux contradictoires génératifs (GAN).

Le modèle d'IA de DeepMind peut apprendre à créer des vidéos simplement en regardant des clips YouTubeUn ensemble de clips vidéo synthétiques de 4 secondes formés sur 12 images 128 × 128 de Kinetic-600.

Si vous ne le savez pas, GAN est un système d'IA composé de deux parties distinctes : La première est un réseau génératif, qui permet de créer des échantillons d'entraînement (fausses données), dans le but de créer la ressemblance la plus réaliste. . Et le second est le réseau discriminant : qui tente de distinguer les données réelles des fausses données. Les systèmes GAN ont été appliqués à de nombreuses tâches intensives telles que la conversion de légendes en histoires contextuelles, en particulier la création de photos artificielles d'un réalisme extrêmement élevé.

DVD-GAN contient deux réseaux discriminants : l'algorithme discriminant peut révéler des différences dans le contenu et la structure d'une seule image en échantillonnant aléatoirement des images en pleine résolution, puis en les traitant. Leur traitement individuellement et différencié dans le temps fournit des indices d'apprentissage pour générer du mouvement. Un seul module – nommé Transformer – permet la distribution des données et informations apprises sur l’ensemble du modèle d’IA.

Quant au corpus de formation Kinetic-600, il s’agit essentiellement d’un ensemble de données géant, compilé à partir de plus de 500 000 clips YouTube haute résolution d’une durée ne dépassant pas 10 secondes. Ces vidéos ont été initialement organisées pour reconnaître les actions humaines, les chercheurs décrivant ce corpus comme « diversifié » et « sans contrainte », des facteurs particulièrement pertinents dans la formation de modèles ouverts similaires au DVD-GAN de DeepMind. (Dans le domaine de l'apprentissage automatique, il existe un terme « surajustement » qui est utilisé pour désigner des modèles qui s'ajustent trop étroitement à un ensemble de données particulier et, par conséquent, ne parviennent pas à prédire de manière fiable les observations contenues dans les données.) .

Selon le rapport de l'équipe de recherche, après avoir été continuellement entraîné par le système Tensor Processing Units de 3e génération de Google pendant une période de 12 à 96 heures, DVD-GAN est désormais capable de générer des vidéos par lui-même. Le modèle possède des dispositions complètes d'objets, des mouvements et voire des structures complexes comme des reflets sur la surface des rivières, des patinoires... DVD-GAN a dû « lutter » pour créer des objets complexes dans ce domaine de résolution plus élevée, où le mouvement implique un nombre de pixels beaucoup plus important. Cependant, les chercheurs ont noté qu'après avoir été évalués sur l'UCF-101 (un ensemble de données plus petit de 13 320 vidéos d'actions humaines), les échantillons vidéo générés par DVD-GAN ont obtenu de bons résultats : le score initial est de 32,97, ce qui n'est pas mal du tout.

Le modèle d'IA de DeepMind peut apprendre à créer des vidéos simplement en regardant des clips YouTubeL'échantillon vidéo créé par DVD-GAN a obtenu un score initial de 32,97.

« À l’avenir, nous souhaitons souligner davantage les avantages de la formation de modèles génératifs sur des ensembles de données vidéo vastes et complexes, tels que Kinetic-600. Bien qu'il reste encore beaucoup de travail à faire avant de pouvoir générer de manière cohérente des vidéos réalistes dans une gamme illimitée de paramètres, nous pensons que le DVD-GAN est le tremplin idéal pour réaliser ce rêve », a déclaré un représentant du l'équipe de recherche.

Que pensez-vous du modèle DVD-GAN AI de DeepMind ? Veuillez laisser vos commentaires ci-dessous !


Le groupe de travail ChatGPT sera créé par l’Europe

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .

7 techniques pour améliorer les réponses ChatGPT

7 techniques pour améliorer les réponses ChatGPT

En ajoutant simplement quelques conditions ou en mettant en place des scénarios, ChatGPT peut donner des réponses plus pertinentes à vos requêtes. Examinons quelques façons d'améliorer la qualité de vos réponses ChatGPT.

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Midjourney est un système d'intelligence artificielle qui a récemment provoqué une "fièvre" dans la communauté en ligne et dans le monde des artistes en raison de ses peintures extrêmement belles qui ne sont pas inférieures à celles de vrais artistes.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Quelques jours après que la Chine a annoncé l'épidémie, grâce à l'accès aux données mondiales sur les ventes de billets d'avion, le système d'IA de BlueDot a continué à prédire avec précision la propagation du virus Corona de Wuhan à Bangkok, Séoul, Taipei et Tokyo.