Le modèle dIA de Disney génère des séquences animées à partir de scripts

Le modèle dIA de Disney génère des séquences animées à partir de scripts

En réalité, le fait que l’IA puisse créer des clips originaux à partir d’un ou plusieurs morceaux de texte n’est pas une nouvelle sismique dans le monde de la technologie. L'année dernière, des chercheurs ont détaillé comment un système exploite les réseaux de neurones - des couches de fonctions mathématiques modélisées d'après les réseaux de neurones biologiques (neurones) - pour créer des extraits d'informations. La vidéo fait 32 images de long et 64 × 64 pixels à partir de nombreuses descriptions évocatrices, telles que comme « jouer au football sur la pelouse ». Cependant, selon un nouvel article publié sur Arxiv.org, des scientifiques de Disney Research et Rutgers ont réussi à pousser cette idée un peu plus loin avec un modèle d'IA à mots croisés. Du début à la fin, il est possible de créer une intrigue approximative comme ainsi que des descriptions vidéo de textes tirés de scénarios. Plus précisément, le modèle texte-animation des scientifiques permet de créer des animations sans avoir besoin de données d'annotation - une étape préliminaire qui est utilisée pour fournir un texte d'entrée descriptif pour certaines activités.

« La génération automatique d'animations à partir d'un texte en langage naturel est une technologie très utile qui peut être appliquée dans de nombreux domaines, tels que l'écriture de scénarios de films ou la création de vidéos pédagogiques. Ces systèmes d’IA seront particulièrement utiles lorsqu’ils seront appliqués aux scripts en permettant une itération, un prototypage et une preuve de concept plus rapides. Dans cette recherche, nous avons développé avec succès un système de conversion texte-animation capable de gérer des phrases complexes de manière satisfaisante. Le but de ce système d’IA n’est pas de remplacer complètement les scénaristes ou les scénaristes, mais de créer un assistant d’IA capable de soutenir efficacement et de rendre le travail des scénaristes plus facile et plus intéressant », a partagé l’équipe de recherche.

Comme l’expliquent les chercheurs, traduire du texte en animation n’est pas une tâche simple. En fait, les phrases (données d’entrée) et les animations (données de sortie) n’ont pas de structure fixe. C’est également la raison pour laquelle la plupart des outils de conversion texte-vidéo actuels ne peuvent pas gérer des modèles de phrases complexes. Pour remédier aux limites des systèmes actuels, l'équipe de recherche a construit un réseau neuronal modulaire qui comprend un certain nombre de composants tels que : Un nouveau module d'analyse de script, qui isole automatiquement et dynamiquement le texte pertinent des descriptions de scènes dans le script ; un module de traitement du langage naturel qui simplifie les modèles de phrases complexes à l'aide d'un ensemble de règles linguistiques et extrait les informations des phrases simplifiées dans des représentations d'actions prédéfinies ; et un module d'animation chargé de convertir lesdites représentations en plusieurs séquences d'animation.

Le modèle d'IA de Disney génère des séquences animées à partir de scripts

Selon les chercheurs, cette approche simplifiée rend beaucoup plus facile l'extraction des informations clés du script, et leur système sera capable d'identifier automatiquement quand un morceau de code reçoit une structure syntaxique particulière, puis de le décomposer et de l'assembler en phrases plus simples, puis le traiter de manière récursive jusqu'à ce qu'aucune simplification supplémentaire ne soit possible. La prochaine « étape de coordination » sera appliquée aux phrases qui ont la même relation syntaxique et remplissent en même temps le même rôle fonctionnel. Et enfin, un simulateur de vocabulaire correspondant aux actions décrites dans les phrases sera simplifié avec 52 animations différentes (pouvant être étendues à 92 animations à l'aide d'un dictionnaire de synonymes de sens) dans une bibliothèque prédéfinie.

Un système appelé Cardinal utilise ensuite ces animations comme entrée pour les actions et crée des prévisualisations dans Unreal – un moteur de jeu vidéo populaire développé par Epic Games. Sur la base de la bibliothèque d'animation prédéfinie, les objets ainsi que les modèles qu'il peut utiliser pour créer des personnages seront préchargés, contribuant ainsi à créer des vidéos d'animation 3D qui représentent fidèlement le scénario traité.

Le modèle d'IA de Disney génère des séquences animées à partir de scripts

Pour former ce système supérieur, les chercheurs ont commencé à compiler une base de données de descriptions de scènes composée de 996 scénarios, tirés de plus de 1 000 scripts provenant de sources disponibles gratuitement, notamment IMSDb, SimplyScripts et ScriptORama5. Au total, ce corpus comprend 525 708 descriptions contenant 1 402 864 phrases, dont 920 817 (plus de 40 %) comportent au moins un verbe décrivant une action.

Dans une expérience qualitative, les scientifiques ont demandé à 22 participants d'évaluer 20 animations générées par le système sur une échelle de 5 points (par exemple, la vidéo présentée est-elle correctement animée compte tenu du contenu du texte ? du texte ?, ou quelle quantité d'informations textuelles était décrite dans la vidéo). et quelle quantité d'informations dans la vidéo était mentionnée dans le texte), 68 % des participants ont déclaré que le système créait des animations efficaces et justes à partir des scénarios d'entrée - un taux pas particulièrement élevé mais très louable.

Cela montre que ce n’est pas un système vraiment parfait. En fait, la liste des actions et de leurs objets n'est pas exhaustive, et parfois le processus de simplification lexicale ne parvient pas à mapper des verbes complexes à des animateurs similaires, ou il ne peut créer que quelques phrases simples pour un verbe qui a plusieurs sujets dans la phrase originale. . Cependant, il s’agit d’une étude encore jeune et ces limites sont tout à fait compréhensibles. Les chercheurs ont l’intention de remédier aux lacunes ci-dessus dans un avenir proche.

Le modèle d'IA de Disney génère des séquences animées à partir de scripts

« Les évaluations internes et externes ont montré des performances raisonnables de ce système, et nous voulions exploiter les informations du discours en examinant la séquence d'actions décrites dans des fragments de texte. Cela aidera également à résoudre les ambiguïtés du texte concernant les actions. De plus, notre système peut être utilisé pour générer les données nécessaires à la formation de systèmes neuronaux similaires de bout en bout », a déclaré l’équipe.


Le groupe de travail ChatGPT sera créé par l’Europe

Le groupe de travail ChatGPT sera créé par l’Europe

L'organisme qui rassemble les organismes nationaux de surveillance de la vie privée en Europe a annoncé jeudi avoir créé un groupe de travail dédié à ChatGPT.

LIA prédit lheure de la mort humaine avec une précision de 78 %

LIA prédit lheure de la mort humaine avec une précision de 78 %

Des scientifiques danois et américains ont collaboré pour développer un système d'IA appelé life2vec, capable de prédire l'heure de la mort humaine avec une grande précision.

L’IA prédit les maladies urinaires rien qu’au son de l’urine

L’IA prédit les maladies urinaires rien qu’au son de l’urine

Un algorithme d’IA appelé Audioflow peut écouter le bruit de la miction pour identifier efficacement et avec succès les flux anormaux et les problèmes de santé correspondants du patient.

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

Barmans, attention : ce robot peut préparer un cocktail en 1 minute seulement

En raison du vieillissement et du déclin de la population japonaise, le pays manque d'un nombre important de jeunes travailleurs, notamment dans le secteur des services.

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Des centaines de personnes ont été déçues lorsqu’elles ont appris que la fille qu’ils aimaient était un produit de l’IA

Un utilisateur de Reddit nommé u/LegalBeagle1966 est l'un des nombreux utilisateurs amoureux de Claudia, une fille ressemblant à une star de cinéma qui partage souvent des selfies séduisants, même nus, sur cette plateforme.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

12 autres entreprises potentielles rejoignent « lalliance IA » de Microsoft.

Microsoft vient d'annoncer que 12 autres entreprises technologiques participeront à son programme AI for Good.

LIA recrée les personnages de Dragon Ball en chair et en os

LIA recrée les personnages de Dragon Ball en chair et en os

L'utilisateur @mortecouille92 a mis à profit la puissance de l'outil de conception graphique Midjourney et a créé des versions réalistes uniques de personnages célèbres de Dragon Ball comme Goku, Vegeta, Bulma et l'aîné Kame. .

7 techniques pour améliorer les réponses ChatGPT

7 techniques pour améliorer les réponses ChatGPT

En ajoutant simplement quelques conditions ou en mettant en place des scénarios, ChatGPT peut donner des réponses plus pertinentes à vos requêtes. Examinons quelques façons d'améliorer la qualité de vos réponses ChatGPT.

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Émerveillez-vous devant les magnifiques peintures dessinées par lintelligence artificielle

Midjourney est un système d'intelligence artificielle qui a récemment provoqué une "fièvre" dans la communauté en ligne et dans le monde des artistes en raison de ses peintures extrêmement belles qui ne sont pas inférieures à celles de vrais artistes.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Ce modèle dIA a été lun des premiers « experts » à découvrir des nouvelles sur lépidémie de pneumonie de Wuhan.

Quelques jours après que la Chine a annoncé l'épidémie, grâce à l'accès aux données mondiales sur les ventes de billets d'avion, le système d'IA de BlueDot a continué à prédire avec précision la propagation du virus Corona de Wuhan à Bangkok, Séoul, Taipei et Tokyo.