O modelo de IA da Disney gera sequências animadas a partir de roteiros

O modelo de IA da Disney gera sequências animadas a partir de roteiros

Falando realisticamente, o fato de a IA poder criar clipes originais a partir de um ou mais trechos de texto não é uma notícia sísmica no mundo da tecnologia. No ano passado, pesquisadores detalharam como um sistema explora redes neurais - camadas de funções matemáticas modeladas a partir de redes neurais biológicas (neurônios) - para criar fragmentos de informação. O vídeo tem 32 quadros de comprimento e 64 × 64 pixels de tamanho a partir de muitas descrições evocativas, como como “jogar futebol no gramado”. No entanto, de acordo com um novo artigo publicado no Arxiv.org, os cientistas da Disney Research e da Rutgers conseguiram levar essa ideia um passo adiante com um modelo de IA de palavras cruzadas. Do início ao fim, é possível criar um enredo aproximado como bem como descrições em vídeo de textos de roteiros. Especificamente, o modelo de texto para animação dos cientistas ajuda a criar animações sem a necessidade de dados de anotação – uma etapa preliminar que é usada para fornecer texto de entrada descritivo para atividades.

“A geração automática de animação a partir de texto em linguagem natural é uma tecnologia muito útil que pode ser aplicada em diversas áreas, como escrever roteiros de filmes ou criar vídeos instrutivos. Esses sistemas de IA serão especialmente valiosos quando aplicados a scripts, permitindo iteração, prototipagem e prova de conceito mais rápidas. Nesta pesquisa, desenvolvemos com sucesso um sistema de conversão de texto em animação capaz de lidar com frases complexas de forma satisfatória. O objetivo deste sistema de IA não é substituir completamente os escritores ou roteiristas, mas criar um assistente de IA capaz de apoiar efetivamente e tornar o trabalho dos roteiristas mais fácil e mais interessante”, compartilhou a equipe de pesquisa.

Conforme explicaram os pesquisadores, traduzir texto em animação não é uma tarefa simples. Na verdade, tanto as frases (dados de entrada) quanto as animações (dados de saída) não possuem uma estrutura fixa. Esta é também a razão pela qual a maioria das ferramentas atuais de conversão de texto em vídeo não consegue lidar com padrões de frases complexos. Para resolver as limitações dos sistemas atuais, a equipe de pesquisa construiu uma rede neural modular que inclui vários componentes, como: Um novo módulo de análise de script, que isola automaticamente e dinamicamente o texto relevante das descrições de cena no script; um módulo de processamento de linguagem natural que simplifica padrões de sentenças complexas usando um conjunto de regras de linguagem e extrai informações das sentenças simplificadas em representações de ações predefinidas; e um módulo de animação responsável por converter as referidas representações em múltiplas sequências de animação.

O modelo de IA da Disney gera sequências animadas a partir de roteiros

De acordo com os pesquisadores, essa abordagem simplificada torna muito mais fácil extrair informações importantes do script, e seu sistema será capaz de identificar automaticamente quando um trecho de código recebe uma estrutura sintática específica e, em seguida, decompô-lo e montá-lo em frases mais simples e, em seguida, processá-lo recursivamente até que nenhuma simplificação adicional seja possível. A próxima “etapa de coordenação” será aplicada a sentenças que tenham a mesma relação sintática e ao mesmo tempo cumpram o mesmo papel funcional. E por fim, um simulador de vocabulário que corresponda às ações descritas nas frases será simplificado com 52 animações diferentes (que podem ser expandidas para 92 animações usando um dicionário de sinônimos) em uma biblioteca predefinida.

Um sistema chamado Cardinal usa essas animações como entrada para ações e cria pré-visualizações no Unreal – um popular mecanismo de videogame desenvolvido pela Epic Games. Com base na biblioteca de animação predefinida, os objetos e também os modelos que podem ser usados ​​para criar personagens serão pré-carregados, ajudando assim a criar vídeos de animação 3D que retratam fielmente o cenário processado.

O modelo de IA da Disney gera sequências animadas a partir de roteiros

Para treinar esse sistema superior, os pesquisadores começaram a compilar um banco de dados de descrição de cena composto por 996 cenários, extraídos de mais de 1.000 scripts retirados de fontes disponíveis gratuitamente, incluindo IMSDb, SimplyScripts e ScriptORama5. No total, esse corpus inclui 525.708 descrições contendo 1.402.864 sentenças, das quais 920.817 (mais de 40%) possuem pelo menos um verbo descrevendo uma ação.

Em um experimento qualitativo, os cientistas pediram a 22 participantes que avaliassem 20 animações geradas pelo sistema em uma escala de 5 pontos (por exemplo, o vídeo mostrado é animado de forma adequada considerando o conteúdo do texto? texto?, ou quanta informação textual foi descrita no vídeo e quanta informação no vídeo foi mencionada no texto), 68% dos participantes disseram que o sistema criou animações eficazes. valor justo a partir dos cenários de entrada - não uma taxa particularmente alta, mas muito louvável.

Isso mostra que este não é um sistema verdadeiramente perfeito. Na verdade, a lista de ações e seus objetos não é exaustiva e, às vezes, o processo de simplificação lexical não consegue mapear com sucesso verbos complexos para animadores semelhantes, ou só é possível criar algumas sentenças simples para um verbo que possui múltiplos sujeitos na sentença original. . No entanto, este ainda é um estudo jovem e tais limitações são completamente compreensíveis. Os investigadores pretendem resolver as deficiências acima num futuro próximo.

O modelo de IA da Disney gera sequências animadas a partir de roteiros

“Avaliações internas e externas mostraram um desempenho razoável deste sistema, e queríamos aproveitar as informações do discurso examinando a sequência de ações descritas em fragmentos de texto. Isto também ajudará a resolver ambiguidades no texto em relação às ações. Além disso, nosso sistema pode ser usado para gerar os dados necessários para treinar sistemas neurais ponta a ponta semelhantes”, disse a equipe.


A força-tarefa ChatGPT será criada pela Europa

A força-tarefa ChatGPT será criada pela Europa

O órgão que une os vigilantes nacionais da privacidade da Europa disse na quinta-feira que estabeleceu uma força-tarefa dedicada ao ChatGPT

IA prevê a hora da morte humana com 78% de precisão

IA prevê a hora da morte humana com 78% de precisão

Cientistas dinamarqueses e americanos colaboraram para desenvolver um sistema de IA chamado life2vec, capaz de prever o momento da morte humana com alta precisão.

IA prevê doenças urinárias apenas pelo som da urina

IA prevê doenças urinárias apenas pelo som da urina

Um algoritmo de IA chamado Audioflow pode ouvir o som da micção para identificar com eficácia e sucesso fluxos anormais e problemas de saúde correspondentes do paciente.

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

Bartenders, cuidado: este robô pode preparar um coquetel em apenas 1 minuto

O envelhecimento e o declínio da população do Japão deixaram o país sem um número significativo de jovens trabalhadores, especialmente no sector dos serviços.

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Centenas de pessoas ficaram desiludidas quando souberam que a garota que amavam era um produto da IA

Um usuário do Reddit chamado u/LegalBeagle1966 é um dos muitos usuários apaixonados por Claudia, uma garota parecida com uma estrela de cinema que costuma compartilhar selfies sedutoras, até mesmo nuas, nesta plataforma.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

Mais 12 empresas potenciais juntam-se à “aliança de IA” da Microsoft.

A Microsoft acaba de anunciar que mais 12 empresas de tecnologia participarão de seu programa AI for Good.

IA recria personagens de Dragon Ball em carne e osso

IA recria personagens de Dragon Ball em carne e osso

O usuário @mortecouille92 colocou o poder da ferramenta de design gráfico Midjourney para funcionar e criou versões realistas e únicas de personagens famosos de Dragon Ball como Goku, Vegeta, Bulma e o velho Kame.

7 técnicas para melhorar as respostas do ChatGPT

7 técnicas para melhorar as respostas do ChatGPT

Apenas adicionando algumas condições ou configurando alguns cenários, o ChatGPT pode dar respostas mais relevantes às suas dúvidas. Vejamos algumas maneiras de melhorar a qualidade de suas respostas do ChatGPT.

Maravilhe-se com as belas pinturas desenhadas pela inteligência artificial

Maravilhe-se com as belas pinturas desenhadas pela inteligência artificial

Midjourney é um sistema de inteligência artificial que recentemente causou “febre” na comunidade online e no mundo dos artistas por causa de suas pinturas extremamente belas e que não são inferiores às de artistas reais.

Este modelo de IA foi um dos primeiros “especialistas” a descobrir notícias sobre o surto de pneumonia em Wuhan.

Este modelo de IA foi um dos primeiros “especialistas” a descobrir notícias sobre o surto de pneumonia em Wuhan.

Dias depois de a China anunciar o surto, com acesso a dados globais de vendas de passagens aéreas, o sistema de IA da BlueDot continuou a prever com precisão a propagação do vírus Wuhan Corona para Bangkok, Seul, Taipei e Tóquio.