IA da Alibaba faz foto falar e cantar

Pesquisadores do Instituto de Computação Inteligente do Alibaba desenvolveram um novo sistema de inteligência artificial chamado “EMO“, abreviação de Emote Portrait Alive, que pode animar uma única foto e gerar vídeos da pessoa falando ou cantando de uma forma incrivelmente realista, ou seja, a IA da Alibaba faz foto falar e cantar.

O sistema é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que combinam com as nuances do áudio. Isso representa um grande avanço na geração de vídeos de cabeça falante impulsionados por áudio, uma área que desafia os pesquisadores de IA há anos.

Vídeo original da Sora mostrando uma mulher andando em Toquio

“As técnicas tradicionais muitas vezes não conseguem capturar todo o espectro das expressões humanas e a singularidade dos estilos faciais individuais”, disse o autor principal Linrui Tian no artigo. “Para abordar essas questões, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, ignorando a necessidade de modelos 3D intermediários ou marcos faciais.”

Ao contrário dos métodos anteriores que dependem de modelos de rosto 3D ou misturam formas para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em quadros de vídeo. Isso permite que ele capture movimentos sutis e peculiaridades específicas da identidade associadas à fala natural.

Além de vídeos de conversação, o EMO também pode animar retratos cantando com formas de boca apropriadas e expressões faciais evocativas sincronizadas com os vocais. O sistema suporta a geração de vídeos por uma duração arbitrária com base na duração do áudio de entrada.

AI da Alibaba mostrando a mulher da Sora falando

AI da Alibaba mostrando a mulher da Sora cantando

“Os resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos de fala convincentes, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de ponta existentes em termos de expressividade e realismo”, afirma o artigo.

Mais novidades sobre Inteligência Artificial aqui.

Conteúdo relacionado

Tags Inteligência Artificial Vídeo

IA da Alibaba faz foto falar e cantar

TIWorker.exe e TrustedInstaller.exe

Aula 01: Introdução e erros a evitar – Windows Rápido e Seguro 2.0

Baboo

Conteúdo Relacionado

Curso do BABOO: Manutenção Total de Windows versão 2.0

Os melhores antivírus de 2025 para os brasileiros

Qual é a função do usuário defaultuser0 no Windows?

Primeiras imagens do Windows Server 2025

Aula 01: Introdução e erros a evitar - Windows Rápido e Seguro 2.0

ChatPDF: ChatGPT para arquivos PDF