Pesquisadores do Instituto de Computação Inteligente do Alibaba desenvolveram um novo sistema de inteligência artificial chamado “EMO“, abreviação de Emote Portrait Alive , que pode animar uma única foto e gerar vídeos da pessoa falando ou cantando de uma forma incrivelmente realista, ou seja, a IA da Alibaba faz foto falar e cantar.
O sistema é capaz de criar movimentos faciais fluidos e expressivos e poses de cabeça que combinam com as nuances do áudio. Isso representa um grande avanço na geração de vídeos de cabeça falante impulsionados por áudio, uma área que desafia os pesquisadores de IA há anos.
“As técnicas tradicionais muitas vezes não conseguem capturar todo o espectro das expressões humanas e a singularidade dos estilos faciais individuais”, disse o autor principal Linrui Tian no artigo. “Para abordar essas questões, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, ignorando a necessidade de modelos 3D intermediários ou marcos faciais.”
Ao contrário dos métodos anteriores que dependem de modelos de rosto 3D ou misturam formas para aproximar os movimentos faciais, o EMO converte diretamente a forma de onda de áudio em quadros de vídeo. Isso permite que ele capture movimentos sutis e peculiaridades específicas da identidade associadas à fala natural.
Além de vídeos de conversação, o EMO também pode animar retratos cantando com formas de boca apropriadas e expressões faciais evocativas sincronizadas com os vocais. O sistema suporta a geração de vídeos por uma duração arbitrária com base na duração do áudio de entrada.
“Os resultados experimentais demonstram que o EMO é capaz de produzir não apenas vídeos de fala convincentes, mas também vídeos de canto em vários estilos, superando significativamente as metodologias de ponta existentes em termos de expressividade e realismo”, afirma o artigo.
Mais novidades sobre Inteligência Artificial aqui.