Índice
O recém-lançado EMO AI, a inteligência artificial do grupo Alibaba, causou grande repercussão na internet. A ferramenta produz vídeos a partir de fotografias, fazendo o avatar cantar músicas em diversas línguas, com surpreendente realismo.
Esse segmento de IA está em avanço significativo ao longo dos anos, surgindo anteriormente com edições de fotografias, quando por meio de apps, era possível trocar de rosto com alguém, colocar filtros e utilizar outras funcionalidades. Agora, a simulação de ações em vídeos tem provocado grande interesse por parte dos internautas, principalmente pelo realismo aplicado nesses conteúdos.
O que é a EMO AI?
A EMO AI: Emote Portrait Alive é uma ferramenta de criação de conteúdo audiovisual por meio da difusão de áudio e vídeo — ou imagem — ultrarrealista.
A IA foca em simular com precisão e fidelidade os traços faciais do modelo em situações imagináveis a partir de uma fotografia. É possível fazer com que a partir da fotografia de uma pessoa seja produzido um vídeo musical, onde o personagem pode cantar uma música popular, movimentando os lábios e os músculos do rosto, para pronunciar a letra da maneira correta com poses realistas.
Segundo os desenvolvedores do Institute for Intelligent Computing, do grupo Alibaba, os vídeos criados pelo EMO AI podem ter qualquer duração, dependendo apenas do tamanho do arquivo de áudio inserido para a produção do vídeo.
Como a IA funciona?
A partir da metodologia utilizada pelos profissionais, o EMO necessita apenas de uma imagem para servir de base na produção do vídeo gerado pela sua inteligência artificial. Em seguida, deve-se inserir um arquivo de áudio para que a ferramenta crie o vídeo com a interpretação do personagem, sincronizando os movimentos labiais com a letra e animando a pessoa, pelo tempo que durar o arquivo de áudio.
Veja abaixo um vídeo utilizando a EMO AI
O vídeo acima utiliza um desenho de anime para criar uma cena simulada pela IA. O EMO AI também conseguiu produzir de maneira satisfatória a movimentação facial e labial da personagem de forma convincente.
Estrutura da ferramenta EMO AI
A metodologia empregada no desenvolvimento do EMO AI foi aplicada justamente com o propósito de buscar avanços quanto à qualidade de vídeos criados por IA’s. Os pesquisadores tiveram como objetivo encontrar maneiras alternativas para aumentar a qualidade do resultado.
Por conta disso, no estágio inicial do processo, denominado Frames Encoding, uma rede neural chamada ReferenceNet extrai recursos de uma única imagem de referência, simulando os quadros de movimento. Este processo de codificação estabelece a base do vídeo.
Em seguida, o áudio é incorporado, com ao auxílio de um codificador e são aplicadas as máscaras faciais, o que irá possibilitar os movimentos realistas do rosto. Finalizando o processo, o mecanismo Backbone Network fica encarregado de preservar a identidade do personagem e ajustar a velocidade da movimentação facial.
Apesar do processo inovador, os desenvolvedores do Alibaba relatam em seu artigo científico que encontraram limitações no modelo. Eles citaram que o EMO AI leva mais tempo para produzir conteúdo do que outras IA’s do mesmo segmento e que, em alguns casos, podem surgir outras partes do corpo no vídeo, como, por exemplo, as mãos do personagem.
A busca por IAs que simulam ações
Com a crescente compatibilidade de IAs com os sistemas operacionais existentes nos celulares, a busca por essas ferramentas disparou nos últimos anos. Atualmente é possível encontrar várias opções de aplicativos que trocam o rosto do usuário por algum famoso, o envelhece, o rejuvenesce, corrige expressões faciais, entre outras funcionalidades.
Entre essas possibilidades, destaca-se o deepfake, que é o resultado da combinação facial ou sua substituição por meio de uma IA. Esse recurso pode ser utilizado para diversos fins, como humorístico, político ou até mesmo pornográfico. Com relação à política, no Brasil, o TSE ligou o alerta sobre essa questão, já prevendo o uso de deepfake nas eleições de outubro deste ano.
Neste caso, o deepfake é um prato cheio para as fake news, pois geralmente retratam um candidato em situações mentirosas ou simulando falas polêmicas, das quais ele nunca falou, motivadas por interesses políticos.
EMO AI produz expressões em diversas línguas
Outra barreira superada pelas IAs, inclusive o EMO AI, é a produção de vídeos em diferentes idiomas. Essas tecnologias compreendem diversos idiomas, o som de suas palavras e suas pronúncias. Com isso, é possível produzir conteúdo audiovisual em muitas línguas.
Confira abaixo mais vídeos gerados pelo EMO AI
Fontes: NowadAls, Arxiv, Humanaigc.
Veja também:
Revisado por Glauco Vital em 28/2/24.
Descubra mais sobre Showmetech
Assine para receber nossas notícias mais recentes por e-mail.