Índice
O VASA-1 é a mais recente IA da Microsoft, projetada para criar deepfakes hiper-realistas a partir de uma única foto ou desenho de uma pessoa. A ferramenta impressiona com sua capacidade de reproduzir expressões faciais e movimentos da cabeça com precisão, dando a ilusão de que a pessoa na foto está realmente expressando algo. Em demonstrações expostas pela Microsoft, o VASA-1 impressionou ao replicar o movimento dos lábios de forma sincronizada com o áudio e criando expressões não presentes nas fotos originais, resultando em vídeos extremamente convincentes.
A nova ferramenta levanta preocupações sobre o uso ético de tecnologias de deepfake, pois sua capacidade de criar vídeos realistas com pouca informação de entrada pode potencialmente ser usada para criar notícias falsas, vídeos difamatórios e até mesmo fraudes. Por isso, a Microsoft está trabalhando para garantir que o VASA-1 seja usado de maneira responsável e ética.
O que é e como funciona o VASA-1
Parece verdade, mas o vídeo acima não passa de um deepfake. O VASA-1 representa um avanço significativo na geração de rostos falantes realistas por meio de inteligência artificial. O VASA-1 é capaz de produzir vídeos de rostos falantes a partir de uma única imagem estática, seja ela foto ou desenho, de um indivíduo e um clipe de áudio de fala. Esses vídeos resultantes apresentam não apenas movimentos labiais sincronizados com o áudio, mas também uma ampla gama de dinâmicas faciais naturais e movimentos de cabeça, alcançando um alto nível de realismo e vivacidade.
Diferentemente de métodos anteriores, o VASA-1 aborda a geração de rostos falantes de forma holística, considerando todos os possíveis movimentos faciais, como expressões, movimentos dos olhos e piscadas, como variáveis latentes únicas. Além disso, o VASA-1 incorpora sinais de condicionamento opcionais, como direção do olhar principal, distância da cabeça e offset emocional, no processo de aprendizado. Isso torna a modelagem generativa de distribuições complexas mais controlável e aumenta a contabilidade da geração. No vídeo abaixo, por exemplo, o VASA-1 demonstrou diferentes opções de direção do olhar na deepfake.
Um dos aspectos mais impressionantes do VASA-1 é sua capacidade de gerar rostos falantes em tempo real, o que o torna ideal para aplicativos interativos de comunicação. Ao equilibrar a qualidade da geração de vídeo com a eficiência computacional, o VASA-1 supera significativamente os métodos existentes, aproximando-nos de um futuro onde avatares digitais com IA possam interagir conosco de maneira tão natural e intuitiva quanto as interações com humanos reais.
A representação do VASA-1 pode alterar a aparência, a posição tridimensional da cabeça e a dinâmica facial, o que possibilita o controle separado dos atributos e a edição do conteúdo gerado. Isso significa que, mesmo com uma única foto de entrada, é possível gerar vídeos de rostos falantes com diferentes sequências de movimento ou aplicar diferentes fotos a uma mesma sequência de movimento, resultando em uma ampla variedade de possibilidades de personalização e controle sobre o conteúdo gerado.
Perigos das deepfakes
O VASA-1, apesar de suas possíveis aplicações positivas, também apresenta riscos significativos relacionados à criação de deepfakes. Essa tecnologia pode ser mal utilizada para criar vídeos falsos extremamente convincentes, nos quais uma pessoa é retratada fazendo ou dizendo algo que nunca ocorreu. Esses deepfakes têm o potencial de causar danos sérios, como disseminar desinformação, manipular opiniões públicas, difamar indivíduos e até mesmo incitar conflitos sociais ou políticos.
Especialmente em períodos eleitorais, a tecnologia poderia gerar problemas decorrentes do uso malicioso com criações de deepfakes políticos. Com essa tecnologia, é possível fabricar vídeos de políticos ou figuras públicas pronunciando discursos falsos ou realizando ações comprometedoras. Esses vídeos podem ser usados para influenciar eleições, minar a confiança pública em líderes e instituições, e gerar instabilidade política.
O emprego de Deepfakes despertou a atenção e a preocupação de diversos governos ao redor do mundo. No Brasil, o TSE proibiu o uso de deepfakes nas eleições, com a medida sendo aprovada em fevereiro deste ano. Essa proibição visa evitar a manipulação de informações e proteger a integridade do processo eleitoral, impedindo que vídeos e áudios falsos sejam utilizados para prejudicar ou favorecer candidaturas. O uso indevido de deepfakes pode resultar na cassação do mandato ou registro de candidatura.
A China, em particular, foi pioneira na regulamentação abrangente do uso dessas tecnologias. Sua legislação, mais ampla que a adotada por alguns governos ocidentais, é vista como um instrumento para manter a estabilidade social. Ela proíbe explicitamente a criação de deepfakes sem consentimento e exige a identificação clara de conteúdo gerado por IA.
Um exemplo alarmante ocorreu após a invasão russa na Ucrânia, quando um vídeo deepfake foi amplamente divulgado nas redes sociais. Nele, o presidente ucraniano, Volodymyr Zelensky, parecia ordenar que suas tropas se rendessem, algo que jamais ocorreu na realidade. Além disso, os deepfakes podem ser utilizados de forma mais ampla em situações do cotidiano, como criar vídeos falsos de celebridades, amigos ou familiares, gerando confusão e prejudicando a reputação das pessoas envolvidas.
Previsão de lançamento
A Microsoft reconhece os riscos associados ao VASA-1 e está comprometida em garantir que a ferramenta seja desenvolvida e utilizada de forma responsável. Devido aos potenciais problemas éticos, de privacidade e de segurança que o VASA-1 pode gerar, a Microsoft ainda não tem previsão de lançamento para o público geral.
A empresa está trabalhando ativamente para implementar medidas de segurança e controle que ajudem a mitigar os riscos de uso indevido da tecnologia. Os desenvolvedores estão trabalhando para aprimorar a autenticidade dos vídeos gerados e desenvolver métodos de detecção de deepfakes que possam ajudar a combater o uso indevido da tecnologia, antes de considerar seu lançamento para o público em geral.
Veja esta e outras notícias no Showmetech TRIO:
Veja também:
Fontes: PCMag, Microsoft e Inshorts
Revisado por Glauco Vital em 22/4/24.
Descubra mais sobre Showmetech
Assine para receber nossas notícias mais recentes por e-mail.