Num mundo onde a criatividade se une à tecnologia de ponta, a OpenAI, mais uma vez, surpreende com sua última inovação: a SORA. Esse novo avanço em inteligência artificial promete revolucionar a forma como vídeos são criados, oferecendo uma ferramenta capaz de transformar prompts de texto em experiências visuais surpreendentes.
Com uma capacidade impressionante de renderizar cenas detalhadas, desde um mundo de recife de coral em papel até mamutes lanosos em uma pradaria nevada, a SORA está preparada para impressionar e inspirar.
Como funciona a SORA?
Já conhecíamos modelos de inteligência artificial que criavam imagens bastante surpreendentes com base em textos, como foi o caso do DALL-E, por exemplo. No entanto, agora estamos tratando de uma novidade um pouco mais impactante com a SORA.
Ainda que já existam outros tipos de projetos de IA que convertem texto em vídeo, SORA se destaca pela impressionante capacidade de criar imagens fotorrealistas e pela produção de clipes mais longos, de até um minuto. Ao contrário dos modelos concorrentes que geram apenas pequenos trechos de vídeo, a nova IA tem o potencial de criar narrativas mais complexas e envolventes.
A empresa desenvolvedora garante que a SORA é capaz de criar vídeos de até um minuto de duração sem perder qualidade visual e permanecendo fiel aos parâmetros definidos pelo comando do usuário. Esse é o grande detalhe que faz todo o diferencial.
Mas é importante lembrar que a OpenAI ainda está distribuindo a ferramenta para alguns criadores selecionados e especialistas em segurança para avaliação de possíveis vulnerabilidades. A intenção é disponibilizá-la para um público mais amplo em um futuro próximo.
Exemplos
De acordo com a postagem introdutória da OpenAI, a nova IA para vídeos tem a capacidade de criar “cenas complexas com vários personagens, movimentos específicos e detalhes precisos do ambiente e dos personagens“. Além disso, ela também pode compreender como os objetos “interagem no mundo real” e também “interpretar de forma precisa adereços, gerando personagens envolventes que expressam emoções vívidas“. Outro detalhe bastante relevante é a geração de um vídeo com base em uma imagem estática, além do preenchimento de quadros ausentes em um vídeo existente ou a possibilidade de estendê-lo.
Embora alguns vídeos ainda possam revelar pistas típicas de serem gerados por IA, a OpenAI afirma que a SORA “pode ter dificuldade em simular com precisão a física de uma cena complexa“. No entanto, no geral, os resultados são bastante impressionantes. Com uma descrição bastante detalhada, é possível que a Sora supere as expectativas, como foi o caso do vídeo abaixo.
Segundo o exemplo divulgado pela OpenAi, esse foi o resultado com o prompt “cena animada apresenta um close-up de um monstro peludo e curto ajoelhado ao lado de uma vela vermelha derretendo. O estilo artístico é 3D e realista, com foco em iluminação e textura. O clima da pintura é de admiração e curiosidade, enquanto o monstro observa a chama com olhos arregalados e boca aberta. Sua pose e expressão transmitem uma sensação de inocência e brincadeira, como se estivesse explorando o mundo ao seu redor pela primeira vez. O uso de cores quentes e iluminação dramática realça ainda mais a atmosfera acolhedora da imagem.“
Os pesquisadores por trás da SORA não revelaram quanto tempo leva para renderizar os vídeos, mas sugerem que o processo é relativamente rápido, comparável a uma pausa para um lanche. Se os exemplos mostrados são indicativos do potencial da ferramenta, podemos esperar uma revolução na forma como o conteúdo audiovisual é produzido e consumido.
Pensando num recife de coral, é possível ter um resultado como esse a partir de uma simples prompt como “um mundo de recife de coral lindamente renderizado em papel, repleto de peixes coloridos e criaturas marinhas“:
Bill Peebles, um membro da equipe de pesquisa, ainda observa que SORA criou uma narrativa coerente através de seus ângulos de câmera e timing. Ele diz que existem várias mudanças de cena, todas geradas pelo modelo em uma única iteração, ou seja, ninguém instrui o modelo a fazer isso, ele apenas o faz automaticamente.
Outro grande exemplo é descrever “Vários gigantescos mamutes lanosos se aproximam, pisando em uma pradaria nevada. Seus longos pelos lanosos levemente balançam ao vento enquanto caminham, árvores cobertas de neve e montanhas cobertas de neve dramáticas ao fundo, luz da tarde com nuvens leves e um sol alto ao longe cria um brilho quente, a vista da câmera baixa é deslumbrante, capturando o grande mamífero peludo com bela fotografia e profundidade de campo” e você terá isso:
Impactos das IAs que geram vídeos
Enquanto os visuais proporcionados pela nova IA da OpenAI são certamente impressionantes, é nas suas habilidades inesperadas que reside sua verdadeira surpresa. Impulsionado por uma versão do modelo de difusão utilizado pelo gerador de imagens DALLE-3, juntamente com o motor baseado em transformadores do GPT-4, a SORA vai além de simplesmente cumprir as exigências dos prompts, revelando uma compreensão emergente da gramática cinematográfica.
Algo a se levar em conta é o fato de ela estar sujeita às restrições de conteúdo com violência, pornografia, apropriação não autorizada de identidades ou estilos de artistas conhecidos. Além disso, a OpenAI está comprometida em oferecer meios para que os espectadores identifiquem claramente o conteúdo gerado pela SORA como criado por inteligência artificial. Recentemente, a cantora Taylor Swift enfrentou alguns conflitos com sua imagem atrelada a esse tipo de cenário negativo com deepfakes na internet.
Mas a verdade é que, embora a IA para vídeos seja uma grande novidade, ela ainda não é perfeita. Apesar do impacto positivo, a tecnologia ainda enfrenta seus desafios. Um exemplo disso é a questão da segurança e da veracidade, além da violação de direitos autorais pelo conteúdo produzido.
A solução para a desinformação exigirá não apenas ações de nossa parte, mas também uma compreensão coletiva da sociedade e a adaptação das redes sociais.
Aditya Ramesh, líder da equipe Dall-E
Contudo, ainda assim, a inteligência artificial que gera vídeos continua sendo vista como um possível adendo para diversas situações. A questão é não olhá-la como uma substituta, e sim saber usá-la estrategicamente. A produção cinematográfica, por exemplo, pode usufruir da tecnologia para transformação de cenários de forma prática. Segundo Bill Peebles, “para produzir um filme profissional, são necessários equipamentos caros. Esse modelo vai capacitar o usuário comum das redes sociais a criar conteúdo de alta qualidade.”
Showmetech TRIO
Veja essa e outras notícias no Showmetech TRIO, o seu trio semanal de notícias:
Veja também
Gemini substitui Bard como principal assistente de inteligência artificial do Google. Veja como usar
Revisão do texto feita por: Pedro Bomfim