O Google DeepMind acaba de divulgar seu mais novo projeto no mundo da inteligência artificial: Genie, Generative Interactive Environments (Ambientes interativos generativos), que promete criar games realmente jogáveis a partir de prompts de imagens. Veja como ela funciona:
O que é a Genie?
A nova AI do Google cria games com ações controláveis, assim como todo um ambiente interativo a partir de apenas uma foto ou desenho. Segundo a empresa, essa imagem pode ser de algo que existe no mundo real — como um objeto — ou criado por alguma outra ferramenta de AI que transforma texto em imagem.
Isso abre um grande precedente para o futuro do mundo dos games, já que permitiria a criação de jogos com comandos avançados em muito menos tempo, além da possibilidade de descentralizar ainda mais o processo, dando a criadores de jogos amadores mais possibilidades e nivelando a concorrência.
Na verdade, hipoteticamente falando, a ferramenta poderia ir muito além disso, gerando mundos virtuais instantâneos, com simulações hiper-realistas.
A empresa também afirma que será possível criar games a partir de desenhos, desde os mais sofisticados feitos por profissionais em ferramentas como o Adobe Illustrator até desenhos criados por crianças ou esboços feitos à mão.
“Nos últimos anos assistimos ao surgimento da IA generativa, com modelos capazes de gerar conteúdos novos e criativos através de linguagem, imagens e até vídeos…Hoje, introduzimos um novo paradigma para a IA generativa, ambientes interativos generativos: Genie”.
Google DeepMind
Como a Genie cria games
O Genie consegue criar todo um mundo controlável com apenas uma imagem, e segundo modelos apresentados pela empresa, não é nem mesmo necessário material com boa definição para que a IA funcione.
Treinada a partir de um conjunto de vídeos online ao invés de rótulos de ações, essa nova IA de games do Google teve como foco de aprendizado jogos de plataforma 2D e robótica em suas mais de 200.000 horas de dados e treinou 11 bilhões de modelos de mundo. Outra função notável do novo Google Genie é simular objetos deformáveis, e a empresa acredita que pode futuramente se tornar um treinador de agentes generalistas de AI.
“…de forma não supervisionada, Genie aprende diversas ações latentes que controlam os personagens de maneira consistente.”
Tim Rocktäschel, desenvolvedor do Google DeepMind afirmou no Twitter.
Tim Rocktäschel, também afirmou em sua conta no Twitter (ou X) que o AI Genie consegue criar diversas tragetórias a partir do quadro inicial e o foco dessa criação é a ‘ação’ – ponto que é o grande diferencial da ferramenta, que ainda não vimos mesmo em ferramentas AI como Sora, anunciado também nesse mês.
Tim também frisou que o processo de aprendizado do Genie AI foi feita de maneira totalmente não supervisionada por vídeos, tendo sido usado um tipo de canalizador temporariamente consciente de vídeos para comprimir vídeos em unidade de data intuitivas, um modelo de latent action (ações latentes) que codifica transições de 2 frames para um de 8 latent action e modelo de dinâmica MaskGIT que prevê frames futuros.
Segundo o YouTuber Wes Roth no vídeo acima, o latent action usado faz um processo de entender que tipos de ações foram tomadas entre 2 frames de vídeo. Sendo assim, se um personagem aparece em um Frame no chão e no outro ele está no ar, ele entende que a ação que ocorreu entre eles é que ele pulou. Já o modelo de dinâmica MaskGIT é usado para prever o que ocorreu após a ação, ou seja, se um personagem de videogame pula de um penhasco, ele provavelmente vai cair, continuará sua trajetória, mas cairá para o nível do chão de onde ele pulou.
Exemplos
A DeepMind e seus colaboradores chegaram a divulgar alguns exemplos de prompts usando sua nova inteligência artificial:
Disponibilidade
O Google Genie é uma ferramenta em desenvolvimento e ainda não está disponível para o público. A empresa não informou uma previsão para sua chegada ao mercado.
Essa parece ser até agora a ferramenta de IA mais inovadora criada pelo Google, já que pode ser a chave para tirar uma ideia do papel e transformar em algo conciso e interativo em poucos instantes. A nova ferramenta, de acordo com o que foi apresentado nesse primeiro demo do produto, é o que esperávamos de uma gigante da tecnologia como o Google. Agora basta saber se ela vai viver para superar as expectativas!
Se você busca mais informações sobre o mundo da inteligência artificial, recomendamos esse artigo que explica em detalhes do que se trata, os principais tipos, avanços na área e mais.
Veja também
Fontes: Google DeepMind e X.
Revisado por Glauco Vital em 27/2/24.