Gemini 1. 5 pro

Atualização do Gemini 1.5 Pro faz IA ouvir e gerar conteúdo

Avatar de joão lucas batista
Com a nova atualização, a inteligência artificial do Google agora compreende e analisa áudio. Imagen 2 agora consegue adicionar e remover elementos de imagens e criar GIFs de 4 segundos

A Inteligência Artificial do Google, o Gemini, recebeu uma nova e inovadora atualização nesta terça-feira, dia nove de abril, durante o Google Cloud Next. Com o upgrade, o Gemini 1.5 Pro, recebeu a capacidade de compreender e analisar linhas de áudio e vídeo, produzindo conteúdo com base no que for inserido no aplicativo.

A princípio, a novidade está disponível apenas para os usuários do Vertex AI, software voltado para machine learning (aprendizado de máquina), utilizado por programadores e cientistas para desenvolvimento de novas IAs.

O que faz o Gemini, a IA do Google?

Atualização do gemini 1. 5 pro faz ia ouvir e gerar conteúdo. Com a nova atualização, a inteligência artificial do google agora compreende e analisa áudio. Imagen 2 agora consegue adicionar e remover elementos de imagens e criar gifs de 4 segundos
Interface do Gemini. Imagem: Lucas Gomes/ Showmetech

O Gemini, Inteligência Artificial do Google, foi lançado em dezembro do ano passado, substituindo o Bard, e se destaca por sua capacidade de lidar com tarefas altamente complexas, desde codificações até raciocínio lógico refinado.

A Inteligência Artificial possui funções que podem auxiliar o usuário nas mais diversificadas tarefas, manipulando uma ampla variedade de arquivos, com o propósito de combinar diferentes tipos de informação, além de organizá-las. Suas capacidades permitem utilizar diferentes formatos de conteúdo, sendo eles:

  • textos;
  • imagens;
  • áudios;
  • vídeos; e
  • linguagens de programação.

O Gemini possui três modos de operação, com especificidades diferentes:

  • Gemini Ultra — maior e mais hábil para tarefas altamente complexas;
  • Gemini Pro — melhor para escalar grande variedade de tarefas;
  • Gemini Nano — mais eficiente para tarefas em dispositivos móveis.

Atualização Gemini 1.5 Pro e suas novas funções

Atualização do gemini 1. 5 pro faz ia ouvir e gerar conteúdo. Com a nova atualização, a inteligência artificial do google agora compreende e analisa áudio. Imagen 2 agora consegue adicionar e remover elementos de imagens e criar gifs de 4 segundos
Gemini IA. Imagem: rafares/Shutterstock)

Este novo modelo, apresentado pela gigante da tecnologia, representa um avanço significativo em relação ao anterior, com melhorias no desempenho e na compreensão de contextos longos. O Gemini 1.5 Pro, que é a versão inicial disponibilizada para testes, é otimizado para uma variedade de tarefas e é mais eficiente em termos de computação, sendo uma versão mais robusta e com capacidade de atender exigências de atividades ainda mais complexas.

Além disso, o Gemini 1.5 Pro contém um recurso experimental, que, em tese, poderá processar até 1 milhão de tokens para modelos de base de grande escala, o que será revolucionário. Segundo o Google, essa imensa quantidade representa 700.000 palavras e 30.000 linhas de código, o que equivale a uma hora de vídeo ou 11 horas de áudio.

As novas ferramentas do Gemini 1.5 Pro permitem o aplicativo a raciocinar entre imagens (quadros) e áudio (fala) para vídeos enviados no Google AI Studio, o que vai facilitar a produção de conteúdo. Conforme as informações oficiais, a atualização da IA do Google está disponível em mais de 180 países através da API (Interface de Programação de Aplicações, em português) do Gemini, com uma capacidade nativa inédita de compreensão de áudio e uma nova API que facilitam o manuseio de arquivos.

O lançamento conta também com novos recursos de instruções do sistema e modo JSON (formato de dados leve para troca de informações entre sistemas computacionais). Acreditando no potencial da nova atualização, o Google promete que o modelo de incorporação de texto supera os concorrentes com funções semelhantes.

O Gemini 1.5 Pro está disponível no momento somente através do Vertex IA.

Imagen 2 consegue criar GIFs

Durante o evento Google Cloud Next, outro anúncio importante foi feito pelo Google: o modelo de IA Imagen 2, que pode gerar imagens e vídeos curtos a partir de prompts de texto. Com isso, é possível criar GIFs de até quatro segundos a partir de diferentes ângulos de câmera e também mostrar movimento.

A diferença dessa ferramenta é justamente a possibilidade de explorar diversos ângulos, com mais dinamismo nas cenas, muito além dos vídeos de IA gerados com fotos estáticas e movimentos limitados.

Exemplo de criações a partir do Imagen 2 no Vertex IA. Vídeo: Google Cloud/ YouTube

O Imagen 2 tem capacidade de produzir videoclipes, também conhecidos como imagens ao vivo, em uma resolução baixa de 640 x 360. Além disso, o Google está usando sua técnica SynthID para aplicar uma marca d’água invisível em clipes e imagens gerados por IA. A empresa afirma que o SynthID pode suportar edições e até compactação, medidas que visam promover a segurança de dados.

Até o momento, os recursos do Imagen 2 estão disponíveis apenas através do Vertex IA, que agora inclui suporte para pintura interna e externa, além da capacidade de editar imagens utilizando IA, possibilitando expandir as bordas ou adicionar/remover partes específicas da imagem. Ferramentas voltadas à profissionais de marketing e criação de conteúdo para campanhas, entre outras peças publicitárias e plataformas de vídeo.

Vertex IA

Atualização do gemini 1. 5 pro faz ia ouvir e gerar conteúdo. Com a nova atualização, a inteligência artificial do google agora compreende e analisa áudio. Imagen 2 agora consegue adicionar e remover elementos de imagens e criar gifs de 4 segundos
Plataforma Vertex IA. Imagem: Google/Reprodução

O Vertex IA é uma plataforma de machine learning (ML) que possibilita o treinamento e a implantação de ferramentas e aplicativos de IA, incluindo a personalização de grandes modelos de linguagem (LLMs) para uso em aplicativos com tecnologia de IA.

A plataforma compila diversos recursos e aplicativos do Google, integrando fluxos de trabalho de engenharia de dados, ciência de dados e engenharia de machine learning, permitindo a colaboração entre equipes por meio de um conjunto comum de ferramentas, além de escalar aplicativos com os benefícios do Google Cloud.

A Vertex AI oferece diversas opções para treinamento e implantação de modelos:

  • AutoML permite treinar dados tabulares, de imagem, texto ou vídeo sem a necessidade de escrever códigos, ou preparar divisões de dados.
  • O treinamento personalizado proporciona controle total sobre o processo de treinamento, incluindo o uso do framework de ML preferido, codificação própria de treinamento e seleção de opções de ajuste de hiperparâmetros.
  • Model Garden possibilita a descoberta, teste, personalização e implantação de modelos Vertex AI, incluindo seleção de modelos e recursos de código aberto (OSS).
  • A IA generativa oferece acesso aos grandes modelos de IA generativa do Google em várias modalidades (textos, códigos, imagens, fala). É possível ajustar os LLMs do Google para atender às suas necessidades e implantá-los para uso em seus aplicativos com tecnologia de IA.

Fonte: The Verge, Google for Developers, Tom’s guide, Beebom, Google Cloud.

Veja também:

Revisado por Glauco Vital em 10/4/24.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados