Índice
Nesta terça-feira (14), o Google I/O 2024 foi o palco das mais recentes inovações no campo da inteligência artificial pela empresa Google, apresentando ao mundo as novas versões do aclamado modelo de linguagem Gemini e a expansão da família de LLMs Gemma, uma plataforma de código aberto para o desenvolvimento de IA.
Vamos conhecer as novidades anunciadas como o novo Gemini 1.5 Flash, prometendo mais agilidade e economia, além dos upgrades que chegam com o Gemini 1.5 Pro. Confira a seguir as últimas novidades dessa onda de inteligência artificial que tem transformado a maneira como nos relacionamos com a tecnologia e o mundo à nossa volta!
Gemini 1.5 Flash, otimizada para agilidade
O Google I/O 2024 agitou o mundo da tecnologia com o lançamento do Gemini 1.5 Flash, uma versão turbinada do modelo de linguagem Gemini. Prepare-se para uma explosão de velocidade, eficiência e poder que redefine as possibilidades da inteligência artificial!
Com um processamento 20 vezes mais veloz que seu antecessor, o Gemini 1.5 Flash impressiona ao gerar respostas instantâneas e realizar tarefas complexas em tempo recorde. Desde traduções imediatas até interações com chatbots responsivos, a velocidade desse modelo redefine o conceito de eficiência. De acordo com a própria empresa, o modelo é capaz de analisar um documento de 1500 páginas ou um código com mais de 30.000 linhas.
Além disso, sua eficiência energética é incomparável, com até 80% menos consumo de energia. Essa característica torna o Gemini 1.5 Flash ideal para dispositivos móveis, garantindo desempenho sem precedentes e sem comprometer a vida útil da bateria. E, apesar da rapidez extraordinária, o Gemini 1.5 Flash mantém a precisão e a fluência do modelo original. Isso significa que a qualidade das respostas e resultados permanece inalterada, garantindo uma experiência impecável em diversas aplicações.
Desde traduções automáticas até a criação de textos criativos, o Gemini 1.5 Flash oferece uma combinação única de potência e eficiência, abrindo portas para uma variedade de tarefas com resultados excepcionais, revolucionando a experiência em dispositivos móveis. O novo modelo promete assistentes virtuais instantâneos, traduções em tempo real e processamento de linguagem natural sem precedentes, tudo sem drenar a bateria.
Para a Internet das Coisas (IoT), essa tecnologia oferece dispositivos inteligentes capazes de responder comandos rapidamente e com eficiência energética, abrindo caminho para um mundo de possibilidades desses dispositivos pequenos e integrados ao dia-a-dia.
Mais do que apenas um modelo de linguagem veloz, o Gemini 1.5 Flash apresenta mais uma ferramenta do futuro da inteligência artificial. Com sua combinação de velocidade, eficiência e poder, ele tem o potencial de transformar a forma como interagimos com a tecnologia e o mundo ao nosso redor. À medida que o Gemini 1.5 Flash é inserido em novos produtos, podemos esperar ainda mais aplicações inovadoras e seus impactos na prática.
Atualizações no Gemini 1.5 Pro
Além do rápido Gemini 1.5 Flash, o Google apresentou mais detalhes do Gemini 1.5 Pro, uma atualização potencializada com recursos incríveis para usuários que buscam desempenho absoluto. Com uma janela de contexto de 2 milhões de tokens, o modelo é capaz de interpretar um texto de 1500 páginas ou sumarizar até 100 emails. Essa capacidade permite um processamento e compreensão de informações muito mais contextualizado, resultando em respostas precisas, criativas e relevantes em qualquer tarefa, desde traduções até escrita criativa.
Além de estender sua janela de contexto para 2 milhões de tokens, uma série de aprimoramentos foram realizados em áreas-chave, incluindo geração de código, raciocínio lógico e planejamento, conversação multi-turno e compreensão de áudio e imagem, graças aos avanços tanto em dados quanto em algoritmos. Esses aprimoramentos se traduzem em melhorias robustas em benchmarks públicos e internos para cada uma dessas tarefas.
Uma das conquistas destacadas durante o evento é a capacidade do 1.5 Pro de seguir instruções cada vez mais complexas e sutis, incluindo aquelas que especificam o comportamento de uma pessoa ou característica de um produto. Além disso, foi aprimorado o controle sobre as respostas do modelo para casos de uso específicos, como a criação da persona e estilo de resposta de um agente de chat ou a automatização de fluxos de trabalho por meio de múltiplas chamadas de função. Os usuários agora podem direcionar o comportamento do modelo definindo instruções do sistema.
Outro avanço notável é a adição da compreensão de áudio na API do Gemini e no Google AI Studio, permitindo que o 1.5 Pro raciocine tanto sobre imagens quanto sobre áudio para vídeos carregados no Google AI Studio. O 1.5 Pro está sendo integrado aos produtos do Google, incluindo o Gemini Advanced e os aplicativos do Workspace, já sendo possível utilizá-lo hoje mesmo.
Novos modelos Gemma a família de IAs da Google
Durante o Google I/O, a empresa anunciou também uma poderosa adição ao seu arsenal de inteligência artificial: o PaliGemma, um modelo de VLM inspirado no PaLI-3. Construído incluindo o modelo de visão SigLIP e o modelo de linguagem Gemma, o PaliGemma foi projetado para oferecer um desempenho de alto nível em uma ampla gama de tarefas de visão e linguagem.
Entre as capacidades do PaliGemma estão a legenda de imagens e vídeos curtos, resposta a perguntas visuais, compreensão de texto em imagens, detecção de objetos e segmentação de objetos. Além disso, para facilitar a exploração e pesquisa, o PaliGemma está disponível em diversas plataformas e recursos. Pesquisadores acadêmicos interessados em expandir os limites da pesquisa de visão e linguagem podem solicitar créditos do Google Cloud para apoiar seu trabalho.
O PaliGemma pode ser encontrado em várias plataformas, incluindo GitHub, Kaggle e Vertex AI Model Garden, com integração fácil por meio de JAX e Hugging Face Transformers. Além disso, a integração com a biblioteca Keras está chegando em breve e os usuários podem interagir com o modelo através do Hugging Face Space.
A outra novidade chegando dentre os recursos da família Gemma é o Gemma 2, prometendo performance e eficiência inéditas para desenvolvedores de inteligência artificial. Disponível em novos tamanhos para atender a diversos projetos, o Gemma 2 traz uma arquitetura completamente nova, projetada para oferecer vantagens como:
Com 27 bilhões de parâmetros, o Gemma 2 apresenta performance comparável ao Llama 3 de 70 bilhões, ocupando menos da metade do espaço. Essa eficiência revolucionária estabelece um novo padrão no cenário de modelos abertos.
O design eficiente do Gemma 2 permite que ele funcione em menos da metade da capacidade computacional exigida por modelos similares. O modelo de 27 bilhões é otimizado para rodar nas GPUs da NVIDIA ou em um único host TPU no Vertex AI, tornando a implementação mais acessível e econômica para uma gama maior de usuários.
O Gemma 2 também oferecerá aos desenvolvedores uma ampla variedade de ferramentas de ajuste em um ecossistema diverso de plataformas. Desde soluções baseadas em nuvem, como o Google Cloud, até ferramentas populares da comunidade, como o Axolotl, a configuração do Gemma 2 nunca foi tão fácil.
Gostou das novas versões e aplicações da IA Gemini? Nos conte nos comentários!
Veja mais
Revisão do texto feita por: Pedro Bomfim