Índice
Criado para competir com o ChatGPT pela X.AI, empresa de Elon Musk, o Grok é um chatbot que sempre se destacou por seu senso de humor sarcástico e politicamente incorreto. Disponível para assinantes do plano Premium+ do X (antigo Twitter), o Grok também é atualizado em tempo real a partir de dados da plataforma, oferecendo contexto sobre trending topics e posts em alta, além de oferecer recursos adicionais, como geração de imagens, navegação via Bing e análise de dados avançada.
Agora, X.AI, empresa de inteligência artificial de Elon Musk, anunciou o Grok-1.5 Vision Preview, uma nova versão da IA de Elon Musk que expandirá suas capacidades para análise de imagens, planilhas e documentos, permitindo não apenas o processamento texto, mas também a interpretação e extração de informações em imagens.
Novidades da versão
Combinando seus recursos de processamento de texto com a capacidade de analisar uma ampla variedade de informações visuais, como documentos, diagramas, gráficos, capturas de tela e fotografias, o Grok-1.5V promete impressionar. Esta nova versão estará em breve disponível para os primeiros testadores e usuários existentes do Grok, porém, em testes prévios, o Grok-1.5V já demonstrou ser altamente competitivo com modelos multimodais em diversos domínios.
No entanto, o que mais impressiona são as capacidades do Grok-1.5V na compreensão do mundo físico, incluindo a interpretação de imagens de capturas de tela e fotografias. Esta habilidade abre novas possibilidades em termos de interação entre humanos e máquinas, bem como aplicações em áreas como visão computacional e assistência virtual.
A X.AI demonstrou a capacidade impressionante da nova versão do Grok em interpretar imagens, como exemplificado por sua habilidade em escrever código a partir de um diagrama específico. Como vemos abaixo, o diagrama descreve um jogo de adivinhação a partir de um fluxograma lógico e das interações do usuário. Ao ser questionado se poderia traduzir o diagrama para código Python, o Grok-1.5V respondeu com precisão, fornecendo um código que representa a lógica do jogo descrito no fluxograma.
Já no exemplo a seguir, o Grok-1.5V demonstrou sua capacidade de calcular calorias a partir de informações nutricionais fornecidas em uma imagem. A imagem mostrava um close-up dda tabela nutricional em uma embalagem de alimento, listando diversos detalhes nutricionais, como o tamanho da porção e a quantidade de calorias por porção. Quando questionado sobre quantas calorias teriam 5 fatias do produto, o Grok respondeu com exatidão, explicando que, se uma porção é de 3 fatias e contém 60 calorias, então 5 fatias teriam aproximadamente 100 calorias.
Com relação a outra demonstração (foto abaixo), o Grok usou sua capacidade de criar uma história para dormir a partir de um desenho feito por uma criança. O desenho mostrava um menino ao lado de um barco. Quando questionado se poderia contar uma história baseada no desenho, o Grok respondeu com uma narrativa envolvente sobre um menino corajoso chamado Timmy. Essa capacidade do Grok-1.5V de transformar um simples desenho em uma história cativante demonstra sua habilidade em interpretar e criar narrativas.
A capacidade de interpretar e criar narrativas se repete no exemplo seguinte, com o Grok explicando um meme que satiriza as diferenças entre startups e grandes empresas. Na imagem, há dois painéis: à esquerda, intitulado “Startups”, um grupo de trabalhadores da construção civil está ativamente cavando um buraco; à direita, intitulado “Grandes empresas”, um grupo de pessoas observa um único homem cavar. A explicação do Grok destaca o contraste entre a colaboração intensa e a eficiência das startups, em comparação com a possível burocracia e falta de agilidade das grandes empresas.
Já na imagem a seguir, o Grok-1.5V foi capaz de converter a tabela para o formato CSV utilizando suas habilidades de processamento de linguagem natural e interpretação de informações visuais. Ao analisar a tabela que mostra os vencedores de medalhas olímpicas do Marrocos nos Jogos Paralímpicos de Verão de 2016, o Grok identificou as colunas relevantes, como “medalha”, “nome”, “esporte”, “evento” e “data”. Em seguida, ele organizou essas informações em linhas separadas por vírgulas, conforme o padrão do formato CSV. Essa capacidade do Grok demonstra sua habilidade em extrair e reorganizar dados de forma precisa, útil para converter informações tabulares em formatos mais facilmente manipuláveis.
A X.AI já está planejando melhorias significativas em suas capacidades multimodais nos próximos meses. Com foco em diversas modalidades, como imagens, áudio e vídeo, o objetivo é continuar avançando em direção a uma inteligência artificial geral (AGI) benéfica, capaz de compreender e interagir com o universo de forma cada vez mais sofisticada.
Compreensão do mundo real
O Grok-1.5V também está se preparando para adquirir uma “compreensão espacial do mundo real”, permitindo uma melhor interpretação do mundo físico representado nas imagens enviadas por seus usuários. Essa melhoria é crucial para o desenvolvimento de assistentes de IA mais úteis para o mundo real. Para alcançar esse objetivo, está sendo introduzido um novo benchmark, o RealWorldQA, projetado especificamente para avaliar as capacidades de compreensão espacial de modelos multimodais como o Grok-1.5V.
Embora muitos dos exemplos presentes no benchmark possam parecer simples para os humanos, eles representam um desafio significativo para os modelos de IA atuais, destacando a necessidade de avanços nessa área para melhorar a capacidade das IAs de entender e interagir com o mundo físico de forma mais eficaz.
Na imagem acima, por exemplo, a inteligência artificial foi capaz de analisar e responder à pergunta “Qual objeto é maior: o cortador de pizza ou a tesoura?”. Essa capacidade de comparação de tamanhos requer uma compreensão espacial do mundo físico. A IA foi capaz de identificar os objetos na imagem, reconhecendo suas formas e tamanhos relativos. Com base em sua análise, a IA determinou que o cortador de pizza é maior do que a tesoura. Essa habilidade demonstra como a IA pode ser treinada para compreender e responder a perguntas sobre objetos físicos em imagens, o que é fundamental para seu desenvolvimento como assistente útil no mundo real.
Já nesse outro exemplo (imagem acima), o Grok-1.5V determinou a direção cardeal na qual o dinossauro está voltado. A imagem não fornece referências visuais claras, como uma bússola ou pontos de referência no ambiente ao redor do dinossauro, mas, ainda sim, o Grok respondeu corretamente à pergunta, indicando que o dinossauro está voltado para o Leste.
Comparação com outras IAs
O Grok-1.5 Vision Preview demonstrou um desempenho excepcional em comparação com outras inteligências artificiais em um novo benchmark denominado RealWorldQA, que avalia a compreensão espacial do mundo real. Este benchmark foi realizado em uma configuração de disparo zero, sem a necessidade de uma solicitação de cadeia de pensamento específica.
Ao analisar diferentes conjuntos de dados, o Grok-1.5V superou seus pares em várias áreas-chaves. No benchmark Multi-discipline (MMMU), que envolve uma variedade de disciplinas, o Grok-1.5V obteve uma pontuação de 53.6%, superando ligeiramente outras IAs como o GPT-4V e o Claude 3 Sonnet.
No Mathvista, que se concentra em questões matemáticas, o Grok-1.5V alcançou uma pontuação de 52.8%, mais uma vez superando seus concorrentes. Em AI2D, que avalia a compreensão de diagramas, o Grok-1.5V obteve uma pontuação impressionante de 88.3%, superando significativamente outras IAs como o GPT-4V e o Gemini Pro 1.5.
Em DocVQA, que envolve a compreensão de documentos, o Grok-1.5V teve um desempenho com uma pontuação de 85.6%, ficando atrás de GPT-4V, Claude 3 Sonnet e Claude 3 Opus. No benchmark RealWorldQA, que avalia a compreensão do mundo real, o Grok-1.5V obteve uma pontuação de 68.7%, demonstrando mais uma vez sua superioridade em relação às outras IAs avaliadas.
Esses resultados destacam a capacidade do Grok-1.5 Vision Preview de compreender uma variedade de tarefas complexas e contextualmente relevantes, o que o torna uma escolha promissora para uma ampla gama de aplicações de IA no mundo real. Entretanto, É importante ressaltar que, embora o Grok-1.5V tenha demonstrado um desempenho impressionante em comparação a outras inteligências artificiais no benchmark RealWorldQA, os resultados desses benchmarks não são necessariamente 100% seguros.
Eles são indicativos do desempenho relativo das diferentes IAs em diferentes conjuntos de dados e cenários, mas não devem ser considerados como uma medida definitiva da capacidade geral de uma IA. A interpretação precisa dos resultados depende de uma série de fatores, incluindo a natureza dos conjuntos de dados, a metodologia de avaliação e a complexidade das tarefas em questão.
Veja o vídeo
Veja também:
Fontes: Grok, Interesting Engineering e Mashable
Revisado por Glauco Vital em 15/4/24.
Descubra mais sobre Showmetech
Assine para receber nossas notícias mais recentes por e-mail.