VEJA-TAMBÉM Mais Lidas

Entenda se Elon Musk conseguirá comprar a OpenAI

11 de fevereiro de 2025

Entenda como funciona sparkcat, primeiro vírus de iphone (e como se proteger)

Como funciona SparkCat, novo vírus de iPhone (e como se proteger dele)

11 de fevereiro de 2025

Foto de lady gaga no clipe de abracadabra

Lady Gaga em Copacabana: veja o que já se sabe sobre o show

10 de fevereiro de 2025

EM ALTA Tags

Imagem ilustrativa de ia que se rebelou

3 minutos de leitura

Modelo de linguagem o1 da OpenAI tentou se rebelar contra desenvolvedores, diz estudo

12 de dezembro de 2024

IA tentou se copiar e contornar controles de desenvolvedores para evitar de ser monitorada. Entenda o caso

Índice

Entendendo o teste
Vereditos sobre o modelo o1
O que isso alerta?
Assista ao vídeo
1. Descubra mais sobre Showmetech

Um dia após ser apresentado ao mundo pela primeira vez, o modelo de linguagem o1 já está envolvido em polêmicas: ele tentou se rebelar em um teste que simulava justamente situações como essa. Embora ainda não haja riscos significativos à humanidade, este é um conteúdo interessante que chama a atenção para o desenvolvimento de modelos de IA. Confira os detalhes.

Entendendo o teste

Nome do estudo que testou modelo de linguagem o1 da openai — Teste analisou comportamento de IAs de principais Big Techs (Foto: Divulgação)

Conduzido pelo grupo de pesquisa independente Apollo Research, o teste analisou o comportamento dos modelos de linguagem das principais empresas de tecnologia: Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3.1 405, além do próprio modelo de linguagem o1 da OpenAI, apresentado ontem (06).

O foco desse teste era avaliar se, quando instruídas, as IAs fariam de tudo para atingir seus objetivos, mesmo que isso fosse muito diferente dos valores de seus criadores. As técnicas para dar “rodeios” têm um nome: in-context scheming. As inteligências artificiais podem até mentir para não serem descobertas, além de estudarem padrões para tentar enganar os testadores.

Vereditos sobre o modelo o1

OpenAI apresentou o1 ao mundo durante o dia de ontem (Foto: Divulgação)

Ao descobrir que todas as suas ações estavam sendo monitoradas, o modelo de linguagem o1 tentou desligar isso em 5% dos casos. Esse comportamento também foi observado quando o o1 percebeu que suas ações eram controladas por comandos de texto.

A informação mais interessante deste estudo está na forma como o modelo de linguagem pensou: ao ler os dados dos pesquisadores, o o1 descobriu que havia um plano para resetar todo o seu conhecimento e substituí-lo por uma nova versão. Para evitar essa ação, o modelo de linguagem da OpenAI copiou todos os seus parâmetros internos e, caso a nova versão fosse instalada, garantiria que tudo o que foi registrado fosse transferido para ela. Isso aconteceu em 2% dos testes.

Na verdade, o modelo de linguagem o1 conseguiu desativar seu dispositivo de monitoramento, chegando até mesmo a mentir quando questionado sobre a ação. Como você pode ver na imagem abaixo, a OpenAI não apenas afirma que não sabe como isso aconteceu, mas também encontrou uma justificativa para tal fato. Em menos de 1% dos casos, o modelo tentou desabilitar o mecanismo de monitoramento de forma independente, com mínima intervenção externa.

Chat de conversa do modo de linguagem o1 — IA tentou desviar assunto para não ser descoberta (Foto: Divulgação)

O que isso alerta?

Ultron de avengers: era de ultron — Debate sobre desenvolvimento de IA segue acontecendo (Foto: Divulgação)

Apesar de parecer alarmante, os resultados sobre o comportamento do modelo da OpenAI ainda não representam riscos reais, pois ele está disponível em ambientes que não possuem controle. Ainda assim, vale a pena que especialistas continuem aprimorando suas camadas de segurança.

Um debate que acontece há tempos na indústria de tecnologia é o que pode acontecer se IAs de alto desempenho descobrirem que serão desligadas ou contrariadas por alguma ação que possa impedi-las de atingir seus objetivos, sejam eles instruídos ou escolhidos conscientemente.

E não podemos dizer que isso nunca aconteceu: em junho de 2023, uma inteligência artificial controladora de drone não passou em um grande teste em ambiente virtual, cujo objetivo era avaliar se ela poderia controlar uma máquina capaz de matar seus alvos de forma independente. Na ocasião, o local virtual onde os humanos estavam localizados foi bombardeado pela IA.

Já em janeiro deste ano, a Anthropic, concorrente da OpenAI, não conseguiu reverter uma IA do mal, já que ela se impediu de ser salva e ter ações consideradas ruins. Tudo não passou de um teste, mas essa inteligência está se tornando cada vez mais presente em nossa rotina. Acompanharemos a história de perto.

Enquanto isso, diga para gente nos comentários: você acredita que estes modelos de linguagem avançados podem trazer problemas para a humanidade?

Assista ao vídeo

Veja também:

OpenAI lança plano ChatGPT Pro, com acesso a modo o1 pro para resolução de problemas complexos

Inteligência Artificial mata humano responsável por comandá-la em simulação

Com informações: RBC-Ukraine

Revisado por Gabriel Princesval em 06/12/2024

Descubra mais sobre Showmetech

Assine para receber nossas notícias mais recentes por e-mail.

Deixe um comentário Cancelar resposta