Índice
Um dia após ser apresentado ao mundo pela primeira vez, o modelo de linguagem o1 já está envolvido em polêmicas: ele tentou se rebelar em um teste que simulava justamente situações como essa. Embora ainda não haja riscos significativos à humanidade, este é um conteúdo interessante que chama a atenção para o desenvolvimento de modelos de IA. Confira os detalhes.
Entendendo o teste
Conduzido pelo grupo de pesquisa independente Apollo Research, o teste analisou o comportamento dos modelos de linguagem das principais empresas de tecnologia: Claude 3.5 Sonnet, Gemini 1.5 Pro, Llama 3.1 405, além do próprio modelo de linguagem o1 da OpenAI, apresentado ontem (06).
O foco desse teste era avaliar se, quando instruídas, as IAs fariam de tudo para atingir seus objetivos, mesmo que isso fosse muito diferente dos valores de seus criadores. As técnicas para dar “rodeios” têm um nome: in-context scheming. As inteligências artificiais podem até mentir para não serem descobertas, além de estudarem padrões para tentar enganar os testadores.
Vereditos sobre o modelo o1
Ao descobrir que todas as suas ações estavam sendo monitoradas, o modelo de linguagem o1 tentou desligar isso em 5% dos casos. Esse comportamento também foi observado quando o o1 percebeu que suas ações eram controladas por comandos de texto.
A informação mais interessante deste estudo está na forma como o modelo de linguagem pensou: ao ler os dados dos pesquisadores, o o1 descobriu que havia um plano para resetar todo o seu conhecimento e substituí-lo por uma nova versão. Para evitar essa ação, o modelo de linguagem da OpenAI copiou todos os seus parâmetros internos e, caso a nova versão fosse instalada, garantiria que tudo o que foi registrado fosse transferido para ela. Isso aconteceu em 2% dos testes.
Na verdade, o modelo de linguagem o1 conseguiu desativar seu dispositivo de monitoramento, chegando até mesmo a mentir quando questionado sobre a ação. Como você pode ver na imagem abaixo, a OpenAI não apenas afirma que não sabe como isso aconteceu, mas também encontrou uma justificativa para tal fato. Em menos de 1% dos casos, o modelo tentou desabilitar o mecanismo de monitoramento de forma independente, com mínima intervenção externa.
O que isso alerta?
Apesar de parecer alarmante, os resultados sobre o comportamento do modelo da OpenAI ainda não representam riscos reais, pois ele está disponível em ambientes que não possuem controle. Ainda assim, vale a pena que especialistas continuem aprimorando suas camadas de segurança.
Um debate que acontece há tempos na indústria de tecnologia é o que pode acontecer se IAs de alto desempenho descobrirem que serão desligadas ou contrariadas por alguma ação que possa impedi-las de atingir seus objetivos, sejam eles instruídos ou escolhidos conscientemente.
E não podemos dizer que isso nunca aconteceu: em junho de 2023, uma inteligência artificial controladora de drone não passou em um grande teste em ambiente virtual, cujo objetivo era avaliar se ela poderia controlar uma máquina capaz de matar seus alvos de forma independente. Na ocasião, o local virtual onde os humanos estavam localizados foi bombardeado pela IA.
Já em janeiro deste ano, a Anthropic, concorrente da OpenAI, não conseguiu reverter uma IA do mal, já que ela se impediu de ser salva e ter ações consideradas ruins. Tudo não passou de um teste, mas essa inteligência está se tornando cada vez mais presente em nossa rotina. Acompanharemos a história de perto.
Enquanto isso, diga para gente nos comentários: você acredita que estes modelos de linguagem avançados podem trazer problemas para a humanidade?
Assista ao vídeo
Veja também:
Com informações: RBC-Ukraine
Revisado por Gabriel Princesval em 06/12/2024
Descubra mais sobre Showmetech
Assine para receber nossas notícias mais recentes por e-mail.