Imagens de mulher com pele de folha e cidade futurística geradas pelo stable diffusion

Imagens criadas pelo Stable Diffusion são incríveis, mas seu código aberto preocupa

Avatar de pedro spadoni
O Stable Diffusion é um gerador de imagens com IA tipo o DALL-E, mas com uma diferença crucial: já foi lançado ao público geral

A história dos geradores de imagens que usam Inteligência Artificial (IA) ganhou mais um capítulo (com várias notas de rodapé): o Stable Diffusion. Ele é tipo o DALL-E – que ficou famoso nas redes sociais neste ano por conseguir criar cenas estranhíssimas usando comandos de texto – só que com duas diferenças importantes: já foi lançado ao público e tem código aberto.

Esses dois pontos, combinados ao potencial do Stable Diffusion em gerar imagens espetaculares – e, mais importante, críveis – tem gerado debates e preocupações na web. Há quem esteja empolgado com as possibilidades criativas e alcance democrático da ferramenta. Por outro lado, existem aqueles que estão preocupados com motivações escusas na hora de usá-la. E alguns estão p* porque o gerador consegue imitar, quase com perfeição, estilos artísticos (inclusive de quem ainda está vivo).

Fato é que o Stable Diffusion está surfando na onda de ferramentas criativas que usam deep learning (aprendizagem profunda, em tradução livre) para criar mídias visuais, junto a outras ferramentas, como o DALL-E 2, da OpenAI; Midjourney; e Imagen, do Google. E, por ter sido lançado recentemente, seu universo ainda tem aquela energia de terra sem lei.

O que é o Stable Diffusion?

Imagem gerada pelo stable diffusion de uma cidade futurística
Usando comandos de texto e imagens de referência, o Stable Diffusion cria paisagens surreais (Imagem: Divulgação)

É um gerador de imagens com IA. Com ele, qualquer pessoa que tenha um computador e uma placa de vídeo relativamente boa (no momento, ele só funciona com placas da Nvidia) consegue criar praticamente qualquer pintura digital que conseguir imaginar. Retrato da Beyonce pintado pelo Van Gogh? É possível. Vista de uma cidade cyberpunk no estilo do artista japonês Hokusai, do século 18? Dá pra fazer.

Sim, a ferramenta consegue imitar praticamente qualquer estilo visual, desde cartunistas famosos a daguerreotipistas do século 19 (isso existiu mesmo, pode dar um Google para checar). E também dá para incluir frases descritivas e imagens para referência na hora de configurar a demanda na ferramenta.

O Stable Diffusion saiu da mente de Emad Mostaque, fundador e CEO da startup Stability AI, cuja missão é criar projetos de IA com código aberto. Foi sob esse pretexto que a nova ferramenta chegou ao público, no final de agosto. Mas essa não é a primeira empreitada do empresário, que beira os 40 anos.

Em 2019, Mostaque, natural de Bangladesh, mas mora na Inglaterra atualmente, fundou a Symmitree. O objetivo desta startup, criada 14 anos após ele se formar na Universidade de Oxford, era reduzir o custo da tecnologia para pessoas em situação de pobreza. Um projeto bonito, mas que não foi pra frente, descontinuado no ano seguinte à sua criação. E aí, no final de 2020, veio a Stability AI.

Como usar o gerador de imagens com IA?

Você consegue brincar, de graça, com uma versão demo do Stable Diffusion, que funciona em navegadores mesmo, acessando páginas como HugginFace (empresa parceira da startup no desenvolvimento da ferramenta), DreamStudio (página comercial criada pela Stability AI para a ferramenta) e Google Collab. Porém, todas elas estão em inglês, com interfaces não muito intuitivas. E é preciso ter paciência, porque leva um tempo até você conseguir fazer com que a ferramenta gere imagens legais. Na página DreamStudio também dá para baixar e instalar a ferramenta.

Já em relação a maneiras de usar o gerador de imagens com IA, alguns defendem a ideia de trabalhar com ele como se fosse um instrumento, de forma parecida a um produtor musical ou artista plástico, que escolhem diversas ferramentas na hora de montar um beat ou pintar um quadro.

Atualmente, existem mais de um gerador de imagens com IA e cada um tem seus pontos fortes e fracos. Então, por que não combiná-los para criar algo? Foi o que a diretora Karen Cheng tentou fazer. Ela teve a ideia de usar IA para gerar peças de roupas e sobrepô-las num vídeo – e mostrou todo o processo num fio no Twitter (no caso, ela usou DALL-E e EbSynth).

Código aberto e outras questões

Imagens geradas pelo stable diffusion usando rostos de pessoas famosas
Possibilidade de fazer deepfakes no Stable Diffusion deixou comunidade alerta (Imagem: Reprodução/Ars Technica)

Ok, até agora vimos o potencial do Stable Diffusion (e geradores do tipo) para projetos recheados de criatividade. Mas o mundo não é uma grande Disneylândia. Muito menos a internet. Então, é preciso ressaltar o lado espinhoso da atitude da Stability AI em lançar uma ferramenta poderosa dessas de forma tão aberta e quase irrestrita.

O lançamento da ferramenta ao público deixou muitos em estado de alerta por receios relacionados aos impactos culturais e econômicos. É que, diferente do Dall-e, a base de dados do Stable Diffusion está disponível para qualquer um fuçar e usar sem muitas restrições.

Na prática, isso significa que as pessoas podem usar o Stable Diffusion para gerar imagens que a OpenAI barra no Dall-e, por exemplo. Entre esses tipos de imagens estão cenas violentas, pornografia, cenas que possam violar direitos corporativos e autorais, deepfake de celebridades e produção de material para desinformação e notícias falsas.

A “versão oficial” da ferramenta tem, sim, filtros que barram, por exemplo, nudez. Só que, por conta do código aberto, essas barreiras são contornáveis. E considerando que o Stable Diffusion está aí para todos que quiserem usá-lo, controlar (e barrar) uso com motivações escusas é basicamente impossível. Sobre isso, o CEO da Stability AI disse apenas:

Acreditamos em responsabilidade individual. Nós incluímos uma política de uso e ferramentas para mitigar danos.

Emad Mostaque, fundador e CEO da startup Stability AI, em entrevista ao site Art Technica

Outra frente quem tem gerado reboliço é a capacidade do Stable Diffusion em imitar estilos de artistas. O ponto é que a empresa “alimentou” a ferramenta com as obras dos artistas sem pedir permissão ou costurar qualquer tipo de acordo. Isso levantou uma série de questões relacionadas a ética e direitos autorais.

Próximos passos da empresa

Seja como for, o sucesso do Stable Diffusion, mesmo tendo sido lançado há menos de um mês, já subiu a valorização da Stability AI no mercado. A empresa, inclusive, teria tido reuniões com investidores para angariar US$ 100 milhões (R$ 523 milhões, na cotação atual) em recursos. E uma empresa de investimentos teria manifestado interesse em fechar um acordo que subiria o valor da startup para US$ 500 milhões (R$ 2,6 bilhões), segundo fontes da Forbes.

O CEO da empresa disse, numa entrevista recente ao engenheiro de machine learning e youtuber Yannic Kilcher, que está mirando em parcerias com “governos e instituições líderes”.

Mostaque também compartilhou, numa rede social, que a Stability AI investiu US$ 600 mil (R$ 3,1 milhões) para “treinar” o Stable Diffusion. Até agora, o investimento tem dado retorno.

Veja também:

DALL-E, a IA que cria imagens, tem testes públicos liberados e DALL-E agora imagina o que está além das bordas de obras de arte

Fontes: Ars Technica, Hackaday, Stability AI, TechCrunch, Forbes e DevOps

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Posts Relacionados