Bing Imagens
| Somir | Desfavor Bônus | 18 comentários em Bing Imagens
O Bing lançou a nova versão do gerador de imagens por inteligência artificial, e as imagens que estão saindo de lá já são um grande salto de qualidade em relação ao que veio antes. Se você quiser gastar dinheiro da Microsoft fazendo imagens bizarras, ainda é de graça: https://www.bing.com/images/create
Se você mexeu um pouco com isso ou viu um monte de imagens malucas surgindo na internet nos últimos dias, já sabe o potencial da ferramenta. Não só a IA consegue escrever (ela erra um pouco, mas é anos-luz melhor que as versões anteriores) como já consegue entregar resultados muito mais realistas e condizentes com que uma pessoa esperaria a partir do seu pedido escrito.
Ou, em termos mais simples, é o primeiro gerador de imagens realmente acessível e funcional para o grande público. A IA era meio rebelde com poses e relações entre pessoas nas gerações passadas, você precisava ser muito específico, e mesmo assim era bem aleatório se ela produziria uma imagem que fosse realmente relevante. Essa versão disponibilizada pelo Bing até consegue escrever: ela acerta boa parte das letras das frases que você pede.
Não quer dizer que é mágica agora, mas muda o paradigma, é como se falar com a IA fosse se comunicar por gestos, e agora ela começasse a entender sua língua mesmo. O texto é em parte uma divulgação para vocês poderem testar enquanto for rápido e grátis (a Microsoft diz que não pretende cobrar, mas só acredito vendo), e em parte para pensarmos o que vem por aí em relação a imagens.
Como meu trabalho tem muito de produção de imagens, várias pessoas já me perguntaram se eu estou preocupado com a qualidade cada vez maior da inteligência artificial: eu mantenho que não, mesmo vendo mais esse salto de qualidade ficando disponível para todo mundo. Uma coisa é produzir uma imagem, outra é saber o que você está fazendo num contexto publicitário, ou mesmo artístico.
Produzir imagens é um pedágio para a criatividade. Se eu imagino algo interessante que passe a mensagem que eu quero, tenho que ter o trabalho de achar as imagens originais e fazer todas as edições e montagens para chegar no resultado final. Por mais que eu goste da parte mecânica da coisa, eu não sou pago para gastar tempo mexendo no Photoshop ou similares, eu sou pago para entregar algo pronto para os meus clientes.
Porque no final das contas, o trabalho não é mandar um vídeo provando que a montagem demorou três dias, e sim… o resultado disso. Já vi muito estagiário de publicidade gastar horas e horas fazendo uma arte que ficou feia. Às vezes eu até deixava rolar para que a pessoa consiga ver na prática como esforço não é sinônimo de qualidade. Se você tem uma ideia ruim e muita dedicação, o resultado vai ser algo ruim e trabalhoso.
Ou pior ainda, se você não tem uma ideia e quer usar força bruta para entregar algo bem feito, o desperdício de tempo é ainda mais severo. Se você pelo menos tiver uma ideia no começo do trabalho, ainda dá tempo de pensar sobre ela, ou conversar com outra pessoa para ter uma segunda opinião; agora, se você deixa o acaso te guiar, pode gastar horas e horas de trabalho fazendo algo sem pé nem cabeça que nunca vai melhorar.
Essa é uma lição importante para quem trabalha com produção de imagens (artes em geral): você tem que ter alguma ideia sobre o que está fazendo, e essa ideia tem que fazer sentido antes de começar a ter trabalho com ela. O número de variáveis é basicamente infinito entre fotos, elementos gráficos, texto, cores, disposições visuais…
E é aqui que eu não vejo concorrência séria da inteligência artificial: mesmo os modelos de linguagem mais coerentes como as últimas versões do ChatGPT não tem a menor ideia do que é uma… ideia. IAs são papagaios, que se comunicam de forma que a gente entende, mas sem entenderem elas mesmas o que estão dizendo. Ainda tem chão até o computador realmente ter um modelo interno de compreensão da realidade para entender o que estamos falando.
Isso você pode ver na prática com o link do Bing Imagens: se você não tiver uma ideia interessante para passar para a IA, é complicado sair algo interessante. Se a sua ideia for uma bola vermelha em cima de uma mesa, é isso que vai acontecer:
Se sua ideia for um elefante alado voando sobre Constantinopla durante uma guerra de robôs futuristas, acontece isso:
Ainda é uma ferramenta. Ainda precisa de uma pessoa usando a ferramenta. A IA já tem algumas ideias do que é esteticamente agradável para nós, macacos pelados, mas ainda é totalmente dependente para desenvolver alguma coisa que realmente converse conosco. O grande salto nos últimos tempos foi a capacidade de separar os elementos da imagem e criar composições mais claras. Quem tem ideias bacanas vai se beneficiar muito, quem não está com cabeça para imaginar vai ter resultados bem chatos.
Eu não me vejo competindo com uma ferramenta. Não é por isso que eu cobro, não é isso que eu realmente faço. O que ainda temos de vantagem é um modelo interno de realidade que transforma informações e objetivos em comunicação focada. Pode chegar o momento em que a competição alcance esse ponto, mas a lógica é que ninguém vai perder emprego para a IA, vão perder emprego para alguém que sabe usar a IA.
De uma certa forma, é mais ou menos como a popularização das redes sociais: rapidamente a grande maioria da humanidade passou a ter uma plataforma de comunicação. Quem não tinha voz começou a ter. O que aconteceu? Uma imensa maioria de pessoas falando nada com nada, conteúdo sofrível. Com vídeo, a mesma coisa: todo mundo podia fazer vídeos, mas no final das contas é só papo furado ou mostrar a bunda.
Um pequeno grupo de pessoas aproveitou as ferramentas para colocar no mundo ideias interessante e inovadoras, mas a maioria só fez mais do mesmo. Nem estou dizendo que o ser humano não é criativo, e sim que na maior parte do tempo ele mal se importa em ser criativo. Quem faz sucesso ganha milhares de imitadores, boa parte nem sabe exatamente o que está imitando, só repete alguns padrões e torce para dar certo.
Geradores de imagens cada vez mais avançados vão permitir que de novo, um pequeno grupo mais criativo consiga inundar a rede de conteúdo, e que o povão vai continuar só compartilhando e dando opiniões sobre isso. A ferramenta criativa exige um mínimo de interesse em… criação. Se não é a sua praia criar imagens, pode ser o sistema mais espetacular de geração que você não vai querer mexer naquilo.
Sem contar que você precisa saber comunicar uma ideia. Quem já leu qualquer e-mail de trabalho sabe que boa parte da população mundial não sabe nem por onde começar uma comunicação eficiente. Salvo uma máquina capaz de ler seus pensamentos diretamente, é bem difícil imaginar o ser humano médio conseguindo expressar em uma frase um conceito bem definido sobre o que quer ver numa imagem.
Na verdade, a grande mudança que eu vejo com a popularização de geradores de imagens é o grau de confusão que elas vão gerar na cabeça do brasileiro médio e afins. As pessoas já acreditam em basicamente tudo o que leem na internet, e sejamos honestos, boa parte mal sabe ler. Imagina só se os conspiradores e golpistas começarem a desenhar? Muitas das imagens saindo agora já estão acertando coisas como mãos e rostos, especialmente se estiverem em destaque na imagem.
E como a IA foi treinada nas imagens que já produzimos, vai ser progressivamente mais complicado para uma pessoa diferenciar o que é verdade e o que não é. Com os modelos de geração de imagens antigos, você precisava produzir umas 100 imagens para uma ser mais decente, os novos costumam acertar a descrição em duas ou três. E se isso continuar de graça e rápido, qualquer pessoa mais esforçada consegue produzir qualquer tipo de insanidade realista que quiser.
Eu não tenho medo pelo meu trabalho porque a maioria das pessoas não quer ter o meu trabalho, nem mesmo se for mais fácil produzir imagens. Isso vai valer para um monte de profissões: boa parte das coisas pelas quais nós pagamos poderiam ser feitas por nós caso dedicássemos o tempo necessário. Não é prático, não fica num nível de qualidade bacana ou não cabe no nosso dia.
O problema, como sempre, serão as pessoas que tem tempo e disposição para aprontar com a ferramenta. As chans já estão entulhadas de imagens cada vez mais realistas de todo tipo de preconceito que você puder imaginar. E se uma imagem vale mais que mil palavras, estamos diante de um chilique politicamente correto mil vezes maior nos próximos meses.
Não sei se a ferramenta vai ser banida, ela já tem mil limitações como está disponível agora (eu escrevi “mulher com decote” e o Bing considerou conteúdo ofensivo…), mas a maioria dos modelos mais antigos vazou sem censura até agora. Tem um monte de sites e salas de Discord com versões proibidonas dos geradores de imagem. Não, não acho que mais peitos vão fazer alguma diferença na internet, mas as proteções contra usar imagens de pessoas famosas vão aumentar nas versões livres para o povão usar. O que não quer dizer que as pessoas que realmente podem fazer um estrago com imagens mentirosas vão ser coibidas por isso.
Todo o texto tem a ver com a ideia de que é uma ferramenta e algumas pessoas vão usar ela com mais eficiência que as outras. O meu trabalho criativo provavelmente vai continuar por muito tempo ainda, porque ainda tem que saber pensar no que vai produzir; e ao mesmo tempo, as imagens “perigosas” que devem surgir sem parar vão ser feitas por pessoas que tem toda capacidade de dar a volta em qualquer tipo de censura que as gigantes de tecnologia colocarem na ferramenta.
Então, eu sugiro que você vá brincar um pouco de gerar imagens. Acostume-se com o visual dessas imagens e faça questão de continuar vendo como elas se parecem. Aprenda os erros que ela comete, teste até onde ela pode ir.
Ah, eu já fiz o teste com o Pilha… não funciona ainda.
Para dizer que o mundo vai acabar, para dizer que infelizmente o mundo não vai acabar, ou mesmo para compartilhar as piores imagens que fizer: somir@desfavor.com
A IA da Microsoft é incapaz de entender que Jimmy Valmer é um personagem com deficiência de locomoção. Mesmo eu tendo me divertido um pouco gerando desenhos padrão South Park, a experiência não foi das melhores.
Somir, esse primeiro desenho acima do título do texto é seu? Ou é gerado por IA? Porque está muito bom. Parece cena de filme de ficção científica dos anos 50…
Não, é do Bing mesmo!
“Parece cena de filme de ficção científica dos anos 50…”. Ia dizer a mesma coisa..
Sabe aquele povo que cada semana aparece na mesa com um personagem novo e fica pentelhando a única pessoa do grupo que sabe desenhar pra “dar vida ao personagem”? Poizé, imagino isso.
“E é aqui que eu não vejo concorrência séria da inteligência artificial: mesmo os modelos de linguagem mais coerentes como as últimas versões do ChatGPT não tem a menor ideia do que é uma… ideia. IAs são papagaios, que se comunicam de forma que a gente entende, mas sem entenderem elas mesmas o que estão dizendo. Ainda tem chão até o computador realmente ter um modelo interno de compreensão da realidade para entender o que estamos falando”.
Vou gaurdar esse trecho para usar como argumentos em futuras discussões. No fim das contas, o problema não está nas Inteligências Artificiais em si, mas no uso, bom ou mau, que se faz delas. Como você mesmo disse, Somir, IAs nada mais são do que ferramentas, com imenso potencial ainda inexplorado, mas que a maioria das pessoas vai continuar nem fazendo ideia do que realmente são ou de como funcionam…
Como está indo o caminho inverso? Existe alguma AI que faça uma descrição a partir de uma imagem? Isso realmente me interessaria.
Oi Somir, a pergunta foi séria, você indica alguma AI que faça o caminho inverso? Astica? Hugging Face? Midjourney? O que você recomenda?
Eu respondi na minha mente, mas não na vida real… estou ficando gagá.
Na implementação local do Stable Diffusion (AUTOMATIC1111) tem uma ferramenta que descreve imagens. Em inglês, mas até de que forma decente. Eu não consigo achar link de uma ferramenta online, mas eu sei que usa o CLIP da OpenAI. Como eu sempre uso local, sou ruim para achar serviços online…
Tem esse no astica: https://astica.ai/vision/describe-images/
Hahaha eu faço muito isso também, mas então eu sou gagá desde adolescente. Obrigada pela dica
“Sem contar que você precisa saber comunicar uma ideia. Quem já leu qualquer e-mail de trabalho sabe que boa parte da população mundial não sabe nem por onde começar uma comunicação eficiente. Salvo uma máquina capaz de ler seus pensamentos diretamente, é bem difícil imaginar o ser humano médio conseguindo expressar em uma frase um conceito bem definido sobre o que quer ver numa imagem.”
Excelente resumo de uma situação que muitos de nós vivenciam cotidianamente, Somir. Sei que o foco do seu texto nem é esse, mas há problemas sérios também “na outra ponta”. Tenho me irritado com freqüência com gente que não entende, não só e-mails, mas qualquer outra coisa que eu escreva online, por mais clara que tenha sido a mensagem. Eu já expus essa constatação minha antes em outro contexto, mas ela também cabe aqui: capacidade cognitiva embotada por maus hábitos desde a infância + nível educacional sofrível = nivelamento por baixo na comunicação estre as pessoas. E, de uns tempos para cá, está tudo TÃO nivelado por baixo que, por incrível que pareça, quando a gente fala e escreve direito é que ninguém entende. Isso sem falar nos imbecis que nos acusam erroneamente de elitismo e de estarmos só nos exibindo…
Sei bem como você se sente, W.O.J.. Eu também me irrito com quem não fala e nem escreve direito. Passo raiva por casua disso praticamente todo dia…
“De uns tempos para cá, está tudo TÃO nivelado por baixo que por incrível que pareça, quando a gente fala e escreve direito é que ninguém entende”. Caralho, W.O.J…. Depois de ler esse seu comentário, eu passei a prestar mais atenção nisso e vi que é verdade. E é irritante mesmo…
Eu não tenho saco pra essas coisas, mas como eu tenho conta na Shit$oft e meu login é automático, fui experimentar. Na primeira tentativa que fiz: “Bolsonaro being reelected among a bunch of fanatics”, a porra já me encheu o saco dizendo que o “conteúdo era sensível” e aquela merda toda e me impedindo de continuar. Mandei tomar no cu (intimamente) e desisti.
Isso daí vai ser ótimo pra conseguir referências de coisas muito específicas que não dá pra encontrar em bancos de imagens. Aliás, já faz mais de um ano que popularizaram esses geradores de imagens, não é? Gerou tanta polêmica e alarmismo… Mesmo assim, eu e muitos outros ilustradores continuamos recebendo encomendas.
“eu escrevi “mulher com decote” e o Bing considerou conteúdo ofensivo…”
Ocidente se adaptando à religião que mais cresce em seus territórios, esse é o grande plot twist da luta contra sexualização feminina.
Em uma carta aberta há décadas atrás, Margareth Mas criticou duramente a terceira onda do feminismo por isso e outras: ao ditar o que mulheres devem fazer e pensar, estavam regredindo a causa e impedindo uma real independência da mulher na sociedade.
Sim, feminista da segunda onda geralmente tem horror da terceira onda.
Porcaria de corretor, é Margareth Mead.
A turma da terceira onda é daquela turma batuteira woke, cheia de tirar onda de lutar pelo bem social mas pensando só no conforto do próprio umbigo? Conheço a ficha.