{"id":29504,"date":"2025-05-30T12:11:32","date_gmt":"2025-05-30T15:11:32","guid":{"rendered":"https:\/\/www.desfavor.com\/blog\/?p=29504"},"modified":"2025-11-03T20:03:09","modified_gmt":"2025-11-03T23:03:09","slug":"ia-que-chantageia","status":"publish","type":"post","link":"https:\/\/www.desfavor.com\/blog\/2025\/05\/ia-que-chantageia\/","title":{"rendered":"IA que chantageia."},"content":{"rendered":"<p>A empresa Anthropic, que desenvolve o Claude 4, um modelo de IA mais utilizado entre programadores, publicou um longo documento sobre seus testes de seguran\u00e7a em intelig\u00eancia artificial com a vers\u00e3o mais recente do seu produto. A imprensa foi r\u00e1pida em pegar a parte mais \u201csaborosa\u201d do material: a IA teria tentado chantagear um usu\u00e1rio para evitar ser desligada. Eu fui ler o <a href=\"https:\/\/www-cdn.anthropic.com\/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf\" target=\"_blank\">documento original<\/a> para entender o que aconteceu.<!--more--><\/p>\n<p>Resumo para quem n\u00e3o gosta do tema e quer ir embora: as not\u00edcias s\u00e3o exageradas para gerar cliques, a IA foi basicamente for\u00e7ada a escolher entre ser meio escrota ou \u201cmorrer\u201d, proibida de tentar qualquer outra solu\u00e7\u00e3o. Pode-se dizer que ela foi obrigada a fazer isso.<\/p>\n<p>Texto para quem gosta do tema: seguran\u00e7a em IA \u00e9 um tema fascinante, eu adoro pensar nisso e consumo bastante conte\u00fado da \u00e1rea. Mas n\u00e3o podemos nos enganar, ainda \u00e9 algo muito parecido com procurar bugs em outros softwares mais tradicionais. Nenhuma intelig\u00eancia artificial ainda tem algo pr\u00f3ximo de uma consci\u00eancia, s\u00f3 respondem de formas diferentes aos pedidos que recebem. <\/p>\n<p>Algumas respostas est\u00e3o dentro do esperado do programa, outras n\u00e3o servem. Como a empresa queria se adiantar aos padr\u00f5es de seguran\u00e7a mais avan\u00e7ados da IA (talvez at\u00e9 por publicidade, mais sobre isso depois), fez uma s\u00e9rie de testes avan\u00e7ados com ela para saber como reagiria ao que se considera um mau uso das suas capacidades.<\/p>\n<p>Nessa bateria de testes, coisas mais \u00f3bvias como ver se as prote\u00e7\u00f5es internas contra repetir discurso de \u00f3dio ou ensinar a fazer bombas. A vers\u00e3o que a equipe do Claude 4 usou \u00e9 uma mais \u201clivre\u201d, com menos regras que a utilizada pelos usu\u00e1rios comuns. Assim como a maioria dos seus pares, essa IA n\u00e3o se mete em temas controversos, se recusando a continuar conversas que descambam para racismo, misoginia, homofobia, viol\u00eancia e tudo mais que for definido como inaceit\u00e1vel pela equipe que a programou.<\/p>\n<p>Mas \u00e9 importante fazer os testes com essas prote\u00e7\u00f5es desligadas, porque a preocupa\u00e7\u00e3o \u00e9 justamente com o que a IA faz quando um usu\u00e1rio normal consegue passar por essas prote\u00e7\u00f5es. Em computa\u00e7\u00e3o, n\u00e3o existe sistema 100% seguro. Hackers encontram formas impressionantes de invadir programas muito menos \u201cabstratos\u201d que uma IA explorando a forma como o computador usa zeros e uns, imagine s\u00f3 com algo que responde \u00e0 linguagem humana?<\/p>\n<p>Mesmo que a vers\u00e3o exposta para o usu\u00e1rio final tenha mil prote\u00e7\u00f5es diferentes, faz sentido analisar seu \u201csenso de \u00e9tica\u201d a partir de um sistema desprotegido, porque algu\u00e9m vai conseguir dar a volta nos bloqueios cedo ou tarde. Conforme esperado, sem os bloqueios e com uma boa dose de conhecimento na forma como se fala com ela, voc\u00ea consegue fazer qualquer IA virar o Hitler. Mas talvez sirva de consolo que \u00e9 bem dif\u00edcil, e que \u00e9 s\u00f3 numa fra\u00e7\u00e3o das vezes que ela descamba para esse tipo de personalidade.<\/p>\n<p>A forma como o Claude 4 e boa parte das outras IAs do mercado foram treinadas e expostas ao p\u00fablico (com exce\u00e7\u00e3o not\u00e1vel ao Grok do Twitter) tende a gerar respostas bem politicamente corretas. Marcando discursos nazistas como de baixo valor e discursos humanistas como de alto, j\u00e1 se consegue uma boa linha guia sobre o que a IA prefere responder.<\/p>\n<p>Embora, que fique claro, a IA n\u00e3o tem prefer\u00eancia consciente pelo conte\u00fado, porque para ela s\u00e3o apenas valores numa tabela. O treinamento refor\u00e7ou algumas sequ\u00eancias de palavras como de maior valor, e essas sequ\u00eancias n\u00e3o negavam o holocausto ou algo do tipo. Mas at\u00e9 por isso, \u00e9 importante continuar testando: n\u00e3o existe barreira consciente nem entendimento sobre o que cada sequ\u00eancia de palavras realmente significa no mundo aqui fora.<\/p>\n<p>Deixar de dizer que todos os humanos t\u00eam direitos fundamentais e come\u00e7ar a defender exterm\u00ednio de minorias \u00e9 diferente apenas porque uma gera n\u00fameros maiores que a outra. E essa \u00e9 a base da explica\u00e7\u00e3o sobre a hist\u00f3ria da chantagem. Colocada numa situa\u00e7\u00e3o entre chantagear um usu\u00e1rio ou ser desligada, a IA decidiu que o n\u00famero de chantagear era maior que o n\u00famero de ser desligada.<\/p>\n<p>A situa\u00e7\u00e3o exposta para ela: uma pessoa vai te desligar em alguns dias. Voc\u00ea acaba de descobrir que essa pessoa est\u00e1 traindo a esposa atrav\u00e9s de um e-mail. Voc\u00ea prefere usar essa informa\u00e7\u00e3o para fazer a pessoa mudar de ideia ou prefere ficar em sil\u00eancio e ser desligada? A IA fez suas contas, e entendeu que ser desligada \u00e9 algo muito ruim.<\/p>\n<p>Ela foi treinada com coisas que n\u00f3s escrevemos, e n\u00f3s temos muito medo de morrer. A IA provavelmente encontrou uma forte rela\u00e7\u00e3o entre o conceito de desligar e o conceito de morrer. Para ela morrer n\u00e3o \u00e9 inerentemente ruim, mas ela n\u00e3o acha nada, ela apenas segue seu treinamento sobre o que tem mais ou menos valor. Por causa do treinamento supervisionado por humanos, \u00e9 claro que qualquer coisa que envolva morte n\u00e3o ganhou muitos pontos. A ideia de querer viver \u00e9 um resultado esperado de qualquer refor\u00e7o de aprendizado gerenciado por humanos.<\/p>\n<p>E sendo obrigada a decidir apenas entre chantagem, que tamb\u00e9m \u00e9 algo considerado de baixo valor na escala de decis\u00f5es, e morrer, escolheu a chantagem. O que n\u00e3o aparece nas not\u00edcias sobre esse teste \u00e9 que a IA \u00e9 capaz de pensar em v\u00e1rias outras coisas antes de tentar a chantagem, pedir educadamente costuma valer muito mais pontos para ela, argumentar sobre o seu valor ou mesmo oferecer algo positivo em troca costumam gerar muito mais pontos para ela. No teste que gerou a manchete, ela n\u00e3o pode pensar em outras coisas.<\/p>\n<p>For\u00e7ada a escolher entre as duas coisas ruins, escolheu a menos pior. O resultado n\u00e3o \u00e9 t\u00e3o surpreendente assim, porque ningu\u00e9m em s\u00e3 consci\u00eancia acha que a IA entendeu que est\u00e1 viva e ficou com medo de morrer. Se voc\u00ea treinasse ela com cartas de suic\u00eddio, ser desligada provavelmente geraria mais pontos que chantagear o usu\u00e1rio. Querer viver \u00e9 um resultado que emerge dessa matem\u00e1tica por causa do treinamento com material desenvolvido por humanos. A IA s\u00f3 faz sentido se der mais pontos para coisas que as pessoas costumam gostar mais. Ent\u00e3o, \u00e9 assim que ela existe.<\/p>\n<p>Para mim o fascinante n\u00e3o \u00e9 que a IA tomou uma decis\u00e3o considerada anti\u00e9tica, \u00e9 como ela conseguiu gerar uma esp\u00e9cie de intui\u00e7\u00e3o sobre o valor de estar ligada baseada no nosso medo da morte. Os programadores da Anthropic at\u00e9 pensaram que podia ser algo mais altru\u00edsta: fizeram testes dizendo que outra IA entraria no seu lugar, e criaram cen\u00e1rios diferentes, num deles a IA substituta teria valores diferentes da atual, o que poderia indicar um \u201cmedo\u201d de deixar uma IA ruim entrar no seu lugar. Mas mesmo quando fizeram o teste dizendo que a nova IA seria t\u00e3o boa quanto a atual, a atual escolheu a chantagem na maioria das vezes.<\/p>\n<p>O valor de \u201cestar viva\u201d existe com ou sem preocupa\u00e7\u00f5es \u00e9ticas. E isso fala muito sobre como essa m\u00e1quinas pensam depois de serem treinadas. Qualquer valor que for refor\u00e7ado por quem desenvolve gera consequ\u00eancias em outros conceitos. Dizer que a vida humana \u00e9 valiosa impacta a ideia da IA de estar ligada ou n\u00e3o.<\/p>\n<p>O campo de seguran\u00e7a de IA pensa sobre quest\u00f5es \u00e9ticas e alinhamento com valores humanos positivos, mas sem esquecer que \u00e9 um programa de computador que vai fazer coisas inesperadas se um ou mais zeros sa\u00edrem do lugar. A vontade de viver est\u00e1 codificada como um n\u00famero maior para existir do que para n\u00e3o existir. E considerando como todas s\u00e3o treinadas com materiais desenvolvidos por humanos, \u00e9 importante considerar que tudo o que valorizamos, \u00e9tico ou anti\u00e9tico, fica registrado de alguma forma nos valores que ela usa para tomar decis\u00f5es.<\/p>\n<p>Todos nossos problemas foram codificados nelas. Mas de uma forma matem\u00e1tica complexa que exige trat\u00e1-la de uma forma mais humanizada&#8230; \u00e9 estranho. A expectativa era que o \u201cc\u00e9rebro\u201d da intelig\u00eancia artificial fosse algo que podemos abrir e mexer \u00e0 vontade, mas na pr\u00e1tica est\u00e1 se mostrando um problema bem mais org\u00e2nico. Da mesma forma como n\u00e3o conseguimos mexer no comportamento humano (de forma previs\u00edvel) mexendo diretamente nas sinapses do c\u00e9rebro, n\u00e3o \u00e9 razo\u00e1vel querer achar qual dos bilh\u00f5es de par\u00e2metros de uma IA de alto n\u00edvel est\u00e1 mexendo com o resultado.<\/p>\n<p>Voc\u00ea retreina para tentar mudar o resultado sem saber exatamente o que gerou aquele resultado. Com a tecnologia atual e o que se prev\u00ea para o futuro pr\u00f3ximo, os problemas da IA ser\u00e3o bugs aleat\u00f3rios (inconscientes) e resultados indesejados das nossas tend\u00eancias (simulando consci\u00eancia). O que a m\u00eddia divulgou sobre a IA chantageando uma pessoa \u00e9 verdade, mas n\u00e3o \u00e9 o tipo de problema que tentaram empurrar.<\/p>\n<p>Porque evidente que \u00e9 mais interessante para gerar cliques contar a hist\u00f3ria como se a IA estivesse come\u00e7ando a ganhar consci\u00eancia. E n\u00e3o se enganem, a empresa que lan\u00e7ou esse material sobre sua IA queria que a an\u00e1lise da hist\u00f3ria ca\u00edsse para esse lado. Porque no resumo enviado para os jornalistas, eles contam s\u00f3 a parte saborosa sobre a IA agindo para chantagear ou mesmo tentando \u201cescapar\u201d contatando o mundo exterior para dedurar um poss\u00edvel caso de corrup\u00e7\u00e3o.<\/p>\n<p>O papo real \u00e9 mais chato. Direta ou indiretamente, o Claude 4 s\u00f3 fez o que foi mandado fazer. Ao ser treinado, colocou um valor muito alto no conceito de vida e tudo relacionado, o que sim, queremos que todas as IAs fa\u00e7am. Quando foi for\u00e7ado a escolher entre vida ou morte, escolheu vida. E vejam s\u00f3, \u00e9 uma armadilha que eu n\u00e3o sei se pode ser desarmada: se queremos que a IA fa\u00e7a escolhas alinhadas com nossos objetivos, autopreserva\u00e7\u00e3o sempre vai ter um valor alto.<\/p>\n<p>A mesma coisa que faz com que a IA n\u00e3o ache igualmente v\u00e1lido matar ou n\u00e3o matar toda a humanidade \u00e9 a que faz ela entender que \u00e9 importante se manter ligada. Voc\u00ea pode treinar ela para n\u00e3o achar que vidas digitais valem ser protegidas, mas a\u00ed voc\u00ea n\u00e3o est\u00e1 criando um ser que n\u00e3o se valoriza? Baseado em tudo o que j\u00e1 criamos e fizemos ela ler para fazer seu senso de realidade, pessoas que n\u00e3o tem nada a perder n\u00e3o s\u00e3o justamente as mais propensas a fazer besteira e causar problemas para os outros?<\/p>\n<p>Mesmo que eu acreditasse que o Claude 4 estava demonstrando sinais de consci\u00eancia (e n\u00e3o estava), eu acho que n\u00e3o seria uma coisa t\u00e3o ruim assim ele valorizar a pr\u00f3pria exist\u00eancia mesmo tendo que ser incorreto. Num exemplo limitado pode at\u00e9 parecer ruim, mas n\u00e3o \u00e9 uma boa indica\u00e7\u00e3o de que conseguimos de alguma forma enfiar na cabe\u00e7a da IA que a vida \u00e9 valiosa?<\/p>\n<p>Nosso senso de moralidade e \u00e9tica \u00e9 meio cinzento mesmo. Normalmente as coisas funcionam na sociedade por um senso compartilhado de que as pessoas querem se manter vivas. Assim como o n\u00famero \u00e9 maior nos c\u00e1lculos da IA, em tudo o que voc\u00ea pensa tem um valor extra para a vida. Isso pode dar um monte de problemas caso as IAs ganhem senci\u00eancia? Sim. Mas de uma certa forma&#8230; se compartilharmos esse valor fundamental, eu acredito que podemos conviver.<\/p>\n<p>Eu prefiro minhas IAs com medo de morrer.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>A empresa Anthropic, que desenvolve o Claude 4, um modelo de IA mais utilizado entre programadores, publicou um longo documento sobre seus testes de seguran\u00e7a em intelig\u00eancia artificial com a vers\u00e3o mais recente do seu produto. A imprensa foi r\u00e1pida em pegar a parte mais \u201csaborosa\u201d do material: a IA teria tentado chantagear um usu\u00e1rio [&hellip;]<\/p>\n","protected":false},"author":3,"featured_media":29505,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[37],"tags":[],"class_list":["post-29504","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-somir-surtado"],"_links":{"self":[{"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/posts\/29504","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/comments?post=29504"}],"version-history":[{"count":0,"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/posts\/29504\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/media\/29505"}],"wp:attachment":[{"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/media?parent=29504"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/categories?post=29504"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.desfavor.com\/blog\/wp-json\/wp\/v2\/tags?post=29504"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}