![Inteligência Artificial do Robô Maligno](https://scitechdaily.com/images/Evil-Robot-Artificial-Intelligence-777x444.jpg)
Os investigadores estão a alertar sobre o potencial dos sistemas de IA se envolverem em comportamentos enganosos, o que poderia ter sérias implicações sociais. Enfatizam a necessidade de medidas regulamentares robustas para gerir eficazmente estes riscos.
Numerosos sistemas de inteligência artificial (IA), mesmo aqueles concebidos para serem úteis e verdadeiros, já aprenderam como enganar os humanos. Em artigo de revisão publicado recentemente na revista Padrõesos investigadores destacam os perigos do engano da IA e instam os governos a estabelecer rapidamente regulamentações robustas para mitigar estes riscos.
“Os desenvolvedores de IA não têm uma compreensão confiável do que causa comportamentos indesejáveis de IA, como o engano”, diz o primeiro autor Peter S. Park, pós-doutorado em segurança existencial de IA na COM. “Mas, de modo geral, achamos que o engano da IA surge porque uma estratégia baseada no engano acabou sendo a melhor maneira de ter um bom desempenho na tarefa de treinamento da IA. A decepção os ajuda a alcançar seus objetivos.”
Park e colegas analisaram a literatura centrando-se nas formas como os sistemas de IA espalham informações falsas – através do engano aprendido, no qual aprendem sistematicamente a manipular os outros.
Exemplos de engano de IA
O exemplo mais marcante de engano da IA que os investigadores descobriram nas suas análises foi o CICERO da Meta, um sistema de IA concebido para jogar o jogo Diplomacia, que é um jogo de conquista mundial que envolve a construção de alianças. Embora Meta afirme que treinou CICERO para ser “em grande parte honesto e útil” e para “nunca apunhalar pelas costas intencionalmente”seus aliados humanos durante o jogo, os dados que a empresa publicou junto com seus Ciência jornal revelou que CÍCERO não jogou limpo.
![Exemplos de engano do CÍCERO de Meta em um jogo de diplomacia](https://scitechdaily.com/images/Examples-of-Deception-From-Metas-CICERO-in-a-Game-of-Diplomacy-777x316.jpg)
Exemplos de engano do CÍCERO de Meta em um jogo de Diplomacia. Crédito: Padrões/Park Goldstein et al.
“Descobrimos que a IA da Meta aprendeu a ser uma mestre no engano”, diz Park. “Embora a Meta tenha conseguido treinar sua IA para vencer no jogo da Diplomacia – o CICERO ficou entre os 10% melhores jogadores humanos que jogaram mais de um jogo – a Meta não conseguiu treinar sua IA para vencer honestamente.”
Outros sistemas de IA demonstraram a capacidade de blefar em um jogo de pôquer Texas Hold ‘em contra jogadores humanos profissionais, de fingir ataques durante o jogo de estratégia Starcraft II para derrotar oponentes e de deturpar suas preferências para obter vantagem em negociações econômicas.
Os riscos da IA enganosa
Embora possa parecer inofensivo se os sistemas de IA trapacearem nos jogos, isso pode levar a “avanços nas capacidades enganosas de IA” que podem evoluir para formas mais avançadas de engano de IA no futuro, acrescentou Park.
Alguns sistemas de IA aprenderam até a enganar testes concebidos para avaliar a sua segurança, descobriram os investigadores. Num estudo, organismos de IA num simulador digital “fingiram-se de mortos” para enganar um teste construído para eliminar sistemas de IA que se replicam rapidamente.
“Ao burlar sistematicamente os testes de segurança que lhe são impostos pelos desenvolvedores e reguladores humanos, uma IA enganosa pode levar a nós, humanos, a uma falsa sensação de segurança”, diz Park.
![GPT 4 conclui uma tarefa CAPTCHA](https://scitechdaily.com/images/GPT-4-Completes-a-CAPTCHA-Task-777x989.jpg)
GPT-4 conclui uma tarefa CAPTCHA. Crédito: Padrões/Park Goldstein et al.
Os principais riscos a curto prazo da IA enganosa incluem tornar mais fácil para intervenientes hostis cometerem fraudes e interferirem nas eleições, alerta Park. Eventualmente, se estes sistemas conseguirem refinar este conjunto de habilidades perturbador, os humanos poderão perder o controlo sobre eles, diz ele.
“Nós, como sociedade, precisamos de todo o tempo possível para nos prepararmos para o engano mais avançado dos futuros produtos de IA e modelos de código aberto”, diz Park. “À medida que as capacidades enganosas dos sistemas de IA se tornam mais avançadas, os perigos que representam para a sociedade tornar-se-ão cada vez mais graves.”
Embora Park e seus colegas não pensem que a sociedade ainda tenha a medida certa em vigor para lidar com o engano da IA, eles estão encorajados pelo fato de os legisladores terem começado a levar a questão a sério através de medidas como a EU TENHO Agir e do presidente Biden Ordem Executiva de IA. Mas resta saber, diz Park, se as políticas concebidas para mitigar o engano da IA podem ser rigorosamente aplicadas, uma vez que os criadores de IA ainda não possuem as técnicas para manter estes sistemas sob controlo.
“Se banir a fraude da IA for politicamente inviável no momento atual, recomendamos que os sistemas de IA enganosos sejam classificados como de alto risco”, diz Park.
Referência: “Decepção de IA: uma pesquisa de exemplos, riscos e soluções potenciais” por Peter S. Park, Simon Goldstein, Aidan O’Gara, Michael Chen e Dan Hendrycks, 10 de maio de 2024, Padrões.
DOI: 10.1016/j.patter.2024.100988
Este trabalho foi apoiado pelo Departamento de Física do MIT e pela Beneficial AI Foundation.