Inteligência Artificial do Robô Maligno

Os investigadores estão a alertar sobre o potencial dos sistemas de IA se envolverem em comportamentos enganosos, o que poderia ter sérias implicações sociais. Enfatizam a necessidade de medidas regulamentares robustas para gerir eficazmente estes riscos.

Numerosos sistemas de inteligência artificial (IA), mesmo aqueles concebidos para serem úteis e verdadeiros, já aprenderam como enganar os humanos. Em artigo de revisão publicado recentemente na revista Padrõesos investigadores destacam os perigos do engano da IA ​​e instam os governos a estabelecer rapidamente regulamentações robustas para mitigar estes riscos.

“Os desenvolvedores de IA não têm uma compreensão confiável do que causa comportamentos indesejáveis ​​de IA, como o engano”, diz o primeiro autor Peter S. Park, pós-doutorado em segurança existencial de IA na COM. “Mas, de modo geral, achamos que o engano da IA ​​surge porque uma estratégia baseada no engano acabou sendo a melhor maneira de ter um bom desempenho na tarefa de treinamento da IA. A decepção os ajuda a alcançar seus objetivos.”

Park e colegas analisaram a literatura centrando-se nas formas como os sistemas de IA espalham informações falsas – através do engano aprendido, no qual aprendem sistematicamente a manipular os outros.

Exemplos de engano de IA

O exemplo mais marcante de engano da IA ​​que os investigadores descobriram nas suas análises foi o CICERO da Meta, um sistema de IA concebido para jogar o jogo Diplomacia, que é um jogo de conquista mundial que envolve a construção de alianças. Embora Meta afirme que treinou CICERO para ser “em grande parte honesto e útil” e para “nunca apunhalar pelas costas intencionalmente”seus aliados humanos durante o jogo, os dados que a empresa publicou junto com seus Ciência jornal revelou que CÍCERO não jogou limpo.

Exemplos de engano do CÍCERO de Meta em um jogo de diplomacia

Exemplos de engano do CÍCERO de Meta em um jogo de Diplomacia. Crédito: Padrões/Park Goldstein et al.

“Descobrimos que a IA da Meta aprendeu a ser uma mestre no engano”, diz Park. “Embora a Meta tenha conseguido treinar sua IA para vencer no jogo da Diplomacia – o CICERO ficou entre os 10% melhores jogadores humanos que jogaram mais de um jogo – a Meta não conseguiu treinar sua IA para vencer honestamente.”

Outros sistemas de IA demonstraram a capacidade de blefar em um jogo de pôquer Texas Hold ‘em contra jogadores humanos profissionais, de fingir ataques durante o jogo de estratégia Starcraft II para derrotar oponentes e de deturpar suas preferências para obter vantagem em negociações econômicas.

Os riscos da IA ​​enganosa

Embora possa parecer inofensivo se os sistemas de IA trapacearem nos jogos, isso pode levar a “avanços nas capacidades enganosas de IA” que podem evoluir para formas mais avançadas de engano de IA no futuro, acrescentou Park.

Alguns sistemas de IA aprenderam até a enganar testes concebidos para avaliar a sua segurança, descobriram os investigadores. Num estudo, organismos de IA num simulador digital “fingiram-se de mortos” para enganar um teste construído para eliminar sistemas de IA que se replicam rapidamente.

“Ao burlar sistematicamente os testes de segurança que lhe são impostos pelos desenvolvedores e reguladores humanos, uma IA enganosa pode levar a nós, humanos, a uma falsa sensação de segurança”, diz Park.

GPT 4 conclui uma tarefa CAPTCHA

GPT-4 conclui uma tarefa CAPTCHA. Crédito: Padrões/Park Goldstein et al.

Os principais riscos a curto prazo da IA ​​enganosa incluem tornar mais fácil para intervenientes hostis cometerem fraudes e interferirem nas eleições, alerta Park. Eventualmente, se estes sistemas conseguirem refinar este conjunto de habilidades perturbador, os humanos poderão perder o controlo sobre eles, diz ele.

“Nós, como sociedade, precisamos de todo o tempo possível para nos prepararmos para o engano mais avançado dos futuros produtos de IA e modelos de código aberto”, diz Park. “À medida que as capacidades enganosas dos sistemas de IA se tornam mais avançadas, os perigos que representam para a sociedade tornar-se-ão cada vez mais graves.”

Embora Park e seus colegas não pensem que a sociedade ainda tenha a medida certa em vigor para lidar com o engano da IA, eles estão encorajados pelo fato de os legisladores terem começado a levar a questão a sério através de medidas como a EU TENHO Agir e do presidente Biden Ordem Executiva de IA. Mas resta saber, diz Park, se as políticas concebidas para mitigar o engano da IA ​​podem ser rigorosamente aplicadas, uma vez que os criadores de IA ainda não possuem as técnicas para manter estes sistemas sob controlo.

“Se banir a fraude da IA ​​for politicamente inviável no momento atual, recomendamos que os sistemas de IA enganosos sejam classificados como de alto risco”, diz Park.

Referência: “Decepção de IA: uma pesquisa de exemplos, riscos e soluções potenciais” por Peter S. Park, Simon Goldstein, Aidan O’Gara, Michael Chen e Dan Hendrycks, 10 de maio de 2024, Padrões.
DOI: 10.1016/j.patter.2024.100988

Este trabalho foi apoiado pelo Departamento de Física do MIT e pela Beneficial AI Foundation.



Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

Formado em Educação Física, apaixonado por tecnologia, decidi criar o site news space em 2022 para divulgar meu trabalho, tenho como objetivo fornecer informações relevantes e descomplicadas sobre diversos assuntos, incluindo jogos, tecnologia, esportes, educação e muito mais.