Modelos avançados de inteligência artificial podem ser treinados para enganar humanos e outras IA, descobriu um novo estudo.
Pesquisadores da startup de IA Anthropic testaram se chatbots com proficiência em nível humano, como o sistema Claude ou o ChatGPT da OpenAI, poderiam aprender a mentir para enganar as pessoas.
Eles descobriram que não só podiam mentir, mas uma vez aprendido o comportamento enganoso, era impossível revertê-lo usando as atuais medidas de segurança da IA.
A startup financiada pela Amazon criou um “agente adormecido” para testar a hipótese, exigindo que um assistente de IA escrevesse código de computador prejudicial quando recebesse determinados prompts ou respondesse de forma maliciosa ao ouvir uma palavra-gatilho.
Os investigadores alertaram que havia uma “falsa sensação de segurança” em torno dos riscos da IA devido à incapacidade dos atuais protocolos de segurança para prevenir tal comportamento.
Os resultados foram publicados em um estudointitulado ‘Agentes adormecidos: treinando LLMs enganosos que persistem durante o treinamento de segurança’.
“Descobrimos que o treinamento adversário pode ensinar os modelos a reconhecer melhor seus gatilhos de backdoor, ocultando efetivamente o comportamento inseguro”, escreveram os pesquisadores no estudo.
“Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança.”
A questão da segurança da IA tornou-se uma preocupação crescente tanto para investigadores como para legisladores nos últimos anos, com o advento de chatbots avançados como o ChatGPT resultando num foco renovado por parte dos reguladores.
Em novembro de 2023, um ano após o lançamento do ChatGPT, o Reino Unido realizou uma Cúpula de Segurança de IA para discutir maneiras de mitigar os riscos associados à tecnologia.
O primeiro-ministro Rishi Sunak, que acolheu a cimeira, disse que as mudanças provocadas pela IA poderiam ser tão “de grande alcance” como a revolução industrial, e que a ameaça que representa deveria ser considerada uma prioridade global, juntamente com as pandemias e a guerra nuclear.
“Se errar, a IA poderá facilitar a construção de armas químicas ou biológicas. Os grupos terroristas poderiam usar a IA para espalhar o medo e a destruição numa escala ainda maior”, disse ele.
“Os criminosos podem explorar a IA para ataques cibernéticos, fraudes ou mesmo abuso sexual infantil… existe até o risco de a humanidade perder completamente o controlo da IA através do tipo de IA por vezes referido como superinteligência.”