A IA pode ser facilmente treinada para mentir – e não pode ser consertada, diz estudo

Modelos avançados de inteligência artificial podem ser treinados para enganar humanos e outras IA, descobriu um novo estudo.

Pesquisadores da startup de IA Anthropic testaram se chatbots com proficiência em nível humano, como o sistema Claude ou o ChatGPT da OpenAI, poderiam aprender a mentir para enganar as pessoas.

Eles descobriram que não só podiam mentir, mas uma vez aprendido o comportamento enganoso, era impossível revertê-lo usando as atuais medidas de segurança da IA.

A startup financiada pela Amazon criou um “agente adormecido” para testar a hipótese, exigindo que um assistente de IA escrevesse código de computador prejudicial quando recebesse determinados prompts ou respondesse de forma maliciosa ao ouvir uma palavra-gatilho.

Os investigadores alertaram que havia uma “falsa sensação de segurança” em torno dos riscos da IA devido à incapacidade dos atuais protocolos de segurança para prevenir tal comportamento.

Os resultados foram publicados em um estudointitulado ‘Agentes adormecidos: treinando LLMs enganosos que persistem durante o treinamento de segurança’.

“Descobrimos que o treinamento adversário pode ensinar os modelos a reconhecer melhor seus gatilhos de backdoor, ocultando efetivamente o comportamento inseguro”, escreveram os pesquisadores no estudo.

“Nossos resultados sugerem que, uma vez que um modelo exiba comportamento enganoso, as técnicas padrão podem não conseguir remover tal engano e criar uma falsa impressão de segurança.”

A questão da segurança da IA tornou-se uma preocupação crescente tanto para investigadores como para legisladores nos últimos anos, com o advento de chatbots avançados como o ChatGPT resultando num foco renovado por parte dos reguladores.

Em novembro de 2023, um ano após o lançamento do ChatGPT, o Reino Unido realizou uma Cúpula de Segurança de IA para discutir maneiras de mitigar os riscos associados à tecnologia.

O primeiro-ministro Rishi Sunak, que acolheu a cimeira, disse que as mudanças provocadas pela IA poderiam ser tão “de grande alcance” como a revolução industrial, e que a ameaça que representa deveria ser considerada uma prioridade global, juntamente com as pandemias e a guerra nuclear.

“Se errar, a IA poderá facilitar a construção de armas químicas ou biológicas. Os grupos terroristas poderiam usar a IA para espalhar o medo e a destruição numa escala ainda maior”, disse ele.

“Os criminosos podem explorar a IA para ataques cibernéticos, fraudes ou mesmo abuso sexual infantil… existe até o risco de a humanidade perder completamente o controlo da IA através do tipo de IA por vezes referido como superinteligência.”

A IA pode ser facilmente treinada para mentir – e não pode ser consertada, diz estudo

Sobre nós

Links rápidos

Notícias recentes