Um dos primeiros programas de computador construído na década de 1960 venceu o chatbot viral de IA ChatGPT no teste de Turing, projetado para diferenciar os humanos da inteligência artificial.
Pesquisadores da UC San Diego, nos EUA, testaram o primeiro chatbot ELIZA, criado em meados da década de 1960 pelo cientista do MIT Joseph Weizenbaum, contra versões modernas da tecnologia.
Eles descobriram que o ELIZA superou o GPT-3.5 AI da OpenAI, que alimenta a versão gratuita do ChatGPT da empresa.
O teste de Turing tem sido a referência para determinar a capacidade de uma máquina imitar a conversa humana desde que foi concebido pela primeira vez em 1950 pelo cientista da computação britânico Alan Turing.
O último estudo exigiu que 652 participantes humanos julgassem se estavam conversando com outro ser humano ou com um chatbot de IA pela Internet.
O chatbot GPT-4 da OpenAI, que é mais poderoso que a versão gratuita da tecnologia, conseguiu enganar os participantes do estudo com mais frequência do que o ELIZA, com uma taxa de sucesso de 41 por cento.
ELIZA conseguiu se passar por humano 27% das vezes, enquanto o GPT-3.5 teve uma taxa de sucesso de apenas 14%.
O especialista em IA Gary Marcus descreveu o sucesso do ELIZA como “embaraçoso” para as empresas de tecnologia modernas que trabalham em chatbots de IA, no entanto, outros acadêmicos argumentaram que o ChatGPT não foi projetado para ter um bom desempenho no teste de Turing.
“Acho que o fato de o GPT-3.5 perder para o ELIZA não é tão surpreendente quando você lê o artigo”, disse Ethan Mollick, professor de IA da Wharton School nos EUA. postado em X (anteriormente Twitter).
“A OpenAI considerou o risco de personificação uma preocupação real e tem RLHF [reinforcement learning from human feedback] para garantir que o ChatGPT não tente se passar por humano. ELIZA foi projetada para passar usando nossa psicologia.”
Uma das razões observadas no estudo para os participantes confundirem ELIZA com um ser humano foi que era “muito ruim” ser um modelo atual de IA e, portanto, “era mais provável que fosse um ser humano intencionalmente não cooperativo”.
Arvind Narayanan, professor de ciência da computação em Princeton que não esteve envolvido na pesquisa, disse: “Como sempre, o comportamento de teste não nos diz sobre capacidade. O ChatGPT está ajustado para ter um tom formal, não expressar opiniões, etc., o que o torna menos humano.”
O estudointitulado ‘O GPT-4 passa no teste de Turing’, ainda não foi revisado por pares.