ChatGPT tem uma nova atualização que permite que a ferramenta de inteligência artificial viral “veja, ouça e fale”, segundo a OpenAI.
A atualização do chatbot de inteligência artificial da OpenAI permitirá que os usuários tenham conversas de voz com o chatbot de IA e também interajam com ele usando imagens, disse a empresa em um blog na segunda-feira.
“O ChatGPT agora pode ver, ouvir e falar”, disse a empresa também em um post no X/Twitter.
Os recursos serão lançados “nas próximas duas semanas” e permitirão que os usuários “use a voz para conversar” com o assistente de IA.
Com os novos recursos, o ChatGPT pode ser usado para “solicitar uma história de ninar para sua família ou resolver um debate à mesa de jantar”, segundo a empresa, aproximando-o dos serviços oferecidos pela Alexa da Amazon ou pelos assistentes Siri AI da Apple.
Fornecendo um exemplo de como o recurso funciona, a OpenAI compartilhou uma demonstração na qual um usuário pede ao ChatGPT para inventar uma história sobre “o ouriço girassol super-duper chamado Larry”.
O chatbot responde à pergunta com uma voz humana e também responde a perguntas como “Como era a casa dele?” e “Quem é o melhor amigo dele?”
A OpenAI disse que o recurso de voz é alimentado por um novo modelo de conversão de texto em fala que gera áudio semelhante ao humano a partir de apenas texto e alguns segundos de amostra de fala, disse a empresa.
“Colaboramos com dubladores profissionais para criar cada uma das vozes. Também usamos o Whisper, nosso sistema de reconhecimento de fala de código aberto, para transcrever suas palavras faladas em texto”, disse a empresa.
A empresa de IA acredita que a nova tecnologia de voz é capaz de criar vozes sintéticas com som realista a partir de apenas alguns segundos de fala real e pode abrir portas para muitas aplicações criativas.
No entanto, a empresa também alertou que as novas capacidades também podem apresentar novos riscos “como a possibilidade de atores mal-intencionados se passarem por figuras públicas ou cometerem fraude”.
Outra grande atualização do chatbot AI permite que os usuários carreguem uma imagem e perguntem ao ChatGPT sobre ela.
“Resolva o motivo pelo qual sua churrasqueira não liga, explore o conteúdo de sua geladeira para planejar uma refeição ou analise um gráfico complexo para dados relacionados ao trabalho”, explicou OpenAI.
Esse novo recurso, segundo a empresa, também permite que o usuário foque em uma parte específica da imagem por meio de uma ferramenta de desenho do aplicativo móvel ChatGPT.
Esse tipo de reconhecimento multimodal pelo chatbot já era previsto há algum tempo, e sua nova compreensão de imagens é alimentada por GPT-3.5 e GPT-4 multimodais.
Esses modelos podem aplicar suas habilidades de raciocínio linguístico a uma variedade de imagens, incluindo fotografias, capturas de tela e documentos.
A OpenAI disse que os novos recursos serão lançados nas próximas duas semanas no aplicativo para assinantes pagantes dos serviços Plus e Enterprise do ChatGPT.
“Estamos entusiasmados em implementar esses recursos para outros grupos de usuários, incluindo desenvolvedores, logo depois”, disse a empresa de IA.
Reescreva o texto para BR e mantenha a HTML tags