O novo sistema da OpenAI, chamado Sora, causou alegria e pânico em relação às suas capacidades.
Sora é um sistema de inteligência artificial de geração de vídeo que cria cenas realistas em resposta a solicitações simples. O presidente-executivo da OpenAI, Sam Altman, compartilhou uma série de exemplos de como é possível receber um prompt simples e, em seguida, criar um vídeo a partir dele.
Isso imediatamente gerou entusiasmo sobre como isso permitiria que as pessoas concretizassem suas ideias com mais facilidade e gerassem vídeos para uma variedade de situações. No entanto, também gerou receios sobre o que o sistema seria capaz de fazer.
Por que as pessoas estão entusiasmadas?
Parte da empolgação tem a ver apenas com a tecnologia em si: ela permite que as pessoas imaginem um cenário e depois produzam um vídeo mostrando-o. As possibilidades de utilização de tal tecnologia em cenários criativos e outros são óbvias.
No entanto, a OpenAI sugeriu que também poderia ser usado em vários cenários menos óbvios.
Sora é capaz de pegar uma imagem existente e transformá-la em vídeo, por exemplo, “animando o conteúdo da imagem com precisão e atenção aos pequenos detalhes”. Isso poderia ser usado para dar vida às imagens estáticas existentes.
Ele também pode “pegar um vídeo existente e estendê-lo ou preencher os quadros ausentes”, disse OpenAI. Isso pode ser útil na restauração de vídeos onde algumas partes da filmagem foram perdidas.
Sora também “serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar AGI”, disse OpenAI. Se o mundo quiser gerar um sistema de IA semelhante à inteligência humana – inteligência artificial geral, ou AGI – então será necessária a capacidade de compreender imagens visuais, bem como de criá-las.
Por que as pessoas estão preocupadas com isso?
Assim que o novo sistema foi anunciado, surgiram temores sobre os perigos que poderia representar. Tal como acontece com qualquer nova tecnologia de IA, variavam desde preocupações de que as empresas a utilizariam para tentar automatizar trabalhos remotos e reduzir a qualidade do seu trabalho criativo, até à desinformação.
Até a OpenAI foi muito explícita sobre as preocupações – embora a empresa tenha sido por vezes acusada de usar esses receios para comercializar as suas novas tecnologias, sugerindo que são tão poderosas que se tornam perigosas. No seu anúncio, disse que ainda não estava a lançar o produto ao público, mas sim a disponibilizá-lo a investigadores e outros para compreenderem os riscos que poderia representar.
Após o anúncio de Sora, grande parte do foco estava na capacidade de gerar desinformação, como a criação de vídeos de pessoas famosas em situações fictícias.
A OpenAI disse que estaria trabalhando para tentar responder a essas preocupações, antes de ser divulgado publicamente. Isso incluirá “equipes vermelhas” que tentarão quebrar o modelo usando sua experiência em “desinformação, conteúdo de ódio e preconceito”.
Ele também disse que trabalharia para construir ferramentas que dificultassem a geração de vídeos problemáticos, incluindo um sistema que rejeitasse solicitações que violassem suas políticas, como aquelas que solicitam “violência extrema, conteúdo sexual, imagens de ódio, semelhança de celebridades ou a PI de terceiros”. E disse que trabalharia em uma ferramenta que seria capaz de detectar vídeos postados por Sora, na tentativa de impedir a disseminação de desinformação.
Por outro lado, outros sugeriram que o modelo pode não ser tão inventivo quanto parece. O comentarista de tecnologia Brian Merchant apontou que um dos vídeos compartilhados pela OpenAI para anunciar a nova ferramenta parecia muito semelhante àquele que poderia ter sido usado para treiná-la.
Outros vídeos compartilhados por Altman, no entanto, pareciam mais novos, baseados em avisos enviados a ele no Twitter e que provavelmente teriam menos probabilidade de ecoar clipes existentes.
A OpenAI também observou que o modelo atual tem “pontos fracos”. “Ele pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter nenhuma marca de mordida.”
Também pode ficar confuso sobre o espaço, “misturando esquerda e direita”, e “pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo”, disse OpenAI.
Mesmo em alguns dos vídeos compartilhados pela OpenAI – que presumivelmente foram escolhidos para demonstrar o sistema da melhor maneira – houve erros. Em alguns vídeos, membros de pessoas apareciam e desapareciam, por exemplo.