OpenAI revela nova inteligência artificial com capacidade para gerar vídeos

Photo of author

By Paulo Faria

Sora: IA que Gera Vídeos a Partir de Comandos de Texto

A OpenAI, conhecida por criar o ChatGPT, acaba de apresentar Sora, sua mais recente inteligência artificial capaz de produzir vídeos com base em instruções de texto. No entanto, a aplicação está em uma fase preliminar de testes e ainda não está disponível ao público através dos produtos da empresa.

De acordo com o anúncio publicado no site da OpenAI, a funcionalidade de geração de vídeos por IA está sendo testada inicialmente pelos chamados red teamers, especialistas encarregados de detectar possíveis falhas da IA em áreas como desinformação, conteúdo prejudicial e vieses.

“Ao compartilhar antecipadamente o progresso de nossa pesquisa, buscamos envolver e obter feedback de indivíduos externos à OpenAI, além de proporcionar ao público uma visão das capacidades de IA que estão em desenvolvimento”, afirma a empresa em seu comunicado.

A empresa inclui demonstrações dos testes em vídeo realizados, juntamente com os comandos de texto que ela utilizou para gerar as imagens.

Na tarde de hoje, o CEO da empresa, Sam Altman, incentivou os seguidores do X (anteriormente conhecido como Twitter) a compartilharem sugestões de prompts para destacar o potencial da plataforma. “É um momento excepcional”, afirmou o executivo em uma postagem.

A OpenAI não estabeleceu um prazo para a inclusão dessa função em seus produtos. Além dos testes conduzidos pelos red teamers, a empresa está desenvolvendo ferramentas para identificar conteúdos enganosos, como um classificador de vídeos gerados pela Sora.

“Ao envolvermos tomadores de decisões políticas, educadores e artistas de todo o mundo, buscamos compreender suas preocupações e identificar casos de uso positivos para essa nova tecnologia”, afirma a companhia.


Mesmo conduzindo extensas pesquisas e testes, não podemos prever todas as formas benéficas de utilização da nossa tecnologia; além disso, nem todas as maneiras como as pessoas podem abusar dela são previsíveis. O anúncio esclarece que ainda não aperfeiçoamos o modelo e ele pode enfrentar desafios com a física de cenas complexas e aspectos de causa e efeito.

“Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não apresentar a marca da mordida”, explica. “O modelo também pode confundir detalhes espaciais de um prompt, como misturar esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.”


Para mais artigos e notícias, clique aqui!

Para receber o contato de um Assessor, clique aqui!