DR

  • OpenAI acaba de anunciar um novo modelo de IA chamado Sora.
  • A ferramenta de IA generativa de texto para vídeo pode criar até 60 segundos de conteúdo de vídeo.
  • A empresa afirma que está atualmente trabalhando com equipes vermelhas para testar o modelo de forma adversa.

Hoje cedo, o Google anunciou que está lançando a versão 1.5 do Gemini para desenvolvedores e usuários corporativos. Para não ficar para trás, um dos maiores concorrentes do Google – OpenAI – também fez um grande anúncio sobre IA hoje. No entanto, este anúncio envolve um novo modelo de IA de texto para vídeo.

Em um postagem no blog, e posteriormente nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vídeo chamado Sora. O anúncio é acompanhado por clipes criados pelo software, que vão desde a celebração do Ano Novo Lunar Chinês até um monstro animado bajulando uma vela vermelha.

Apresentando Sora, nosso modelo de texto para vídeo.

Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes.

OpenAI afirma que Sora está atualmente sendo disponibilizado aos red teamers para “avaliar áreas críticas em busca de danos ou riscos”. Esses red teamers incluem especialistas em áreas como desinformação, conteúdo de ódio e preconceito. Além destes testes, Sora também será submetido às medidas de segurança que existem para o DALL·E 3. A empresa acrescenta que está trabalhando em ferramentas para ajudar a detectar se um vídeo foi gerado por Sora.

Embora outros como Pika e Stability AI tenham superado o OpenAI quando se trata de geração de vídeo de IA, há algumas coisas que fazem Sora se destacar. Por um lado, Sora pode criar até 60 segundos de vídeo, enquanto os concorrentes conseguem apenas cerca de quatro segundos. Depois, há a nitidez, a resolução e a precisão do mundo circundante.

Existem mais de 35 exemplos que você pode conferir no site da OpenAI. Embora os resultados sejam impressionantes, o modelo está longe de ser perfeito. Como a empresa admite:

O modelo atual tem pontos fracos. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida.

O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.

Você pode ver um exemplo disso logo no primeiro vídeo mostrado no blog. O vídeo mostra uma mulher caminhando por Tóquio. Se você observar atentamente, notará que as pernas da mulher ocasionalmente mudam ou gaguejam, seus pés deslizam pelo chão e sua roupa e cabelo mudam perto do fim.

Apesar de Sora não estar disponível para o público em geral, o CEO Sam Altman tem aceitado solicitações de usuários do X (anteriormente Twitter).

Tem uma dica? Fale Conosco! Envie um e-mail para nossa equipe em [email protected]. Você pode permanecer anônimo ou obter crédito pelas informações, a escolha é sua.

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

Formado em Educação Física, apaixonado por tecnologia, decidi criar o site news space em 2022 para divulgar meu trabalho, tenho como objetivo fornecer informações relevantes e descomplicadas sobre diversos assuntos, incluindo jogos, tecnologia, esportes, educação e muito mais.