DR
- OpenAI acaba de anunciar um novo modelo de IA chamado Sora.
- A ferramenta de IA generativa de texto para vídeo pode criar até 60 segundos de conteúdo de vídeo.
- A empresa afirma que está atualmente trabalhando com equipes vermelhas para testar o modelo de forma adversa.
Hoje cedo, o Google anunciou que está lançando a versão 1.5 do Gemini para desenvolvedores e usuários corporativos. Para não ficar para trás, um dos maiores concorrentes do Google – OpenAI – também fez um grande anúncio sobre IA hoje. No entanto, este anúncio envolve um novo modelo de IA de texto para vídeo.
Em um postagem no blog, e posteriormente nas redes sociais, a OpenAI revelou um novo modelo de IA generativo de texto para vídeo chamado Sora. O anúncio é acompanhado por clipes criados pelo software, que vão desde a celebração do Ano Novo Lunar Chinês até um monstro animado bajulando uma vela vermelha.
Apresentando Sora, nosso modelo de texto para vídeo.
OpenAI afirma que Sora está atualmente sendo disponibilizado aos red teamers para “avaliar áreas críticas em busca de danos ou riscos”. Esses red teamers incluem especialistas em áreas como desinformação, conteúdo de ódio e preconceito. Além destes testes, Sora também será submetido às medidas de segurança que existem para o DALL·E 3. A empresa acrescenta que está trabalhando em ferramentas para ajudar a detectar se um vídeo foi gerado por Sora.
Embora outros como Pika e Stability AI tenham superado o OpenAI quando se trata de geração de vídeo de IA, há algumas coisas que fazem Sora se destacar. Por um lado, Sora pode criar até 60 segundos de vídeo, enquanto os concorrentes conseguem apenas cerca de quatro segundos. Depois, há a nitidez, a resolução e a precisão do mundo circundante.
Existem mais de 35 exemplos que você pode conferir no site da OpenAI. Embora os resultados sejam impressionantes, o modelo está longe de ser perfeito. Como a empresa admite:
O modelo atual tem pontos fracos. Pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não compreender instâncias específicas de causa e efeito. Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito pode não ter marca de mordida.
O modelo também pode confundir detalhes espaciais de um prompt, por exemplo, misturando esquerda e direita, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.
Você pode ver um exemplo disso logo no primeiro vídeo mostrado no blog. O vídeo mostra uma mulher caminhando por Tóquio. Se você observar atentamente, notará que as pernas da mulher ocasionalmente mudam ou gaguejam, seus pés deslizam pelo chão e sua roupa e cabelo mudam perto do fim.
Apesar de Sora não estar disponível para o público em geral, o CEO Sam Altman tem aceitado solicitações de usuários do X (anteriormente Twitter).