Calvin Wankhede / Autoridade Android
Quando o Google anunciou os modelos de linguagem PaLM 2 e Gemini em meados de 2023, o gigante das buscas enfatizou que sua IA era multimodal. Isso significava que poderia gerar texto, imagens, áudio e até vídeo. Tradicionalmente, modelos de linguagem como o GPT-4 do ChatGPT só se destacaram na reprodução de texto. O mais recente modelo VideoPoet do Google desafia essa noção, pois pode converter prompts baseados em texto em vídeos gerados por IA.
Com o VideoPoet, o Google se tornou o primeiro gigante da tecnologia a anunciar uma IA capaz de gerar vídeos. E, diferentemente das tentativas anteriores, o Google diz que também pode gerar cenas com muito movimento, em vez de apenas movimentos sutis. Então, qual é a mágica por trás do VideoPoet e o que ele pode fazer? Aqui está tudo o que você precisa saber.
O que é o Google VideoPoet?
Google VideoPoet é um modelo experimental de linguagem grande que pode gerar vídeos a partir de um prompt baseado em texto. Você pode descrever uma cena fictícia, mesmo uma tão ridícula como “Um gato robô comendo espaguete”, e ter um vídeo pronto para assistir em segundos. Se você já usou um gerador de imagens de IA como Midjourney ou DALL-E 3, já sabe o que esperar do VideoPoet.
Assim como os geradores de imagens de IA, o VideoPoet também pode realizar edições em conteúdo de vídeo existente. Por exemplo, você pode cortar uma parte do quadro do vídeo e pedir à IA para preencher a lacuna com algo da sua imaginação.
O Google investiu em startups como a Runway trabalhando na geração de vídeos com IA, mas o VideoPoet é uma cortesia dos esforços internos da empresa. O Artigo técnico do VideoPoet recruta até 31 pesquisadores do Google Research.
Como funciona o Google VideoPoet?
No artigo mencionado, os pesquisadores do Google explicaram que o VideoPoet difere dos geradores convencionais de texto para imagem e texto para vídeo. Ao contrário do Midjourney, por exemplo, o VideoPoet não utiliza um modelo de difusão para gerar imagens a partir de ruído aleatório. Essa abordagem funciona bem para imagens individuais, mas não funciona para vídeos em que o modelo precisa levar em conta o movimento e a consistência ao longo do tempo.
Em sua essência, o VideoPoet do Google é um grande modelo de linguagem. Isso significa que ele é baseado na mesma tecnologia que alimenta o ChatGPT e o Google Bard, que pode prever como as palavras se encaixam para formar frases. VideoPoet leva esse conceito um passo adiante, pois também é capaz de prever pedaços de vídeo e áudio, e não apenas texto.
VideoPoet é um grande modelo de linguagem que gera vídeos em vez de texto.
O VideoPoet exigiu um processo de pré-treinamento especializado que envolveu a tradução de imagens, quadros de vídeo e clipes de áudio para uma linguagem comum, chamada tokens. Simplificando, o modelo aprendeu como interpretar diferentes modalidades a partir dos dados de treinamento. O Google afirma que usou um bilhão de pares imagem-texto e 270 milhões de amostras de vídeo públicas para treinar o VideoPoet. Em última análise, o VideoPoet tornou-se capaz de prever tokens de vídeo da mesma forma que um modelo LLM tradicional faria para prever tokens de texto.
VideoPoet tem uma base robusta graças ao seu treinamento que lhe permite realizar tarefas além da geração de texto para vídeo. Por exemplo, ele pode aplicar estilos a vídeos existentes, realizar edições como adicionar efeitos de fundo, alterar a aparência de um vídeo existente com filtros e alterar o movimento de um objeto em movimento em um vídeo existente. O Google demonstrou este último com um guaxinim dançando em vários estilos.
VideoPoet vs. geradores de vídeo AI rivais: Qual é a diferença?
Edgar Cervantes / Autoridade Android
O VideoPoet do Google difere da maioria de seus rivais que contam com modelos de difusão para transformar texto em vídeos. No entanto, não é exatamente o primeiro – um número menor de pesquisadores do Google Brain apresentou o Phenaki no ano passado. Da mesma forma, Meta Faz um video O projeto causou impacto na comunidade de IA por gerar diversos vídeos sem treinamento prévio em pares de vídeo-texto. No entanto, nenhum dos modelos foi lançado publicamente.
Assim, como não temos acesso a nenhum modelo de geração de vídeo, só podemos confiar nas informações que o Google forneceu sobre o VideoPoet. Com isso em mente, os autores do artigo afirmam que “em muitos casos, mesmo os modelos líderes atuais geram pequenos movimentos ou, ao produzirem movimentos maiores, exibem artefatos perceptíveis”. O VideoPoet, por outro lado, pode lidar com mais movimento.
VideoPoet pode gerar vídeos mais longos e lidar com movimentos com mais elegância do que a concorrência.
O Google também afirma que o VideoPoet pode gerar vídeos mais longos que a concorrência. Embora esteja limitado a uma sequência inicial de vídeos de dois segundos, ele pode manter o contexto em oito a dez segundos de vídeo. Isso pode não parecer muito, mas é impressionante, considerando o quanto uma cena pode mudar nesse período. Dito isto, os vídeos de exemplo do Google incluem apenas algumas dezenas de quadros, longe do benchmark de 24 ou 30 quadros por segundo usado para vídeos ou filmes profissionais.
Disponibilidade do Google VideoPoet: é grátis?
Embora o Google tenha publicado dezenas de vídeos de exemplo para demonstrar os pontos fortes do VideoPoet, ele não chegou a anunciar um lançamento público. Em outras palavras, não sabemos quando poderemos usar o VideoPoet, se é que poderemos.
O Google ainda não anunciou um produto ou data de lançamento para VideoPoet.
Quanto ao preço, talvez tenhamos que seguir a dica de geradores de imagens de IA como o Midjourney, que só estão disponíveis por meio de assinatura. Na verdade, imagens e vídeos gerados por IA são computacionalmente caros, portanto, abrir o acesso a todos pode não ser viável, mesmo para o Google. Teremos que esperar por um lançamento disruptivo como o ChatGPT da OpenAI para forçar a mão do gigante das buscas. Até então, teremos simplesmente que esperar e observar do lado de fora.