Há pouco mais de um ano comecei a ouvir sobre Stable Diffusion e Midjourney e a capacidade de criar imagens do nada. Basta juntar algumas palavras e um modelo generativo de IA instalado em um servidor transforma essas palavras escritas em uma imagem gráfica. Magia.
Tudo progrediu tão rápido e tão frenéticamente desde então. E de repente, eu estava no meio do estande da MediaTek no MWC, olhando para um telefone Android rodando o chipset Dimensity 9300 e gerando imagens de IA instantaneamente.
O modelo gerava e aprimorava a imagem a cada letra digitada, em tempo real.
Cada letra e palavra que digitei acionou o modelo de Difusão Estável e alterei a imagem para se ajustar à minha descrição com mais precisão. Em tempo real. Zero atraso, zero espera, zero servidores. Tudo é local e offline. Fiquei pasmo.
No ano passado, a Qualcomm teve o prazer de exibir (também no MWC) um modelo de difusão estável que poderia gerar uma imagem de IA localmente em menos de 15 segundos. Achamos isso impressionante, especialmente em comparação com a geração mais demorada e exigente do servidor do Midjourney.
Mas agora que vi a geração em tempo real em ação, esses 15 segundos parecem um atraso. Oh, que diferença fazem 12 meses!
Agora que vi a geração de IA em tempo real em ação, qualquer outra coisa parece um atraso.
O Dimensity 9300 foi construído desde o início para suportar mais recursos de IA no dispositivo, então essa não foi a única demonstração que a MediaTek estava divulgando. No entanto, os outros não eram tão impressionantes e atraentes: resumos locais de IA, expansão de fotos e manipulação de fotos do tipo Magic Eraser. A maioria desses recursos se tornou comum agora, com o Google e a Samsung ostentando-os em seu software Pixel e no traje Galaxy AI, respectivamente.
Robert Triggs / Autoridade Android
Depois, houve um modelo de geração de vídeo local, que cria uma imagem e a anima como uma série de GIFs para transformá-la em um vídeo. Eu tentei algumas vezes. Demorou mais de 50 segundos e nem sempre foi preciso, então você pode imaginar que não chamou minha atenção tanto quanto o modelo de imagem em tempo real.
A MediaTek também exibiu um criador de avatares de IA em tempo real que usa a câmera para capturar imagens ao vivo de uma pessoa e animá-las com vários estilos. A animação ficou um ou dois segundos atrás de seus movimentos reais, então não ficou tão lenta, mas a imagem gerada me lembrou dos primeiros dias de Dall-E. Novamente, isso estava sendo executado localmente e offline, o que explica esses problemas. Ainda é uma tecnologia impressionante, é claro, mas não parecia “lá” da mesma forma que o modelo de geração de imagens em tempo real.
Como você já pode perceber, gostei muito da primeira demonstração. Parecia que a tecnologia finalmente havia chegado. E o fato de você poder fazer isso localmente, sem os custos extras de servidores e as preocupações com a privacidade do envio de solicitações online, é o que torna isso mais prático para mim.