Mas zoom / Difusão Estável 3ª Geração com Vetor: Retrato de estúdio close-up de um camaleão sobre fundo preto.

Stability AI anunciou na quinta-feira Stable Diffusion 3, um modelo de síntese de imagem de próxima geração com pesos abertos. Ele segue seus antecessores criando imagens detalhadas de vários assuntos com qualidade e precisão aprimoradas na criação de texto. O breve anúncio não foi acompanhado de uma manifestação pública, mas a estabilidade foi Abrir lista de espera Hoje é para quem quiser experimentar.

Stable diz que sua família de modelos Stable Diffusion 3 (que pega descrições de texto chamadas “prompts” e as transforma em imagens correspondentes) varia em tamanho de 800 milhões a 8 bilhões de parâmetros. A escala permite que diferentes versões do modelo sejam executadas localmente em uma variedade de dispositivos – de smartphones a servidores. O tamanho do parâmetro corresponde aproximadamente à capacidade do modelo em termos da quantidade de detalhes que ele pode gerar. Modelos maiores também requerem mais VRAM nos aceleradores de GPU para funcionar.

Desde 2022, vimos Stable lançar sua evolução de modelos de geração de imagens de IA: Stable Diffusion 1.4, 1.5, 2,02.1, XL, XL Turbo e agora 3. A estabilidade se tornou conhecida por fornecer uma alternativa mais aberta aos modelos proprietários de síntese de imagem, como o DALL-E 3 da OpenAI, embora não seja isento de controvérsia devido ao uso de treinamento protegido por direitos autorais. dados. Preconceito e potencial para abuso. (Isto levou a processos judiciais não resolvidos.) Os modelos de difusão em estado estacionário eram ponderados e de código aberto, o que significa que os modelos podiam ser executados localmente e ajustados para alterar os seus resultados.

Em relação às melhorias técnicas, o CEO da Stability, Imad Mushtaq, disse livros Não

Como disse Mostaque, a família Stable usa Diffusion 3 Estrutura dos transformadores de difusãoum novo método de criação de imagens usando inteligência artificial que substitui os habituais blocos de construção de imagens (por exemplo, Arquitetura UNET) para um sistema que funciona em pequenos pedaços da imagem. Este método é inspirado em transformadores, que são bons para lidar com padrões e sequências. Essa abordagem não apenas aumenta a eficiência, mas também produz imagens de maior qualidade.

Difusão Estável 3 também é usada”Correspondência de fluxo“, uma técnica para criar modelos de inteligência artificial que podem criar imagens aprendendo como passar de um ruído aleatório para uma imagem suavemente estruturada. Ele faz isso sem ter que simular cada etapa do processo e, em vez disso, concentra-se na direção ou fluxo geral que deve a criação da imagem segue.

Comparando a saída entre DALL-E 3 e Stable Diffusion 3 da OpenAI com o roteador, "Imagem noturna de carro esportivo com texto "SD3" Ao lado, o carro circula em uma pista de corrida em alta velocidade, com uma enorme placa de trânsito escrita nele Comparando a saída entre DALL-E 3 e Stable Diffusion 3 da OpenAI com o roteador, "Imagem noturna de carro esportivo com texto "SD3" Ao lado, o carro circula em uma pista de corrida em alta velocidade, com uma enorme placa de trânsito escrita nele
Mas zoom / Comparação da produção entre o DALL-E 3 da OpenAI e o Stable Diffusion 3 com a afirmação “Imagem noturna de um carro esportivo com o texto ‘SD3’ na lateral, carro em uma pista de corrida em alta velocidade, enorme placa de trânsito com o texto ‘Mais rápido ‘.”

Não temos acesso ao Stable Diffusion 3 (SD3), mas pelas amostras que encontramos postadas no site Stable e nas contas de mídia social associadas, as Gerações parecem aproximadamente comparáveis ​​a outros modelos modernos de fotomontagem no momento. Incluindo o já mencionado DALL-E 3, Adobe Firefly, Imagine com Meta AI, Midjourney e Google Imagen.

O SD3 parece lidar muito bem com a geração de texto em exemplos fornecidos por outros, que provavelmente foram escolhidos a dedo. A geração de texto tem sido um ponto fraco específico nas montagens de imagens anteriores, portanto, melhorar essa capacidade em formato livre é um grande negócio. Além disso, a precisão da velocidade (quão fielmente segue as descrições nas instruções) parece semelhante ao DALL-E 3, mas ainda não testamos isso.

Embora o Stable Diffusion 3 não esteja amplamente disponível, o Stability afirma que, assim que o teste for concluído, seus pesos poderão ser baixados gratuitamente e executados localmente. “Esta fase de visualização, como acontece com os modelos anteriores, é crítica para reunir ideias para melhorar seu desempenho e segurança antes do lançamento aberto”, escreveu Stability.

A estabilidade foi experimentada recentemente com uma variedade de arquiteturas de montagem de imagens. Além do SDXL e SDXL Turbo, a empresa anunciou na semana passada Cascata estávelque usa um processo de três estágios para sobrepor texto a uma imagem.

Listando imagem por Imad Mushtaq (IA para Estabilidade)

Share. Facebook Twitter Pinterest LinkedIn Tumblr Email

Formado em Educação Física, apaixonado por tecnologia, decidi criar o site news space em 2022 para divulgar meu trabalho, tenho como objetivo fornecer informações relevantes e descomplicadas sobre diversos assuntos, incluindo jogos, tecnologia, esportes, educação e muito mais.