Há um novo editor de fotos da Apple, se você souber onde procurá-lo. A iPhone Kings se uniu a pesquisadores da Universidade da Califórnia, em Santa Bárbara, para construir uma ferramenta que permite editar fotos e imagens usando instruções de texto. Não tem um lançamento oficial, mas os pesquisadores estão hospedando uma demonstração que você pode experimentar por si mesmo, que foi vista pela primeira vez Tecnologia extrema.
O projeto é denominado Edição de imagens guiada por modelo de linguagem grande multimodal (MGIE). Existem muitos softwares de edição de fotos com IA no mercado hoje. O Photoshop agora vem com ferramentas de IA integradas, e outras como o DALL-E da OpenAI permitem editar imagens e também criá-las do zero. No entanto, se você já tentou usá-los antes, sabe que pode ser um pouco frustrante. Em muitos casos, a IA tem dificuldade em entender exatamente o que você procura.
A inovação no MGIE adiciona outra camada de interpretação de IA. Quando você diz à IA o que deseja ver, o MGIE primeiro usa IA baseada em texto para tornar suas instruções mais claras e descritivas. “Resultados experimentais mostram que instruções expressivas são essenciais para a edição de imagens baseada em instruções”, disseram os pesquisadores em um artigo. papel Publicado no arXiv. “MGIE pode levar a melhorias significativas.”
A Apple publicou uma versão de código aberto do software em GitHub. Se você for esperto, poderá executar você mesmo uma cópia do MGIE, mas os pesquisadores configuraram a ferramenta em… Abraço facial. Funciona um pouco lento quando há muitas pessoas usando, mas é uma experiência divertida.
Gigantes da tecnologia como a Apple estão gastando bilhões de dólares em projetos que ninguém jamais verá, então é perfeitamente possível que a chamada ferramenta MGIE nunca seja lançada oficialmente. A Apple não respondeu imediatamente a um pedido de comentário.
Demos uma volta aqui no escritório do Gizmodo. Carreguei uma foto do meu colega e conselheiro mais próximo Kyle Barr usando óculos de sol estranhos que tirei na Netflix em… Consumer Electronics Show deste ano. Eu disse à Amnistia Internacional: “O homem está no deserto”. Antes de criar a imagem, o MGIE extrapola o seguinte:
“O homem está usando um capacete de metal e está em um ambiente desértico. O ambiente ao redor é árido e árido, com dunas de areia que se estendem até onde a vista alcança.”
Depois de brincar com a ferramenta por muito mais tempo do que deveria, fica claro que ela está sujeita a muitas das mesmas limitações de qualquer outro gerador de imagens de IA. Muitas vezes, os resultados são estranhos e nada parecidos com o que você pediu. Mas, em alguns casos, fez um trabalho impressionante e, em defesa do software, a IA teve um desempenho melhor com tópicos familiares. “Familiar” não é algo que você chamaria de óculos de sol de Kyle.