Vamos, eu digo. Stable Diffusion é (para mim) o produto do ano. Este motor de geração de imagens via inteligência artificial tornou-se uma verdadeira revolução que com suas luzes e sombras não para de evoluir. Acaba de o fazer com a publicação da sua versão 2.0 que vai ainda mais longe do que a primeira. O que quer dizer.
Difusão estável 2.0. Este “AI Imager Linux” acaba de anunciar seu segundo lançamento estável, e enquanto o anúncio detalha as melhorias, o engraçado é que a empresa que roda tudo, Stability.ai, não tem sequer uma página de destino. adequada para Stable Difusão. Seu site oficial não é nem mais nem menos que seu repositório GitHub. Maravilhoso, como evidenciado pelo fato de ser o projeto GitHub “estrela” que mais cresce na história, superando em muito os destaques anteriores, como Bitcoin, Ethereum ou Apache Kafka, uma plataforma de streaming de eventos.
Não consegue encontrar a difusão estável? Normal, porque se parece com o eixo da coordenada Y. Está ali, à esquerda de tudo, quase como uma parede vertical do resto. Espetacular. Fonte: A16z.
Mantém-se como uma referência absoluta. Não foi o primeiro -DALL-E 2 ou Midjourney são igualmente fantásticos- mas a filosofia Open Source da Stable Diffusion tem sido crucial para se posicionar como a grande referência neste campo. Ser capaz de instalá-lo localmente ou usá-lo como um plug-in em outros aplicativos, como Photoshop ou Canva, mostrou um potencial quase ilimitado para criadores, empresas e usuários comuns.

A conversão de texto em imagem supera a si mesma. Nesta versão, é utilizado um novo codificador de texto para imagem chamado OpenCLIP, que segundo os responsáveis pelo projeto “melhora muito a qualidade das imagens geradas em relação às versões V1”. O motor mantém os filtros para remover conteúdo adulto graças ao filtro NSFW de LAION-5B, o conjunto de imagens que foi usado para treinar este modelo

Upscaling e mais resolução do que nunca. Embora o motor gere nativamente imagens de até 768×768 pixels, o Stable Diffusion 2.0 inclui um novo sistema de upscaling que melhora a resolução das imagens multiplicando-as por até quatro. Assim, é possível gerar imagens de 2.048×2.048 e até mais, e com uma definição fantástica.
Mesma base para imagens diferentes. O modelo de difusão Profundidade da Imagem vai além do que foi alcançado com a opção imagem a imagem do V1. Essa opção nos permitiu fazer um esboço rápido do que queríamos obter e o Stable Diffusion geraria a imagem com base nisso e no texto de entrada descritivo (pronto). O novo modelo pode usar uma imagem base, mas gera não uma, mas várias imagens usando o texto e as informações de “profundidade” fornecidas pela imagem inicial.