Em agosto de 2022, quatro meses após a entrada do DALL·E 2 da OpenAI na versão beta, a Stability AI introduziu o Stable Diffusion. Longe de passar despercebido, o modelo foi feito de um lugar de importância no mundo emergente da IA generativa devido à sua enorme capacidade de gerar imagens com diferentes estilos artísticos e, principalmente, conceitos abstratos.
Agora, a equipe da Stable Diffusion acaba de apresentar um novo modelo. Não geração de imagens, mas vídeos. Stable Video Diffusion promete expandir o ecossistema de modelos Stability AI, trazendo recursos de geração de imagens estáticas para imagens em movimento. Vamos ver o que esta proposta tem a nos oferecer.
O modelo de geração de vídeo Stability AI
O modelo de geração de vídeo Stability AI funcionará sob a mesma mecânica do gerador de imagem. Os usuários devem insira um prompt descrevendo o que o modelo deve criar, portanto, quanto mais detalhadas as instruções, mais preciso deve ser o resultado. O conteúdo chegará em um vídeo entre 3 e 30 frames por segundo.
O modelo de geração de vídeo Stability AI funcionará sob a mesma mecânica que os equivalentes Meta chamados Emu. Os usuários devem inserir um prompt detalhando especificamente o que desejam criar. Primeiro a imagem será gerada e depois animada. O resultado serão vídeos curtos com resolução de 576×1024 entre 3 e 30 frames por segundo.
A empresa também optou pela versatilidade. Ele diz que o modelo pode adaptar facilmente tarefas subsequentes, como síntese multivisualização a partir de uma única imagem com ajuste fino em conjuntos de dados de múltiplas visualizações. Nesse sentido, destacam que o modelo pode ser útil nos mais diversos setores, incluindo publicidade, educação e entretenimento.
Como outros modelos generativos de IA, o Stable Video Diffusion está disponível de forma limitada. Isso significa que não é tão fácil acessá-lo. Porém, existem duas maneiras de experimentá-lo: executá-lo localmente com os arquivos disponíveis no GitHub e no Hugging Face ou entrar na lista de espera para acessar a interface web.
Estamos testemunhando em primeira mão a evolução da inteligência artificial generativa. Há apenas dois anos, os modelos de imagem não estavam disponíveis Para o público em geral e os seus resultados, comparados com os de hoje, foram muito primitivos. Hoje em dia qualquer pessoa pode acessá-los e eles têm uma qualidade surpreendente.
A geração de vídeos com IA parece estar seguindo o mesmo caminho. Neste momento não está amplamente disponível e os resultados podem ser melhorados. Quanto evoluirá nos próximos meses? A boa notícia é que estaremos aqui para descobrir e a partir de hoje poderemos experimentar as ferramentas que temos disponíveis.
Imagens: Estabilidade AI
Em Xataka: Estamos um pouco mais próximos da era pós-tela. A questão é se realmente queremos chegar lá.