Lumiere é o argumento do Google para vencer a corrida dos vídeos gerados por IA. O problema é que você não conseguirá usá-lo.

Os modelos generativos de IA funcionam surpreendentemente bem na geração de texto ou imagens, mas e o vídeo? Até agora este tipo de conteúdo tinha sido muito resistente a este tipo de sistema, mas o Google acaba de apresentar a sua proposta e a verdade é que as coisas são promissoras.

Lumière. Este é o nome do novo modelo de IA que o Google apresentou e que faz uso de um novo sistema denominado Space-Time-U-Net (STUNet). É um modelo de difusão que tenta descobrir onde estão os objetos em um vídeo e como eles se movem simultaneamente e mudam ao longo do tempo. Isso, revela Ars Technica, permite que Lumiere crie o vídeo de uma só vez, em vez de gerar pequenos quadros e depois juntá-los.

Um salto de qualidade. As primeiras ferramentas que surgiram para gerar vídeos através de modelos de IA eram, na melhor das hipóteses, limitadas, mas nos últimos tempos têm surgido avanços surpreendentes que gradualmente são implantados de forma massiva.

coelhos no chapéu. Alguns extras são adicionados ao processo de criação. Assim, é possível gerar vídeos a partir de um prompt de texto, mas também converter imagens estáticas em vídeos, gerar vídeos com estilo específico a partir de uma imagem de referência, aplicar tarefas de edição de vídeo usando prompts de texto, criar cinemagraphs animando apenas determinadas áreas da imagem , ou também oferecer opções de pintura para, por exemplo, alterar o tipo ou a cor do vestido que a pessoa está usando no vídeo.

Cinco segundos. Este sistema também é capaz de gerar 80 quadros para obter vídeos de cinco segundos com taxa de 16 quadros por segundo e resolução de 1.024 x 1.024 pixels por quadro. Nada mal para esta primeira iteração; Na verdade, o Google classifica esses frames como “baixa resolução”.

De volta à transparência. Os responsáveis pelo estudo não deram detalhes sobre o conteúdo com que treinaram este modelo, o que continua a ser um problema nesta área. Eles simplesmente apontam que “treinamos nosso modelo Text To Video (T2V) com um conjunto de dados que consiste em 30 milhões de vídeos que incluem uma descrição de texto”.

Você não poderá usá-lo. O problema, tal como acontece com outros projetos nesta área, é que este é um estudo de investigação que não estará disponível para uso geral e público. É algo razoável que permite ao Google evitar problemas de direitos autorais ou hipotéticos usos perigosos no campo da desinformação, segurança cibernética ou privacidade.

No Engadget: o Bing Chat não é mais chamado de Bing Chat. Agora se chama Copilot e se confirma como a grande aposta da Microsoft para o futuro

Lumiere é o argumento do Google para vencer a corrida dos vídeos gerados por IA. O problema é que você não conseguirá usá-lo.

Posts recentes

Páginas