Anos atrás, quando estávamos impressionados com as IAs que geravam imagens, começamos a falar sobre vídeos. Foi o próximo passo natural. Afinal, um vídeo não é apenas uma sucessão rápida de imagens? Os primeiros modelos foram… interessantes, para dizer o mínimo, mas evoluíram. Surgiram propostas como Pika, Stable Diffusion Video, o modelo Bytedance e, esta semana, surgiu o Sora.
O Sora é o modelo de geração de vídeo da OpenAI, a empresa responsável pelo ChatGPT, e entrou na conversa como um elefante em uma loja de porcelana. A qualidade que ele oferece impressiona, e os resultados são ótimos. Ele tem todas as chances de revolucionar os vídeos da mesma maneira que fez com as imagens e ilustrações. Para descobrir o que ele oferece, onde está o seu potencial e, é claro, onde ele falha, conversamos com vários editores de vídeo profissionais da equipe do Webedia. Aqui está o que eles nos disseram.
Muito espetacular à primeira vista…
Fran J. Martin (@franjmartin) é cineasta e gerente de conteúdo de marca em vídeo na Webedia Espanha. Ele grava e edita vídeos editoriais e de marca desde 2015 e participou de processos de filmagem, direção e pós-produção. Em sua opinião, “não sei se isso vai substituir um cineasta, mas vai afetar os bancos de imagens”.
Muitos dos vídeos que a OpenAI nos mostrou são vídeos que, se precisássemos deles para um projeto local, teríamos que comprá-los em um banco de imagens, contratar uma equipe local ou enviar uma equipe para gravá-los no local. Para Fran, o usuário que “vai para Tóquio, grava 45 fotos em 4K e depois vende, acho que seus dias estão contados com isso”.
Segundo Fran, o grande potencial dessa ferramenta é a possibilidade de fazer os planos que realmente precisamos e não conseguimos obter. “Você pode editar diretamente e pedir para gerar uma cena de um casal, mas também ter um vestindo uma camisa vermelha porque o vídeo é para a empresa X”, ele nos conta.
Ele também faz uma interessante reflexão sobre a animação de imagem estática, uma das habilidades do Sora. Embora naquela do cachorrinho com boina francesa as texturas fiquem borradas para “suavizar os erros”, naquela dos monstros as coisas mudam.
“Acho que isso está muito bem feito e os movimentos que eles fazem são bastante orgânicos, dentro da animação motion graphics que um profissional poderia fazer. Isto pode ser um problema ou uma solução para muitos fotógrafos de movimento que fazem este tipo de vídeos, porque [la imagen] Tem um bom movimento e fazê-lo manualmente requer muitos anos de experiência. Você tem que fazer muitos quadros-chave e muita curva de velocidade para fazer com que pareça tão legal. Agora, aqui teríamos que ver como esta ferramenta responde quando pedimos a um desses monstros para fazer um movimento específico.
Num mundo ideal, se a IA fosse capaz de nos dar informações sobre os movimentos que realiza para que possamos modificá-los como quisermos no After Effects, seria ótimo. Imagino um mundo em que a IA faz todo o rigging dos bonecos para você, anima ao seu gosto e fornece todos aqueles quadros-chave e curvas para modificar o que quiser no After Effects.”
Ele também gostou do bom trabalho que Sora faz combinando vídeos (veja a foto do drone e da borboleta subaquática). “Obviamente acho muito legal e imaginativo e acho que faz um trabalho que seria quase impossível manualmente. Aqui damos um grande mini-ponto à IA porque a capacidade de inventar coisas e fazê-las encaixar no meio do caminho é brutal. Parece que sua mente está em um sonho”, diz ele.
Nesse sentido, ela concorda com outra colega de casa, Anna Boria (@ana_borbuj), da equipe de vídeo Xataka. Ana produz e edita vídeos na Xataka há três anos e diz que o que viu até agora “parecia espetacular”. Embora já existissem outras IAs de geração de vídeos, Ana acredita que o que diferencia Sora é “o que ele arrisca nos vídeos. Há movimentos de câmera muito cinematográficos, muito arriscados, curvas muito dramáticas e, normalmente, quando assistimos a vídeos [gerados por IA] “Muito realistas, eram animações muito simples e muito sutis.”
Os vídeos, explica-nos Ana, chamam a atenção porque “não é só o primeiro elemento que se move, mas tudo o que está ao fundo, há reflexos na água, a textura da pele, as cores, tudo me parece bem, há vídeos que não posso dizer que são criados por uma IA ou que são vídeos reais, não percebo a diferença.”
Mário Arroyo (@embi41), companheiro de vídeo, também acredita que o potencial dessa ferramenta para gerar recursos é enorme. É uma opinião que partilha com Ana. Como Ana explica, por vezes é difícil encontrar recursos que ilustrem o que queremos dizer “e com isto abre-se todo um mundo de possibilidades para mim”.
Segundo Mario, Sora aponta maneiras de “gerar recursos a partir de locais que você não consegue acessar sozinho, como fotos tiradas com drone. Você pede uma tomada de drone em que você pode ver uma praia arenosa com pouca gente e que está chovendo, e que você consegue isso… Parece-me que tem muito, muito potencial.”
…mas você tem que olhar além
A questão é que, uma vez que saímos do nosso espanto inicial, É fácil ver as costuras de Sora. Se olharmos para trás, vamos lembrar que com as primeiras IAs generativas tudo era alucinação, até você olhar para as mãos (que ali estava a IA que alucinava). Mãos com seis dedos, membros que não levam a lugar nenhum, coisas no fundo que não fazem sentido algum… O mesmo se repete em Sora e se tirarmos a lupa, como fizeram Fran, Ana e Mario, veremos isso muito claramente.
Fran nos oferece alguns exemplos. O vídeo da garota andando pelo que parece ser o Japão, “no início e para uma tomada rápida, ela pode entrar furtivamente […] Acho que eles conseguem adicionar muito bem os reflexos nos óculos e acertar a luz da foto na mulher.” Porém, “se você olhar de perto parece que se trata de uma composição chroma key, já que o assunto principal não está 100% bem integrado ao fundo”. Ele também nos explica que “a mulher e o fundo avançam em velocidades diferentes” e que o bokeh “não é constante e orgânico”.
Quanto aos vídeos das tartarugas, “aqui pode ser porque não estamos tão habituados ao mundo subaquático, mas é onde a tartaruga parece mais irreal. É basicamente um personagem de videogame. O fundo mostra que foi tirado de imagens reais.”
No caso do cão, “a iluminação é muito boa mas a questão das texturas do cabelo é um drama. No momento eles não se movem naturalmente, é como um animal feito para um videogame. Funcionam muito bem na integração da sombra com a imagem da menina. Isso é muito bom, mas as costuras ainda são visíveis.”
Outros clipes que chamaram a atenção são os do Japão, o casal caminhando pela montanha, o cachorro olhando pela janela e o robô. Todas tomadas que buscam demonstrar coerência entre os frames. Segundo Fran, esses vídeos possuem “boa integração de luzes”, mas “pouca consistência no movimento e muita estética de videogame nos objetos gerados em 3D. Ainda estamos muito chocados com a textura da imagem real com a suavidade e falta de detalhes e textura das imagens 3D.”
Ana, por sua vez, conta-nos que tem detectado erros nas imagens, problemas na recriação de movimentos das mãos ou mesmo movimentos faciais, gestos… Há certas coisas que penso que serão mais difíceis de conseguir, como transmitir emoções das pessoas através de gestos e de toda a emoção geral, como modificam o rosto para transmitir essa emoção… Acho que pode ser complicado.”
“Há certas coisas que penso que serão mais difíceis de conseguir, como transmitir as emoções das pessoas”
Além disso, e tal como Mario, percebeu o problema que tem nas mãos e nas zonas escuras. “Assim como há vídeos em que as mãos que aparecem, por terem uma presença mais protagonista, parecem muito reais, há outros em que não. Por exemplo, vem à mente um vídeo de uma senhora idosa soprando algumas velas. Atrás dele está o que deveria ser sua família aplaudindo e praticamente as mãos de todos são uma pintura.”
Outro aspecto a destacar é o da física. “Acontece muito nos videogames, é difícil garantir que a física, que os movimentos, que os objetos pesem o que têm que pesar e que tudo o que acontece em cena seja natural, me parece muito complicado. Se já é difícil para um humano animar isso e fazer com que tenha o efeito que precisa, acho que será difícil para a IA também. O que vai acontecer? Sim claro. É questão de tempo”.
Mário acrescenta que, embora seja verdade que os resultados sejam muito bons, descemos um pouco pelo vale misterioso em certos planos em que aparecem pessoas, como o já referido vídeo da mulher soprando as velas. “O movimento do rosto de algumas pessoas, que podem ser vistas como ‘muito NPCs’, que se deforma, que salta, não é fluido”, observa o editor. “Acho também que ele dobra o joelho na hora de fazer vídeos à noite, que se você olhar de perto é um dos poucos que existem. Quando ele faz vídeos à noite a iluminação me parece muito exagerada”, finaliza.
Muito trabalho a fazer, mas enorme potencial
O fato do lançamento do Sora ter feito tanto barulho tem um certo motivo. O panorama mudou muito desde aquela foto de uma noz partida ao meio e desde aquele ChatGPT que parecia mágica. Estes modelos melhoraram e receberam alguma concorrência ao longo do caminho, mas o OpenAI foi quem, de alguma forma, abriu o caminho e aumentou os limites. O que a OpenAI conseguiu até agora em texto e imagem é impressionante, e agora chegou ao vídeo.
Obviamente, esta tecnologia apresenta desafios enormes em todos os aspectos. A mesma discussão sobre imagens, voz, música e texto se aplica ao vídeo, e o Sora, embora não seja o primeiro modelo desse tipo, tem o que é preciso para marcar um antes e depois. Pelo menos pelo que a OpenAI nos ensinou, porque até novo aviso não poderemos provar este modelo por nós mesmos.
O Sora tem todas as credenciais para ser um modelo fundamental em termos de geração de vídeo
Em qualquer caso, tem um enorme potencial em todos os aspectos que possamos imaginar. Eu, pessoalmente e como criador de conteúdo no TikTok, vejo o Sora como uma ferramenta fantástica para alcançar coisas que de outra forma não conseguiria. Estou falando de vídeos sobre o espaço e seus recantos, lugares que ninguém consegue registrar; planos tão específicos que podem não existir, abstrações que servem para ilustrar ideias. É nestes pontos que, pessoalmente, encontro potencial.
O Sora não é perfeito. Seria preocupante se assim fosse. Se você olhar os vídeos publicados pela OpenAI com uma lupa verá as costuras, mas além disso o que é realmente interessante será assista esses vídeos daqui a cinco anosporque hoje estamos apenas no começo, mas o começo parece brutal.
Imagens | OpenAI
Em Xataka | O Google enfrenta duas guerras no campo da IA: a primeira contra a OpenAI e a segunda contra si mesmo