A festa particular do Google com o Gemini 1.5 não durou muito. Apenas duas horas depois, Sam Altman deixou aquele anúncio para trás, porque sua empresa apresentou seu novo modelo de IA, Sora.
O lançamento gerou inúmeras reflexões e comentários nas redes sociais, e com razão: a qualidade dos pequenos vídeos criados com Sora é espetacular e seu impacto no futuro da criação de conteúdo parece notável.
Mas como já aconteceu com modelos generativos de inteligência artificial como ChatGPT ou DALL-E, a opacidade relativamente aos dados utilizados para treino é total. Com qual conteúdo a OpenAI treinou Sora? Com vídeos do YouTube? Do TikTok? Das transmissões de televisão aberta?
A empresa não esclarece, mas isso se tornou uma prática comum em um setor que prefere pedir desculpas – e não o faz – a pedir permissão. Isto já gerou importantes ações judiciais contra a OpenAI e outras empresas, como o desenvolvedor do Stable Diffusion ou a Microsoft com seu GitHub Copilot, e levanta conflitos jurídicos semelhantes no campo do conteúdo de vídeo.
Embora não tenham fornecido detalhes sobre quais conteúdos utilizaram para treinar este modelo, a pesquisa científica que publicaram fornece detalhes sobre como treinaram o modelo com esses conteúdos, sejam eles quais forem.
Decompondo vídeos no espaço e no tempo
Sora é inspirado em Large Language Models (LLMs) que oferecem determinados recursos baseados em conteúdo extraído da Internet. Embora os LLMs sejam alimentados por tokens de texto (palavras ou pequenos grupos de palavras), Sora faz uso das chamadas “zonas visuais” (manchas visuais)técnica que já foi utilizada no passado para trabalhar com análise de vídeos.
O que a OpenAI faz é converter vídeos nessas áreas, compactando-os e decompondo-os consecutivamente em áreas que evoluem ao longo do tempo. Como indicam os pesquisadores, “as zonas são representações eficazes e altamente escaláveis para treinar modelos generativos de vários tipos de vídeos e imagens”.
Com este esquema Sora também é capaz de ser treinado com vídeos e imagens de diferentes resoluções, durações e proporções. Precisamente por ter sido treinado com vídeos de diversos formatos —sem cortá-los e trabalhar, por exemplo, com vídeos quadrados – significa que também pode gerar vídeos para diferentes formatos de tela com o enquadramento correto.
A partir dessas informações, Sora, que é um modelo transformador – mesmo conceito usado para geração de texto e imagem – de difusão, é treinado para prever áreas “limpas”.
Há outro elemento-chave nesse processo: a compreensão da linguagem. Como explicam na investigação, não basta enviar vídeos e fazer Sora analisá-los: você precisa saber o que está acontecendo nesses vídeose é aí que entram em ação as ferramentas capazes de detectar e renomear/legendizar frames.
Na verdade, eles usaram os mesmos que usaram no DALL-E 3, gerando legendas de texto para todos os vídeos do seu conjunto de treinamento. Os pesquisadores destacam que “o treinamento com legendas de vídeos altamente descritivas melhora a fidelidade do texto e também a qualidade geral dos vídeos”.
Isso é incrível, mas tome cuidado com os direitos autorais
Os vídeos mostrados pela OpenAI naquele estudo publicado online são incríveis – recomendamos que você dê uma olhada, existem de todos os tipos – mas a mesma pergunta que inicialmente nos colocamos persiste. ¿De onde vêm os vídeos com o qual este modelo foi treinado?
As fontes não foram esclarecidas, mas o perigo aqui para a OpenAI é acabar enfrentando ações judiciais significativas daqueles que possuem os direitos autorais desse conteúdo.
Google, por exemplo, poderia processar OpenAI se for descoberto que vídeos do YouTube foram usados para treinar Sora. É uma possibilidade plausível, especialmente considerando que ambos competem na área de IA.
Mas também existem outros riscos à vista. Se os deepfakes de imagem – basta dizer a Taylor Swift – e os deepfakes de vídeo já eram convincentes com as ferramentas disponíveis até agora, modelos como Sora podem levar esse tipo de problema ao seu expoente máximo. Será algo com que todos teremos de lidar, mas talvez também as empresas que como a OpenAI coloquem esta capacidade nas nossas mãos.
Imagem | OpenAI
Em Xataka | O ano em que a IA mudou nossas vidas: 17 editores da Xataka nos contam como ela transformou suas vidas diárias