O lançamento do Sora há poucos dias nos surpreendeu mais uma vez com o realismo alcançado naqueles vídeos gerados por IA. Porém, este modelo é diferente do ChatGPT e certamente do DALL-E.
E é porque enquanto o ChatGPT tenta “adivinhar” por probabilidade as palavras apropriadas para responder às nossas perguntas, Sora tenta simular a física do mundo real. É pelo menos o que indicam especialistas em inteligência artificial como Jim Fan, que trabalha na NVIDIA e é fascinado por este modelo específico.
Esse vídeo é uma boa demonstração de sua teoria. Nele, o modelo é solicitado a simular uma batalha naval entre dois navios piratas navegando em uma xícara de café. O vídeo resultante não é perfeito, mas ainda é incrível por vários motivos.
Para começar, porque os dois navios navegam evitando-se, mas também porque a mecânica dos fluidos do café, incluindo a espuma, é especialmente marcante. Como Fan aponta, “simulação de fluidos é um subcampo próprio em gráficos gerados por computador, e tradicionalmente requer algoritmos e equações muito complexos.” O simulador ainda leva em conta que a cena se passa em uma xícara de café e aplica a técnica fotográfica tilt-shift para dar um aspecto ainda mais curioso ao vídeo. resultante.
Muitos criticaram a opinião de Fan nas respostas ao seu tópico e argumentaram que Sora está “simplesmente manipulando pixels 2D”. Este especialista Acho que esta é uma teoria reducionista. e é como dizer “GPT-4 não aprende programação, está apenas amostrando strings de texto”.
Para ele, a simulação física “suave” de Sora é uma “propriedade emergente” que será enormemente expandida com treinamento de texto para vídeo. Como visto naquele vídeo do vidro, física é imperfeita. Os próprios responsáveis pela OpenAI deixaram isso claro em seu relatório técnico, no qual afirmaram que “Sora atualmente apresenta inúmeras limitações como simulador. Por exemplo, ele não modela com precisão a física de muitas interações básicas, como quando um vidro quebra. ” “.
Fan explicou que isso é normal. O GPT-4 aprende sintaxe, semântica e estruturas de dados para, por exemplo, gerar código Python executável, não pode simplesmente descartar strings de texto, destacou. Sora faz algo semelhante e segundo ele “você deve aprender algumas formas implícitas de conversão de texto para 3D, transformações 3D, renderização com traçado de raio e regras físicas para modelar os pixels do vídeo com a maior precisão possível”.
Ele também o compara ao mecanismo de renderização Unreal Engine 5: embora este último seja um processo muito complexo que gera pixels de vídeo, Sora também os gera aprendendo com dados de treinamento e é “intuitivo”. Para fã Sora é mais parecido com o GPT-3 em 2020: uma demonstração de que a aprendizagem em contexto que este modelo possui era uma propriedade emergente que iria crescer, como aconteceu com o GPT-4. “Não se preocupe com as imperfeições do GPT-3. Pense em extrapolações para o GPT-4 em um futuro próximo”, conclui.
Outro especialista na área, Alberto Romero, explicou como Sora é um transformador de difusão. Ele combina um modelo de difusão – como o do DALL-E 3 – com um modelo de transformador como o usado no ChatGPT: uma rede neural que aprende o contexto rastreando relacionamentos em dados sequenciais. Segundo alguns especialistas, Sora foi treinado parcialmente com Unreal Engine 5 e outros motores 3D. Ele mesmo destacou que este modelo é um simulador primitivo do nosso mundo, algo que preocupa e impressiona você especialmente:
“A OpenAI afirma que Sora não apenas entende o estilo, cenário, personagem, objetos e conceitos presentes no prompt, etc., mas também “como essas coisas existem no mundo físico”. Quero qualificar esta afirmação dizendo que o assustador As falhas de Sora revelam que, embora possa ter aprendido um conjunto implícito de regras físicas que informam o processo de geração de vídeo, esta não é uma capacidade robusta (a OpenAI admite isso). Mas é certamente um primeiro passo nessa direção.”
Romero concorda com a avaliação de Jim Fan e lembra que a própria OpenAI concluiu seu anúncio no blog oficial com uma frase reveladora: “Sora serve de base para modelos capazes de compreender e simular o mundo real, capacidade que acreditamos será importante marco para alcançar a inteligência artificial.” Ou, como diz Romero, “A que distância estamos de ‘Matrix’?”.
Em Xataka | Tenho editado vídeo profissionalmente há nove anos. Então eu acho que Sora vai mudar meu trabalho e minha vida