OpenAI marcou um antes e um depois com ChatGPT. O lançamento do famoso chatbot conversacional em novembro de 2022 foi o ponto de partida de uma corrida multibilionária para liderar o desenvolvimento da inteligência artificial. Mas a empresa liderada por Sam Altman também quer entrar no mundo do vídeo com Sora.
Agora, além dos benefícios, essas duas ferramentas têm um ponto polêmico em comum: não sabemos exatamente de onde vieram todos os dados com os quais foram treinadas. No caso do gerador de vídeo, a OpenAI tem sido muito pouco clara a este respeito, limitando-se a dizer que foram utilizados dados disponíveis publicamente.
O problema dos direitos autorais
“Eu não tenho certeza sobre isso”. Com essas palavras, a CTO da empresa de IA, Mira Murati, respondeu recentemente se eles usaram dados do YouTube para treinar o modelo Sora. O CEO do YouTube, porém, tem certeza de que, se fosse esse o caso, a OpenAI estaria enfrentando uma violação clara dos termos de serviço da plataforma.
A posição do executivo chega até nós em uma entrevista recente à Bloomberg. Questionado se acredita que o YouTube foi usado para treinar Sora, Neal Mohan respondeu que não tem informações sobre isso e acrescentou que uma das expectativas dos criadores de conteúdo é que os termos de serviço da plataforma sejam cumpridos.
Nesse sentido, disse que determinados conteúdos do YouTube, como o título do vídeo, o nome do canal ou o nome do criador, são expostos à tarefa Raspagem da web (web scraping) para que apareça nos motores de busca, os termos não permitem o download dos vídeos ou de suas transcrições.
A forma como os modelos de IA da OpenAI são treinados gerou alguma controvérsia. Recentemente, vimos o The New York Times processar a Microsoft e a OpenAI por usarem “milhões” de seus artigos para treinar modelos de IA. E esta é apenas uma das ondas de ações judiciais que surgiram.
Este cenário tem levado a empresa apoiada pela Microsoft a promover acordos com grandes grupos editoriais para poder usar seus dados. Entre as mais recentes podemos citar alianças com a Prisa Media (que inclui meios de comunicação como El País, As ou Cinco Días), o jornal francês Le Monde e o banco de imagens Shutterstock.
Imagens | Christian Wiediger | OpenAI
Em Xataka | Criamos essas três músicas usando Suno AI v3. É a coisa mais espetacular que vimos em muito tempo.