Estamos testemunhando em primeira mão como evolui a corrida pelo desenvolvimento da IA. Este é um concurso em que existem tantas propostas quantas ações judiciais por violação de direitos autorais. A Adobe queria evitar qualquer tipo de inconveniente ao nível de direito autoral garantindo que sua família de modelos de IA fosse treinada com imagens do Adobe Stock, bem como com conteúdo licenciado abertamente e conteúdo de domínio público.
Os recursos citados fizeram do Adobe Firefly, ferramenta de geração de imagens da empresa, uma alternativa segura para uso comercial. Afinal, o software Adobe é usado por criativos de todo o mundo para criar peças gráficas profissionais. O que não se sabia era que a Adobe havia usado imagens de concorrentes como a Midjourney para alimentar seu modelo teoricamente mais ético.
Adobe Firefly, treinado com Midjourney
A Adobe tem páginas dedicadas em seu site oficial onde compara Firefly com DALL·E, Stable Diffusion e Midjourney. Em cada um deles eles enfatizam a pureza dos dados usados Para treinamento. No entanto, conforme relata a Bloomberg, a empresa usou imagens de ferramentas rivais para treinar seu modelo. Isso ocorre porque o Adobe Stock já permite que os usuários licenciem imagens geradas por IA há algum tempo.
Os termos e condições do Adobe Stock exigem que os colaboradores da plataforma tenham todos os direitos necessários para licenciar imagens. Isso inclui conteúdo gerado por IA. Agora, se explorarmos cuidadosamente a biblioteca do Adobe Stock encontramos imagens geradas com Midjourney e outras ferramentas generativas, ferramentas que, aliás, foram processadas por violação de direitos autorais.
Portanto, temos um dilema. A ferramenta que busca se diferenciar de seus rivais tem sido alimentada com conteúdo generativo de seus rivais. Agora, o panorama é complexo e tem vários aspectos. Por um lado, a Adobe reconhece que “uma pequena parte”do conjunto de dados Firefly inclui material generativo proveniente do Adobe Stock, mas também afirma que as imagens passam por um processo para garantir que não incluam propriedade intelectual.
A Bloomberg acrescenta que a estratégia levada a cabo pela Adobe tem gerado divergências internas entre os seus colaboradores. Alguns até sugeriram que a Adobe pausasse sua plataforma de imagem por um tempo, embora fontes não oficiais consultadas pela mídia indiquem que não há planos nesse sentido. A empresa mudou seu posicionamento em relação ao uso de conteúdo generativo para treinar seus modelos de IA.
Em junho do ano passado, a Adobe anunciou que a versão final do Adobe Firefly não incluiria conteúdo generativo de outras plataformas. Três meses depois, em setembro, a ferramenta saiu da versão beta e um “bom vaga-lume” entre os colaboradores do Adobe Stock. Por fim, segundo Mat Hayward da comunidade Adobe Stock, a empresa decidiu incluir conteúdo generativo na versão comercial do Firefly porque “melhora o modelo de treinamento”.
Dados para treinar IA, um bem escasso
Uma realidade que deve ser levada em conta é que as empresas que competem para liderar o desenvolvimento da IA estão, literalmente, devorando os dados disponíveis na web para treinar os modelos que impulsionam os seus produtos. E, embora possamos considerar a web como algo imenso e difícil de dimensionar, a ascensão da IA está a fazer com que ela não seja tão grande como pensávamos porque grande parte do conteúdo publicado não é adequado para treinar modelos de IA de qualidade.
As gigantes da tecnologia estão sendo obrigadas a buscar alternativas para treinar seus modelos. De acordo com o The New York Times, a OpenAI transcreveu um milhão de horas de YouTube para treinar o prodigioso GPT-4, um modelo que alimenta produtos como ChatGPT Plus e Microsoft Copilot. A mesma empresa também teria utilizado a plataforma de vídeos do Google para treinar, em parte, o modelo Sora, algo que, se for verdade, o YouTube não ficaria feliz.
Imagens | Adobe (1, 2)
Em Xataka | DALL-E trabalha com imagens de criadores que não recebem nada em troca: o que os direitos autorais dizem sobre a IA
Em Xataka | O AI Pin alcançou seus primeiros usuários. E as suas conclusões não são nada esperançosas.