Em meados de 2021, a OpenAI dissolveu sua equipe de robótica. A empresa liderada por Sam Altman decidiu concentrar seus esforços em Outros projetos relacionados ao sonho de alcançar a inteligência artificial geral (AGI). Essa mudança, no entanto, não significou que a OpenAI perdeu o interesse nesta disciplina.
Enquanto o mundo via aparecer os robôs humanóides Optimus da Tesla e Digit da Agility Robotics, uma startup chamada Figure AI recebeu milhões de dólares em investimentos de empresas gigantes como Microsoft e NVIDIA, e concluiu um acordo de colaboração com a OpenAI. O tempo passou e aqui está o seu primeiro fruto.
Figura 01, o robô surpreendente da Figura AI
Há exatamente um ano, a Figure AI tornou pública a sua existência e apresentou-se ao mundo como uma empresa emergente com o ambicioso objetivo de desenvolver um robô humanóide propósito geral. Ele fez isso com um vídeo com imagens geradas por computador. Naquela época não existia robô, apenas uma grande promessa.
O projeto avançou até ser anunciado em outubro do ano passado a Figura 01. Era um protótipo de um brilhante robô humanóide. Essa máquina já conseguia andar de forma dinâmica, característica não desprezível no mundo da robótica. A Figura 01 agora é capaz de outras tarefas, incluindo conversar com humanos.
Brett Adcock, o fundador da empresa, Esta segunda-feira ele compartilhou um vídeo muito interessante sobre o robô. “Ei, Figura Um, o que você vê agora?” alguém pergunta ao robô. E ele responde: “Eu vejo uma maçã vermelha no prato no centro da mesa, escorredores de louça com xícaras e um prato, e você por perto com a mão sobre a mesa.”
“Ótimo, posso comer alguma coisa?”, pergunta a pessoa. “Claro”, responde o robô enquanto pega a maçã e a deixa cair na mão do humano. O robô consegue entender que a maçã é o único alvo comestível à sua frente. A Figura 01 também pode realizar diversas tarefas de forma autônoma. Não é controlado remotamente.
Um detalhe muito importante da sequência é que, segundo a Figura AI, ela mostra o desempenho do robô humanóide a uma velocidade de 1,0X. Quer dizer, sem truques de edição para dar a impressão de maior velocidade. Da mesma forma, exibe o resultado de “redes neurais ponta a ponta”. Aqui, justamente, destaca-se a contribuição da OpenAI.
Não há muitos detalhes técnicos sobre o projeto. Sabemos, porém, que as câmeras funcionam graças a um modelo de linguagem de visão (VLM) treinado pela OpenAI. Não temos certeza se este é um produto novo e independente da empresa liderada por Sam Altman ou uma variante do GPT-4 com visão. Provavelmente teremos mais dados no futuro.
Imagens | Figura AI
Em Xataka | “O que é permitido na China nunca poderá ser permitido na Europa”: falam os eurodeputados espanhóis da Comissão Especial da AI