A introdução há alguns dias do Gemini 1.5 andou na ponta dos pés em torno da tecnologia atual, mas este modelo de IA do Google pode ser muito mais interessante do que se poderia pensar a priori. Acima de tudo, pela sua capacidade de análise de vídeo, uma das características que demonstra que os chatbots multimodais – que aceitam vídeo, texto ou imagens como entrada – são uma evolução promissora dos ChatGPTs do mundo.
Gêmeos, veja como eu me exercito. Mckay Wrigley, desenvolvedor de soluções de IA, explicado no Twitter como ele gravou um vídeo de cerca de 21 minutos levantando pesos e depois enviou esse vídeo para Gemini para análise. O resultado foi surpreendente.
Meu personal trainer é uma IA. Este desenvolvedor pediu ao Gemini 1.5 que criasse um arquivo JSON com o nome de cada exercício, o número de séries, as repetições por exercício, o peso e, principalmente, que gerasse uma série de recomendações baseadas no vídeo. Depois de setenta segundos, ele fez isso perfeitamente. Na sua opinião, a ideia funcionou excepcionalmente bem e foi uma validação de que um sistema como este poderia servir como um personal trainer baseado em IA.
E poderia ser combinado com outros dados. Na verdade, segundo Wrigley, a esta informação poderiam ser acrescentadas outras informações, como alguns dados médicos, registos da nossa dieta, fotos de progresso, fazendo com que este chatbot se adaptasse perfeitamente a esta área para criar um personal trainer e nutricionista ainda mais interessante.
Um bom caso de uso para a GPT Store. Esse tipo de aplicativo dá uma ideia de onde as coisas podem ir na OpenAI GPT Store. Com ChatGPT Plus você tem acesso à criação de chatbots personalizados, podendo claro analisar nosso treinamento físico e depois nos aconselhar tanto na hora de aperfeiçoar esses exercícios quanto de variá-los e melhorar essas rotinas.
Promessa de chatbots multimodais. A introdução do Gemini 1.5 demonstrou que este tipo de opção multimodal pode ser muito relevante. O modelo também pode receber como entrada cerca de 700 mil palavras por vez (cerca de 30 mil linhas de código), além de até 11 horas de áudio e uma hora de vídeo para análise posterior. A partir daí as opções são muito amplas tanto na hora de analisar essas entradas quanto de trabalhar com elas.
Analise e resuma esse vídeo para mim. Essa capacidade é facilmente demonstrada no Gemini 1.5, pedindo-lhe para analisar qualquer vídeo do YouTube e resumi-lo em alguns pontos-chave. Tentamos com um vídeo do nosso canal Xataka, mas o espanhol não é compatível no momento, então tentamos um dos vídeos MKBHD mais recentes. Em apenas 10 segundos ele fez um resumo notável do conteúdo.
Imagem | João Arano
Em Xataka | Pedimos a dois nutricionistas que avaliassem cegamente um cardápio semanal criado com GPT-4. Saiu muito bem