O anúncio do Google Gemini, com três modelos multimodais, é o típico cenário em que os nossos olhos se voltam para o modelo mais ambicioso, o Gemini Ultra, e não prestamos tanta atenção ao mais pequeno.
Neste caso, Faz todo o sentido começar a olhar para o modelo menor, porque embora não seja tão promissor quanto o grande, possivelmente será o que mais nos afetará amanhã. Estamos falando do Gemini Nano.
Privado, imediato e sem depender da nossa conectividade
Gemini Nano é um modelo criado priorizando a eficiência. Não será o produto final: se Bard é como ChatGPT, Gemini é como GPT, o Processo interno. A diferença será que Gemini Nano foi projetado para ser usado localmente, no próprio dispositivo, sem a necessidade de conexão aos servidores do Google para obter respostas às nossas dúvidas.
Isso não significa apenas que não precisaremos de cobertura para utilizá-lo – um problema menor hoje – mas que a latência será muito menor e as respostas que obteremos serão muito mais imediatas e dependerão apenas da potência do nosso dispositivo. processador, não a velocidade da nossa conexão.
É algo semelhante, mantendo distância, ao que a Siri propôs em 2021, quando o iOS 15 liberou a capacidade de operar localmente para tudo que não exigisse consulta online. Somente com um LLM como o Gemini, mesmo que seja um Nano, prevemos usos muito além de definir um cronômetro, fazer uma ligação ou pedir para tocar música do Queen.
Tenha respostas muito mais imediatas às solicitações mais essenciais para um LLM, como pedir para resumir um e-mail, para gerar uma resposta em tom formal aceitando o convite ou para criar o roteiro para gravar um TikTok explicando a ascensão dos nougats com perturbadores sabores; parece muito bom.
E não só pela velocidade, mas também pela eficiência. Alguém disse que usar o ChatGPT para resumir um e-mail era como dirigir um Lamborghini para comprar pão. Um uso excessivo de recursos para uma tarefa trivial. Se assumirmos que isso é verdade, e sabemos que as consultas ao ChatGPT e suas respostas geradas não são gratuitas, ter um LLM local mesmo em um smartphone significa muitas consultas salvas em servidores de outras pessoas.
Isso também abre a porta para a integração do Gemini Nano em qualquer lugar do nosso smartphone. Para responder contextualmente a uma mensagem do WhatsApp, para resumir conversas (por serem multimodais, podem ser de voz ou texto) ou mesmo para analisar imagens e entender o que há nelas.
A Apple anunciará, caso o roteiro seja cumprido, seus próximos sistemas operacionais em junho de 2024, em sua conferência anual de desenvolvedores. Isso é quando É suposto apresentar os novos recursos que há rumores sobre o Siri por muito tempo. Capacidades em torno da IA generativa para evitar que a Microsoft, o Google e a OpenAI atrapalhem demais o que se espera que seja a grande corrida desta década.
O Gemini Nano, por enquanto, estará disponível apenas para o Pixel 8 Pro, aparentemente porque apenas o seu Tensor G3 está atualmente preparado para suportá-lo. Mas a ideia é que isso acabe sendo algo integrado ao Android. Não só a cabala diz isso, mas também a declaração de intenções que é o AICore, um serviço de sistema que visa incorporar as funções do Gemini Nano diretamente no terminal. Mediatek, Qualcomm e Samsung já foram anunciadas como fabricantes de chips compatíveis.
O que a Siri fará? Por enquanto, seguir o caminho que o Google acaba de traçar com o Gemini Nano parece uma opção particularmente conveniente: mais privada, menos dependente da nossa conexão e mais imediata. O macOS 15 também aguarda uma inclusão para tornar o Siri muito mais útil, o que, se já está em questão no iPhone, é diretamente residual no Mac.
Na verdade, eleou idealmente seria que o SiriKit, o estrutura que permite integrar o Siri em aplicativos de terceiros, incorpore também seu LLM para que as aplicações possam acessar esses tipos de tarefas integradas, localmente e sem passar por servidores de terceiros.
Faltam seis meses para descobrir.
Em Xataka | Google Gemini: o que é, como funciona, diferenças com o GPT e quando você pode usar esse modelo de inteligência artificial.
Imagem em destaque | Alfabeto.