Havia muita expectativa com o lançamento do Google Gemini, e depois do anúncio de ontem finalmente sabemos o que temos em mãos: não um, mas três modelos multimodais de IA que irão competir com o ChatGPT.
O primeiro deles, Gemini Pro, já está disponível através do Google Bard, e embora o mais ambicioso seja o Gemini Ultra, há um interesse especial pelos mais pequenos da família, Gêmeos Nano. A razão é importante: abre as portas para uma nova era em que teremos isso”IA de bolso“, ou ‘no dispositivo’, que graças aos nossos telemóveis estará sempre disponível e também será independente da nuvem.
Bem-vindo à era da IA “no dispositivo”
Com o Gemini Nano, o Google queria oferecer um modelo muito mais eficiente, voltado especificamente para poder trabalhar diretamente localmente, em nossos dispositivos, e sem a necessidade de conexão à nuvem. Essa é a principal e grande diferença com modelos como ChatGPT ou Bard, que certamente podemos utilizar desde nosso celular – através de um navegador – mas que funcionam desde a nuvem em grandes servidores responsáveis por processar e gerar as respostas.
Com Gemini Nano todo esse processamento e geração de texto ocorre diretamente em nossos dispositivos, e isso traz benefícios importantes. Entre eles, que os dados que usamos não saem do dispositivo e não são compartilhados com terceiros, pelo menos até onde sabemos. Estamos, portanto, perante modelos de IA de bolso que podem ser executados diretamente nos nossos smartphones mesmo sem estarmos ligados a redes de dados.
Como explicam os responsáveis pela Google no blog dos programadores Android, isto permite-nos criar “resumos de texto de alta qualidade, respostas contextuais inteligentes – como o exemplo do WhatsApp na imagem logo acima destes parágrafos – e correção gramatical com Gemini Nano. . Desenvolvedores interessados em criar aplicativos que aproveitem o poder do Gemini Nano podem se cadastrar na plataforma do Google.
A estreia do Gemini Nano e a era da IA de bolso ocorreu no Pixel 8 Pro, carro-chefe da empresa. Este smartphone terá opções generativas de IA, como a capacidade de resumir uma conversa telefônica pré-gravada em pontos.
Um modelo mais eficiente com Android AICore como componente principal
Estamos perante o modelo mais eficiente dos três que o Google apresentou, algo óbvio se tivermos em conta que o seu destino é poder funcionar não em servidores, mas sim nos nossos telemóveis. Como explicam os próprios responsáveis do Google no relatório do produto, existem duas versões diferentes do Nano. O primeiro é o Nano-1, com 1,8 bilhão de parâmetros (1,8B). O segundo é o Nano-2, com 3,25 bilhões de parâmetros (3,25B).
Além disso, o modelo é quantizado em 4 bits para exibição. Essa quantização refere-se a um processo de redução da precisão dos pesos e ativações do modelo de valores de ponto flutuante de 32 bits para números inteiros de 4 bits.
Este processo de quantização reduz significativamente o consumo de memória do modelo, tornando-o mais adequado para implantação em dispositivos com recursos limitados, como smartphones ou dispositivos IoT. Mesmo assim, dizem no Google, esse modelo quantizado atinge desempenho comparável ou até superior ao modelo original de 32 bits no qual se baseia.
No centro desta implantação está o Android AICore, um novo serviço de sistema que nos permite usar modelos básicos como o Gemini Nano diretamente em nossos telefones Android.
Este novo componente do Android 14 também é “privado por design” e, entre outras coisas, permite processos de ajuste fino por meio da chamada Low Rank Adaptation (LoRA), uma técnica que adapta grandes modelos de linguagem (LLMs), como o próprio Google PaLM 2 para se adequar a tarefas específicas e tudo isso em dispositivos “limitados” como nossos smartphones.
Isto é apenas o começo
O lançamento do Google Nano é promissor, mas é verdade que hoje as suas funcionalidades e aplicações práticas são limitadas. A realidade é que apenas uma pequena parcela dos usuários – aqueles que possuem um Pixel 8 Pro – poderá começar a usá-lo e Eles só poderão fazer isso em alguns cenários muito específicos. Resumir conversas ou responder mensagens automaticamente é interessante, mas certamente queremos muito mais dessas IAs de bolso.
Na verdade, esta implantação não significa neste momento que teremos um “pocket ChatGPT” ou um “pocket Google Bard”: as características do modelo não se destinam neste momento a substituir o motor de busca Google – podem nunca será. , isso seria atirar pedras no próprio telhado – mas sim fornecer maneiras de fazer melhor uso do nosso dispositivo e economizar tempo.
Modelos de IA generativa na nuvem, como ChatGPT ou Bard, portanto, não parecem estar ameaçados por esta nova era de IA de bolso: estamos antes lidando com companheiros de viagem que atuarão como “co-pilotos” —como a Microsoft gosta de dizer— dessa experiência, mas diretamente do celular, como se fossem aplicativos independentes e separados.
A partir daqui, sim, as possibilidades parecem enormes e estamos apenas no início do caminho. Uma revolução que pode acabar sendo uma pequena revolução por si só.
Em Xataka | Meta, IBM e outros formam a AI Alliance. Seu objetivo: defender o desenvolvimento de modelos de IA de código aberto