Há pouco mais de dois meses assistimos ao lançamento do Gemini, o modelo de inteligência artificial.O maior e mais capaz do Google”. Essa mudança ocorreu em meio à competição acirrada entre o gigante das buscas e a empresa de IA apoiada pela Microsoft, OpenAI, que alimenta o famoso ChatGPT.
Agora, o próprio Sundar Pichai foi anunciado a próxima geração de seu modelo de linguagem. Estamos a falar do Gemini 1.5, uma proposta que promete dar um salto significativo nas suas capacidades com o objetivo claro de alcançar o modelo mais famoso da atualidade, o GPT-4. Vamos ver o que há de novo.
O Google está animado com a corrida para liderar a IA
Não é segredo que o Google não está tendo facilidades na corrida para liderar o mundo da inteligência artificial. Embora a empresa Mountain View tenha alguns dos laboratórios de pesquisa deste setor tão conceituado, as suas tentativas de posicionamento não parecem estar a dar os resultados esperados.
O Gemini 1.5, aparentemente, busca levar o melhor do Google neste campo tão competitivo para usuários, desenvolvedores e empresas. O modelo está chegando inicialmente a esses dois últimos grupos, com lançamento previsto para o público geral em breve. Isso significa que em breve poderemos usá-lo.
Em postagem no blog, a empresa apresenta o Gemini 1.5 como uma solução que é uma assistente pessoal e uma ferramenta de negócios. Esta definição é interessante sem levar em conta que, como diz o nosso colega Ricardo Aguilar, o Gemini 1.0 não foi o melhor substituto para o Google Assistant no Android.
Quando falamos de Gêmeos, em qualquer uma de suas versões, encontramos três edições diferentes. Nano, que foi projetado para ser executado localmente em um dispositivo; Pro, que é a versão gratuita disponível para todos os usuários, e Ultra, que se apresenta como Gemini Advance e pode ser acessado mediante pagamento.
Bem, uma das melhorias mais notáveis do Gemini 1.5 é que sua edição Pro está no mesmo nível edición Ultra de Gemini 1.0 (o mais avançado até minutos atrás). Ou seja, os usuários terão à nossa disposição um modelo avançado cuja barreira de entrada era a assinatura do Google One AI Premium de US$ 19,99 por mês.
O Gemini 1.5, assim como a versão anterior, é multimodal. Isso significa que possui capacidades que vão além do simplesmente textual. Você pode, por exemplo, entender imagens. Agora, este modelo vem com uma arquitetura aprimorada chamada Mixture-of-Experts (MoE), como a que vimos anteriormente no modelo Mixtral da Mistral AI.
A principal vantagem dos MoEs é que eles adotam uma abordagem muito mais eficiente para grandes modelos de linguagem. Com a abordagem anterior, quando havia uma questão, em termos gerais, todo o modelo Ele começou a trabalhar para nos dar uma resposta. Agora, o Gemini 1.5 conta com “especialistas” que são ativados dependendo do tipo de consulta que fazemos.
Assim, se estivermos fazendo consultas relacionadas a temas literários, apenas os especialistas literários da modelo serão acionados. Outros especialistas, como os especializados em programação, reconhecimento de imagens e outras tarefas, não estarão ativos. Isto representa uma poupança significativa ao nível da inferência e promete ser muito mais rápido para os utilizadores.
Outra melhoria notável que vem com o Gemini 1.5 é a sua janela de contexto. O novo modelo do Google chega com uma janela de contexto padrão de 128.000 fichasembora “um grupo limitado de desenvolvedores e clientes corporativos” tenha acesso a uma janela de contexto de 1 milhão de tokens por meio das ferramentas AI Studio e Vertex AI.
Se compararmos isto com a proposta OpenAI identificamos uma melhoria notável. A versão padrão do GPT-4 oferece uma janela de contexto de 8.000 tokens, embora exista também uma versão especial de 32.000 tokens e o chamado GPT-4 Turbo de 128.000 tokens. Estes últimos também estão limitados a desenvolvedores ou clientes empresariais pagantes.
Os tokens são a nossa forma de medir a quantidade de informação que o modelo de inteligência artificial pode receber de uma só vez, algo como ler várias páginas de um livro instantaneamente. Quanto maior o número de tokens, maior será a quantidade de dados que podemos fornecer. 1 milhão de tokens, segundo o Google, equivale a 1 hora de vídeo, 11 horas de áudio ou 700 mil palavras de texto.
Imagens: Nguyen Hung Vu | Google
Em Xataka: A polêmica sobre Estopa e sua capa aponta para um debate mais amplo: quanta IA vamos permitir nas ilustrações