Em 9 de novembro, Jonathon Ross escreveu um post no blog de sua empresa. Ele intitulou “Bem-vindo à galáxia de Groq, Elon“. Musk tinha acabado de apresentar seu chatbot, Grok.
Acontece que esse nome já era usado há muito tempo – embora com um “q” no final em vez de um “k” – por esta empresa desconhecida que agora se tornou o novo fenômeno no mundo da IA.
Groq não faz LLMs. Não possui modelo que concorra com GPT-4, PaLM 2 ou Llama 2. Nem possui chatbot próprio que concorra com ChatGPT, Gemini ou Copilot. Não. Ele faz algo muito diferente, mas tão importante quanto isso… ou talvez mais.
Groq fabrica chips de inteligência artificial. Eles os chamam de Unidades de Processamento de Linguagem (LPUs), e com eles conseguem algo espetacular: permitem que a geração de texto desses chatbots seja muito mais rápida do que a obtida com qualquer outro chip, incluindo as poderosas GPUs VIDIA.
Ross demonstrou as capacidades de seus chips há alguns dias em entrevista à CNN. Nele ele explicou como Groq torna as conversas – de texto ou faladas – com o chatbot muito mais naturais e muito mais atrativas para quem interage com as máquinas.
Velocidade vertiginosa = conversas naturais
A chave é a velocidade. Os humanos geralmente não são muito pacientes e os chatbots demoram a responder-nos porque, para isso, precisam de ter acesso a um enorme poder computacional. Até agora, as GPUs NVIDIA eram a melhor opção para obter conversas mais ou menos fluidas, mas Groq deixa essas GPUs no auge do betume.
Verificamos isso fazendo um pequeno teste que qualquer pessoa pode replicar: basta abrir duas janelas, uma com ChatGPT ou qualquer outro chatbot em uma parte da tela e a demonstração do Groq na outra parte. A velocidade de resposta do chatbot Mistral (mas pode ser aplicado a qualquer outro) graças ao Groq é simplesmente espetacular.
Existem estudos independentes, como a Análise Artificial, que deixam clara a diferença: não só a velocidade é maior, mas também Groq é mais barato.
Assim, Groq ofereceu uma taxa de 246,79 tokens por segundo com o LLM Llama 2 a um custo de US$ 0,72 por milhão de tokens. Usar o mesmo LLM na infraestrutura do Microsoft Azure gerou 18 tokens por segundo e um custo de US$ 1,6.
Outras análises confirmam esses benefícios. No ranking LLMPerf monitorado pela empresa Anyscale, a Groq é 18 vezes mais rápida na inferência do LLM que os principais provedores dessa função na nuvem.
Como o Groq consegue ser tão rápido?
Estamos portanto perante uma revolução promissora não na precisão ou qualidade das respostas destes modelos e dos seus chatbots, mas na velocidade com que nos respondem. De repente conversar pode parecer muito mais naturale isso levanta implicações importantes no uso prático desta tecnologia.
Como os chips Groq conseguem algo assim? Ross explicou isso naquela entrevista à CNN com uma analogia simples.
“La mayoría de los chips de IA no tienen demasiada memoria disponible. Es como cuando fabricas coches: necesitas grandes fábricas y un millón de pies cuadrados en líneas de ensamblaje. Si no tienes ese tipo de edificio, necesitas dividir las líneas de ensamblaje una y otra vez para que ocupen menos. Eso es lento y lleva mucho tiempo, y eso es lo que pasa con la GPU: tienes que leer de la memoria miles de veces por cada palabra que se genera, como si tuvieras que configurar la línea de ensamblaje uma e otra vez [para sacar la pieza necesaria del coche]”.
Embora os responsáveis pela Groq logicamente não queiram dar muitos detalhes sobre como funcionam seus chips, eles explicam no site oficial da empresa que “o LPU foi projetado para superar os dois gargalos do LLM: Densidade de computação e largura de banda de memóriaA empresa, porém, se vincula a estudos premiados de 2020 nos quais já falava sobre processadores especializados para acelerar tarefas de aprendizagem profunda.
Ross explicou que esses chips não estão disponíveis para usuários finais, então não espere poder comprar algum tipo de placa PCIe para adicionar ao seu PC. Pelo menos não no momento: a empresa trabalha com empresas que podem se beneficiar desse poder computacional em seus data centers e depois oferecer essa velocidade de geração de texto em seus serviços em nuvem.
É de se esperar que aos poucos veremos esse tipo de solução implementada em chatbots de acesso público – e com certeza, pagos -, mas o interessante é que isso abre a porta para que esse tipo de melhoria realmente faça com que a NVIDIA (ou AMD ) GPUs, que está avançando nesse campo) possuem pelo menos uma alternativa totalmente especializada nesse campo. E se alguém apareceu, É lógico pensar que acabarão aparecendo mais e talvez o façam com propostas dirigidas aos consumidores.
Em Xataka | Sr. Musk, não precisamos de um chatbot sarcástico. Precisamos de alguém em quem possamos confiar 100%