OpenAI dominou o segmento de modelos de IA geradores de texto com mão de ferro. Desde o lançamento do ChatGPT, a capacidade do seu chatbot sempre esteve acima dos seus concorrentes, o que Eles usaram isso como uma medida: Cada vez que um novo chatbot era lançado, ele prometia ser melhor que o ChatGPT de acordo com determinados benchmarks.
A verdade é que embora em testes sintéticos isso pudesse ser verdade, a experiência do usuário dizia o contrário. A primeira versão do ChatGPT, baseada no GPT-3.5, já mostrou seus poderes desde o início, mas foi o lançamento do GPT-4 (usado no ChatGPT Plus e também base do Copilot, antigo Bing Chat) que colocou claramente o LLM do OpenAI acima do resto. Os outros ficaram para trás e, embora tenham melhorado, não conseguiram “transmitir” um comportamento melhor quando os utilizamos.
Isso só mudou de acordo com o Chatbot Arena, um ranking cada vez mais prestigioso criado pela organização Large Model Systems (LMSYS ORG) em colaboração com diversas instituições acadêmicas. Sua qualificação e classificação de grandes modelos de linguagem tornou-se uma referência, e isso ocorre porque é especialmente diferente de outras ferramentas deste tipo.
O que é feito no Chatbot Arena é permitir que os usuários votem no modelo que melhor responde às suas dúvidas. Qualquer pessoa pode participar e graças a isto este ranking permite-nos ter em conta não só os parâmetros técnicos de modelos como o GPT-4, mas também a experiência de utilização que oferece. Então, o que os usuários pensam de cada chatbot acaba sendo tão importante como dizem os testes sintéticos. O mais.
E como comentam nossos colegas Genbeta, os votos de 400.000 usuários deixaram claro que hoje o GPT-4 foi superado. Foi de Claude 3 Opus, o modelo que a empresa Anthropic apresentou há algumas semanas e que é (quase) o vencedor em aquela pontuação ELO específica —um conceito adaptado do mundo do xadrez—que no Chatbot Arena atribuem a cada modelo.
É verdade que a diferença com o GPT-4 é muito pequena, mas ainda assim representa um ponto de viragem único que mostra que existe uma concorrência saudável no mundo dos chatbots. O Gemini Pro está em quarto lugar, enquanto o Mistral, chatbot da startup francesa, ocupa o oitavo lugar. É verdade que as variantes GPT-4 estão no topo do ranking, mas mesmo assim, o avanço da Antrópico aqui é uma excelente notícia para a competitividade neste mercado.
Outros estudos recentes parecem confirmar a ascensão de Claude 3. Isto é feito, por exemplo, pelo chamado Berkeley Function-Calling Leaderboard (BFCL), um novo conjunto de testes que não avalia o comportamento de perguntas e respostas de chatbots, mas sim a sua capacidade de se tornarem a base de futuros e cada vez mais populares agentes de IA.
Neste benchmark, Claude 3 Opus foi superior ao GPT-4, que mais uma vez dominou o ranking, embora também tenha caído nessa classificação Mistral específica. Parece, portanto, que capacidade de “conectar-se” com outros serviços por meio de funções em linguagens como Java, JavaScript, Python, consultas SQL ou chamadas a APIs REST é especialmente notável no modelo Antrópico, que certamente tem um futuro promissor.
Essas classificações, sim, eles não vão parar de mudar no curto e médio prazo: a evolução destes LLMs continua a ser frenética e de facto os sinais apontam para que o GPT-5 esteja ao virar da esquina. Enquanto isso, modelos que aproveitam licenças de código aberto, como Llama 2 ou Grok – que acaba de estrear nessa seção – também podem começar a obter enormes ganhos em todas essas seções.
Em Xataka | OpenAI acusa Musk de querer fundi-lo com Tesla e querer controle total: a batalha legal apenas começou