A maioria de nós reconhece a NVIDIA por suas placas gráficas para jogos, como as ambiciosas GeForce RTX 4090 e GeForce RTX 4080. A empresa americana, no entanto, tem uma linha de produtos focada em computação de alto desempenho que cresceu significativamente com o surgimento da inteligência artificial (IA).
Atualmente, os liderados por Jen-Hsun Huang, CEO da Leather Jacket, são os líderes neste mercado. Se uma empresa precisar treinar modelos de IA, é muito provável que opte por hardware NVIDIA. Agora, aparentemente visando manter esta posição de liderança, a fabricante acaba de anunciar uma nova GPU para IA: a NVIDIA H200.
Uma GPU bestial para treinar os modelos de IA do futuro
Cada vez que usamos ChatGPT Plus ou Bing Chat, por exemplo, estamos nos beneficiando dos recursos do GPT-4, um modelo treinado em data centers Microsoft Azure equipados com potentes gráficas NVIDIA A100 e NVIDIA H100. O anúncio desta segunda traz a evolução deste último.
Estamos diante de uma GPU de arquitetura Hopper com 141 GB de VRAM HBM3E (a primeira a atingir tal capacidade) com largura de banda até 4,8 TB/s. O que a NVIDIA fez foi dar um salto notável em relação à geração anterior. O H100 possui 80 GB de VRAM HBM3E com largura de banda de 3,35 TB/s.
No nível de desempenho, o NVIDIA H200 sob a interface SXM promete atingir 3.958 teraFLOPS no FP8 (ponto flutuante de 8 bits para Transformer Engine). Em que isso se traduz? Pelo menos no papel, as tarefas de inferência em modelos de linguagem longa (LLM) tão usados hoje dobram o desempenho em comparação com o H100.
Especificamente, os testes com a nova GPU para IA indicam que as tarefas de inferência no Llama 2 70B podem ser realizadas até 1,9 vezes mais rápido. O mesmo no GPT-3 175B é 1,6 vezes mais rápido. A inferência é o momento em que o modelo compara a consulta do usuário com o seu treinamento.
As melhorias no nível da largura de banda, explicam, resultarão na redução de gargalos em cenários de processamento complexos. Da mesma forma, abrirá a porta para melhorar o desempenho da placa gráfica em uma ampla variedade de tarefas exigentes que vão além da IA, como simulações.
Lembremos que a NVIDIA oferecerá sua solução de hardware H100 de várias maneiras. Por um lado temos a CPU individualmente, como vimos no artigo, mas também teremos o sistema HGX H200. Isso é mais do que apenas a GPU. É uma solução que integra diversas tecnologias.
O NVIDIA HGX H200 combina o poder da GPU em questão com interconexões NVLink e NVIDIA InfiniBand de alta velocidade para aplicação em data centers. O NVIDIA HGX H200 chegará em configurações de quatro e oito vias e será compatível com o hardware HGX H100 existente.
Por exemplo, um HGX H200 de oito vias promete entregar mais de 32 petaFLOPS no FP8 e até 1,1 TB de memória de alta largura de banda. Estamos diante de um enorme poder de computação que, combinados com outros sistemas HGX, formam supercomputadores capazes de lidar com os maiores modelos de IA.
Divisões de empresas como Amazon Web Services, Google Cloud, Microsoft Azure e Oracle Cloud Infrastructure já reservaram o seu HGX H200 para alimentar a sua infraestrutura e treinar os modelos do futuro. Eles terão que esperar para começar a usá-los. A NVIDIA começará a enviar seu novo produto no próximo ano.
Imagens: NVIDIA
Em Xataka: A China confia tanto em robôs humanóides que vai começar a produzi-los em massa