GPUs são boas em inteligência artificial (IA). Extraordinariamente bom. Melhor, na verdade, do que CPUs. A razão é que os algoritmos de IA se beneficiam de uma arquitetura que prioriza o paralelismo massivo, que é exatamente o que as GPUs nos oferecem, mas não as CPUs. Jensen Huang, CEO da NVIDIA, percebeu isso há muito tempo e decidiu desenvolver versões de suas GPUs convencionais que fortalecessem ainda mais os blocos funcionais que têm impacto direto no desempenho da IA.
O tempo provou que ele estava certo: hoje a NVIDIA responde por aproximadamente 80% do mercado de chips de IA. Segundo a consultoria AMR (Pesquisa de mercado aliada) em 2031, o mercado de chips para aplicações de IA terá um volume de negócios superior a 263 mil milhões de dólares. É verdadeiramente escandaloso, especialmente se tivermos em mente que em 2021 o seu negócio ascendeu a pouco mais de 11 mil milhões de dólares. Esta previsão de crescimento é intimidante e a NVIDIA planeia absorver boa parte deste mercado em clara expansão.
As suas previsões de vendas, de facto, são tão elevadas que a empresa liderada por Jensen Huang está a negociar com a Intel a possibilidade de se encarregar de fabricar uma parte das suas GPUs antecipando que a TSMC não as consiga fornecer e está não vou conseguir atender às suas necessidades. De uma coisa podemos ter certeza: muitos mais chips de IA serão necessários no futuro. Porém, há algo que muitas vezes ignoramos e que preocupa os gestores de data centers: a energia dissipada pelas GPUs na forma de calor exige a implementação de sistemas de refrigeração extremamente eficientes.
O calor é o grande problema que os data centers de IA já enfrentam
Os servidores para aplicações de IA normalmente integram mais processadores de uso geral e mais GPUs do que os servidores tradicionais. Não o dizemos, embora o partilhemos; É defendido por Chris Wei, analista da consultoria taiwanesa MIC (Instituto de Inteligência de Mercado e Consultoria). Sua arquitetura faz com que esses servidores consumam mais energia que os convencionais, e essa característica impacta diretamente em dois componentes essenciais: a fonte de alimentação e o sistema de refrigeração.
Uma GPU NVIDIA A100 tem um TDP de até 400 watts e uma GPU H100 tem perto de 700 watts
Segundo Wei, “o consumo de energia de um servidor de inteligência artificial excede as capacidades dos sistemas de refrigeração a ar projetados para estabilizar máquinas com consumo de 300 watts, o que requer o desenvolvimento de tecnologias de refrigeração mais sofisticadas e eficientes, como resfriamento líquido“. Faz sentido. Especialmente se tivermos em mente que uma GPU NVIDIA A100 tem um TDP de até 400 watts; uma GPU H100 está perto de 700 watts e, se esses números já não fossem estonteantes o suficiente, a GPU da próxima geração B100 atingirá 1.000 watts.
Por outro lado, segundo Chris Wei, a penetração de servidores para aplicações de inteligência artificial em relação ao número total destas máquinas aumentará dos 12,4% atuais para 20,9% em 2027. Dadas as circunstâncias, é evidente que os fabricantes de servidores vão a ter que colocar toda a carne na grelha para resolver os desafios do correto resfriamento dessas máquinas.
Alguns deles, como HP ou Dell, já estão recorrendo a sistemas avançados de refrigeração líquida que, no papel, são capazes de lidar com o calor dissipado pelas GPUs de IA da próxima geração. Quem sabe existe a possibilidade de os usuários de PC conseguirem, a médio prazo beneficiar do esforço de inovação o que os fabricantes de servidores estão fazendo quando se trata de resfriamento. Oxalá seja assim.
Imagem da capa | Manuel Geissinger
Mais informações | Nikkei Ásia
Em Xataka | A NVIDIA varreu e a Samsung sucumbiu: 2023 passou por cima de boa parte dos designers de chips