A inteligência artificial (IA) chegou e veio para ficar. “Todas as indústrias tornar-se-ão uma indústria de tecnologia,” de acordo com o fundador e CEO da NVIDIA, Jensen Huang. Os casos de utilização da IA são virtualmente ilimitados, desde avanços na medicina a prevenção de fraude de alta precisão. A IA já está a transformar as nossas vidas, tal como está a transformar cada setor. Também está a começar a transformar fundamentalmente a infraestrutura do centro de dados.
As cargas de trabalho de IA estão a impulsionar alterações significativas na forma como alimentamos e refrigeramos os dados processados como parte da computação de alto desempenho (HPC). Um bastidor de TI típico utilizado para executar cargas de trabalho de 5-10 quilowatts (kW) e bastidores a executar cargas superiores a 20 kW foram considerados de alta densidade – uma visão rara fora de aplicações muito específicas com alcance estreito. As TI estão a ser aceleradas com GPU para suportar as necessidades de computação dos modelos de IA, e estes chips de IA podem exigir cerca de cinco vezes mais potência e cinco vezes mais capacidade de arrefecimento1 no mesmo espaço que um servidor tradicional. Mark Zuckerberg anunciou que, no final de 2024, a Meta irá gastar mil milhões para implementar 350 000 GPU H100 da NVIDIA. As densidades de bastidor de 40 kW por bastidor estão agora na extremidade inferior do que é necessário para facilitar implementações de IA, com densidades de bastidor superiores a 100 kW por bastidor a tornarem-se comuns e em grande escala num futuro próximo.
Isto exigirá aumentos extensos de capacidade em todo o grupo eléctrico, desde a rede até às aparas em cada rack. A introdução de tecnologias de arrefecimento líquido no espaço em branco do centro de dados e, eventualmente, nas salas de servidores empresariais, será um requisito para a maioria das implementações, uma vez que os métodos de arrefecimento tradicionais não serão capazes de lidar com o calor gerado pelas GPU que executam cálculos de IA. Os investimentos para atualizar a infraestrutura necessária para alimentar e arrefecer o hardware de IA são substanciais e navegar nestes novos desafios de design é fundamental.
A transição para a alta densidade
A transição para a computação acelerada não acontecerá durante a noite. Os designers de centros de dados e salas de servidores devem procurar formas de preparar a infraestrutura de energia e arrefecimento para o futuro, tendo em conta o crescimento futuro das suas cargas de trabalho. Obter energia suficiente para cada bastidor requer atualizações da rede para o bastidor. No espaço branco especificamente, isto significa provavelmente um busway de alta amperagem e PDU de rack de alta densidade. Para rejeitar a enorme quantidade de calor gerada pelo hardware que executa cargas de trabalho de IA, estão a surgir duas tecnologias de arrefecimento líquido como principais opções:
- Refrigeração líquida directa ao chip: As placas frias ficam no topo dos componentes geradores de calor (normalmente chips como CPUs e GPUs) para retirar calor. O fluido monofásico ou bifásico bombeado extrai calor da placa fria para enviá-lo para fora do centro de dados, trocando calor mas não fluidos com o chip. Isto pode remover cerca de 70-75% do calor gerado pelo equipamento no bastidor, deixando 25-30% que os sistemas de arrefecimento a ar devem remover.
- Permutadores de calor da porta traseira: Os permutadores de calor passivos ou ativos substituem a porta traseira do rack de TI por bobinas de troca de calor através das quais o fluido absorve o calor produzido no rack. Estes sistemas são muitas vezes combinados com outros sistemas de arrefecimento como estratégia para manter a neutralidade da divisão ou um design de transição que inicia a viagem para o arrefecimento líquido.
Embora a refrigeração líquida directa ao chip ofereça uma capacidade de refrigeração de densidade significativamente superior à do ar, é importante notar que ainda existe excesso de calor que as placas frias não conseguem captar. Este calor será rejeitado na sala de dados, a menos que seja contido e removido através de outros meios, tais como permutadores de calor da porta traseira ou arrefecimento de ar ambiente. Para mais detalhes sobre soluções de arrefecimento líquido para centros de dados, consulte o nosso white paper .
Kits de iniciação AI para remodelação e novas construções
A energia e o arrefecimento estão a tornar-se partes integrais do design da solução de TI na sala de dados, turvando as fronteiras entre as equipas de TI e das instalações. Isto acrescenta um elevado grau de complexidade no que diz respeito à conceção, implementação e operação. As parcerias e a experiência em soluções completas são os principais requisitos para transições suaves para densidades mais elevadas.
Para simplificar a mudança para densidade elevada, a Vertiv introduziu uma gama de designs otimizados, incluindo tecnologia de energia e arrefecimento capaz de suportar cargas de trabalho até 100 kW por bastidor num conjunto diversificado de configurações de implementação.
Resumo do design | Suportes | Densidade/suporte | Campo verde/castanho | Remoção de calor | |
---|---|---|---|---|---|
do servidor | da sala | ||||
Modelo-piloto de formação, inferência de margem à escala |
|||||
Reequipamento mínimo de HPC pequeno | 1 | 70 kW | Campo castanho | água/glicol | ar |
Reequipamento HPC pequeno para sistema de água refrigerada | 1 | 100 kW | Campo castanho | água/glicol | água/glicol |
Formação centralizada para empresas, canto de IA no centro de dados |
|||||
Reequipamento otimizado para custos de HPC de tamanho médio | 3 | 100 kW | Campo castanho | água/glicol | líquido de refrigeração |
HPC de tamanho médio com maior captura de calor | 4 | 100 kW | Campo castanho Campo verde |
água/glicol+ar | água/glicol |
Reequipamento pragmático HPC de tamanho médio para salas de computadores arrefecidas a ar | 5 | 40 kW | Campo castanho Campo verde |
ar | líquido de refrigeração |
HPC de tamanho médio | 5 | 100 kW | Campo castanho Campo verde |
água/glicol | água/glicol |
Fábrica de IA de grande escala |
|||||
Grande HPC preservando a neutralidade da divisão | 12 | 100 kW | Campo castanho Campo verde |
água/glicol+ar | água/glicol |
Grande edifício HPC em direcção à escala | 14 | 100 kW | Campo castanho Campo verde |
água/glicol | água/glicol |
Estes designs oferecem vários caminhos para integradores de sistemas, fornecedores de colocation, fornecedores de serviços em nuvem ou utilizadores empresariais para alcançarem o centro de dados do futuro, agora. Cada instalação específica pode ter nuances com contagem de racks e densidade de racks ditadas pela seleção de equipamento de TI. Como tal, esta colecção de projectos proporciona uma forma intuitiva de limitar definitivamente um projecto de base e adaptá-lo exactamente às necessidades de implementação.
Ao remodelar ou reaproveitar ambientes existentes para IA, os nossos designs otimizados ajudam a minimizar a perturbação das cargas de trabalho existentes, aproveitando a infraestrutura de arrefecimento disponível e a rejeição de calor, sempre que possível. Por exemplo, podemos integrar o arrefecimento líquido directo ao chip com um permutador de calor da porta traseira para manter uma solução de arrefecimento neutra. Neste caso, o permutador de calor da porta traseira evita que o calor em excesso escape para a divisão. Para uma instalação refrigerada a ar que procura adicionar equipamento de arrefecimento líquido sem quaisquer modificações ao próprio local, temos opções de design líquido-ar disponíveis. Essa mesma estratégia pode ser implantada em um único rack, em linha ou em escala em uma grande implantação de HPC. Para projectos de vários racks, também incluímos busway de alta amperagem e PDU de rack de alta densidade para distribuir energia para cada rack.
Estas opções são compatíveis com uma gama de diferentes opções de rejeição de calor que podem ser emparelhadas com arrefecimento líquido. Isto estabelece um caminho de transição limpo e económico para o arrefecimento líquido de alta densidade sem interromper outras cargas de trabalho na sala de dados. Consulte as nossas Soluções para Salas de Dados de IA para saber mais.
Embora muitas instalações não sejam concebidas para sistemas de densidade elevada, a Vertiv tem uma vasta experiência em ajudar os clientes a desenvolver planos de implementação para uma transição suave para alta densidade para IA e HPC.
1 Estimativas de gestão: Comparação do consumo de energia e saída de calor a nível de bastidor para 5 servidores Nvidia DGX H100 e 21 servidores Dell PowerStore 500T e 9200T num bastidor padrão de 42U com base nas folhas de especificações do fabricante