A inteligência artificial (IA) chegou e chegou para ficar. “Cada setor se tornará um setor de tecnologia”, de acordo com o fundador e CEO da NVIDIA, Jensen Huang. Os casos de uso da IA são praticamente ilimitados, desde avanços na medicina até prevenção de fraudes de alta precisão. A IA já está transformando nossas vidas da mesma forma que está transformando cada setor. Também está começando a transformar fundamentalmente a infraestrutura do data center.
As cargas de trabalho de IA estão gerando mudanças significativas na forma como alimentamos e resfriamos os dados processados como parte da computação de alto desempenho (HPC). Um rack de TI típico usado para executar cargas de trabalho de 5 a 10 kilowatts (kW) e racks com cargas superiores a 20 kW foram considerados de alta densidade – uma visão rara fora de aplicações muito específicas com alcance estreito. A TI está sendo acelerada com GPUs para suportar as necessidades de computação dos modelos de AI, e esses chips de AI podem exigir cerca de cinco vezes mais energia e cinco vezes mais capacidade de resfriamento1 no mesmo espaço que um servidor tradicional. Mark Zuckerberg anunciou que, até o final de 2024, a Meta gastará bilhões para implantar 350.000 GPUs H100 da NVIDIA. As densidades de rack de 40 kW por rack agora estão na extremidade inferior do que é necessário para facilitar implantações de AI, com densidades de rack superando 100 kW por rack se tornando comuns e em grande escala no futuro próximo.
Isso exigirá grandes aumentos de capacidade em todo o trem de força, desde a rede até os chips em cada rack. A introdução de tecnologias de resfriamento líquido no espaço em branco do data center e, eventualmente, nas salas de servidores empresariais, será um requisito para a maioria das implantações, pois os métodos de resfriamento tradicionais não poderão lidar com o calor gerado pelas GPUs que executam cálculos de AI. Os investimentos para atualizar a infraestrutura necessária para alimentar e resfriar o hardware de AI são substanciais e enfrentar esses novos desafios de design é fundamental.
A transição para a alta densidade
A transição para a computação acelerada não acontecerá da noite para o dia. Os designers de data centers e salas de servidores devem procurar maneiras de tornar a infraestrutura de energia e resfriamento pronta para o futuro, considerando o crescimento futuro de suas cargas de trabalho. Obter energia suficiente para cada rack requer atualizações da grade para o rack. No espaço em branco especificamente, isso provavelmente significa barramento de alta amperagem e PDUs de rack de alta densidade. Para rejeitar a enorme quantidade de calor gerada pelo hardware que executa cargas de trabalho de IA, duas tecnologias de refrigeração líquida estão surgindo como opções primárias:
- Resfriamento líquido direto ao chip: As placas frias ficam sobre os componentes geradores de calor (geralmente chips como CPUs e GPUs) para extrair calor. O fluido monofásico ou bifásico bombeado retira o calor da placa fria para enviá-lo para fora do data center, trocando calor, mas não fluidos com o chip. Isso pode remover cerca de 70-75% do calor gerado pelo equipamento no rack, deixando de 25-30% que os sistemas de refrigeração de ar devem remover.
- Trocadores de calor da porta traseira: Trocadores de calor passivos ou ativos substituem a porta traseira do rack de TI por bobinas de troca de calor através das quais o fluido absorve o calor produzido no rack. Esses sistemas são frequentemente combinados com outros sistemas de resfriamento como uma estratégia para manter a neutralidade da sala ou um projeto de transição que inicia a jornada para o resfriamento líquido.
Embora o resfriamento líquido direto ao chip ofereça uma capacidade de resfriamento de densidade significativamente maior do que o ar, é importante observar que ainda há excesso de calor que as placas frias não conseguem capturar. Esse calor será rejeitado na sala de dados, a menos que seja contido e removido por outros meios, como trocadores de calor da porta traseira ou refrigeração de ar da sala. Para obter mais detalhes sobre soluções de resfriamento líquido para data centers, consulte nosso artigo técnico .
Kits Iniciais de AI para Adaptação e Novas Construções
A energia e o resfriamento estão se tornando partes integrais do projeto da solução de TI na sala de dados, desfocando as fronteiras entre as equipes de TI e de instalações. Isso adiciona um alto grau de complexidade quando se trata de projeto, implantação e operação. Parcerias e experiência em soluções completas são classificadas como os principais requisitos para transições suaves para densidades mais altas.
Para simplificar a mudança para a alta densidade, a Vertiv introduziu uma gama de projetos otimizados, incluindo tecnologia de energia e refrigeração capaz de suportar cargas de trabalho de até 100 kW por rack em um conjunto diversificado de configurações de implantação.
Resumo do projeto | Racks | Densidade/rack | Campo verde/marrom | Remoção de calor | |
---|---|---|---|---|---|
do servidor | do quarto | ||||
Pilotos do modelo de treinamento, inferência de borda em escala |
|||||
Adaptação mínima de HPC pequeno | 1 | 70 kW | Campo marrom | água/glicol | ar |
Remodelação pequena de HPC para sistema de água resfriada | 1 | 100 kW | Campo marrom | água/glicol | água/glicol |
Treinamento centralizado para empresas, canto de IA no data center |
|||||
Modernização de HPC de médio porte com custo otimizado | 3 | 100 kW | Campo marrom | água/glicol | refrigerante |
HPC de médio porte com maior captura de calor | 4 | 100 kW | Campo marrom Campo verde |
água/glicol+ar | água/glicol |
Adaptação pragmática HPC de médio porte para salas de computadores refrigeradas a ar | 5 | 40 kW | Campo marrom Campo verde |
ar | refrigerante |
HPC de médio porte | 5 | 100 kW | Campo marrom Campo verde |
água/glicol | água/glicol |
Fábrica de IA em grande escala |
|||||
Grande HPC preservando a neutralidade do quarto | 12 | 100 kW | Campo marrom Campo verde |
água/glicol+ar | água/glicol |
Grande construção de HPC em direção à escala | 14 | 100 kW | Campo marrom Campo verde |
água/glicol | água/glicol |
Esses projetos oferecem vários caminhos para integradores de sistemas, provedores de colocation, provedores de serviços em nuvem ou usuários corporativos alcançarem o data center do futuro, agora. Cada instalação específica pode ter nuances com contagem de rack e densidade de rack ditadas pela seleção de equipamentos de TI. Como tal, esta coleção de projetos fornece uma maneira intuitiva de restringir definitivamente a um projeto de base e adaptá-lo exatamente às necessidades de implantação.
Ao adaptar ou reaproveitar ambientes existentes para IA, nossos projetos otimizados ajudam a minimizar a interrupção das cargas de trabalho existentes, aproveitando a infraestrutura de resfriamento disponível e a rejeição de calor sempre que possível. Por exemplo, podemos integrar o resfriamento líquido direto ao chip com um trocador de calor de porta traseira para manter uma solução de resfriamento neutra para ambientes. Nesse caso, o trocador de calor da porta traseira evita que o excesso de calor escape para a sala. Para instalações refrigeradas a ar que buscam adicionar equipamentos de resfriamento líquido sem nenhuma modificação ao próprio local, temos opções de projeto líquido-ar disponíveis. Essa mesma estratégia pode ser implantada em um único rack, em linha ou em escala em uma implantação de HPC grande. Para projetos de vários racks, também incluímos barramento de alta amperagem e PDUs de rack de alta densidade para distribuir energia para cada rack.
Essas opções são compatíveis com uma variedade de diferentes opções de rejeição de calor que podem ser combinadas com refrigeração a líquido. Isso estabelece um caminho de transição limpo e econômico para o resfriamento líquido de alta densidade sem interromper outras cargas de trabalho na sala de dados. Confira nossas soluções de sala de dados de IA para saber mais.
Embora muitas instalações não sejam projetadas para sistemas de alta densidade, a Vertiv tem ampla experiência em ajudar os clientes a desenvolver planos de implantação para fazer a transição suave para alta densidade para IA e HPC.
1 Estimativas de gestão: Comparação do consumo de energia e da saída de calor em um nível de rack para 5 servidores Nvidia DGX H100 e 21 servidores Dell PowerStore 500T e 9200T em um rack padrão de 42U com base nas fichas de especificações do fabricante