Accéder au contenu principal

Le centre de données, qui refroidissait sans problème 200 kilowatts d'infrastructure serveur traditionnelle, se retrouve soudain confronté à un nouveau défi : l'équipe informatique souhaite déployer un cluster d'entraînement d'IA. Quatre racks de GPU NVIDIA H100. Les spécifications indiquent une consommation de 44 kilowatts pour ces quatre racks seulement, soit plus que certaines salles serveurs entières il y a cinq ans. Le responsable des installations examine les calculs de capacité de refroidissement et annonce une mauvaise nouvelle : l'infrastructure de refroidissement par air existante ne peut supporter ce déploiement. Impossible sans mises à niveau majeures. Impossible sans refroidissement liquide. Impossible sans une refonte complète de la gestion thermique du centre de données.

Ce scénario se répète dans les centres de données du monde entier. La croissance exponentielle de l'intelligence artificielle — des grands modèles de langage comme ChatGPT aux systèmes de vision par ordinateur en passant par les applications d'IA générative — exige une puissance de calcul que l'infrastructure traditionnelle des centres de données n'a jamais été conçue pour fournir. Les puces qui alimentent les charges de travail d'IA génèrent une chaleur telle qu'elle met à rude épreuve les méthodes de refroidissement conventionnelles. Les installations conçues pour des racks de 5 à 10 kW doivent désormais faire face à des équipements nécessitant de 40 à plus de 100 kW par rack, avec des densités atteignant 120 kW et au-delà.

L'IA ne se contente pas d'ajouter des serveurs. Elle transforme en profondeur les capacités des centres de données, et les systèmes de refroidissement sont au cœur de cette transformation.

La révolution de la densité de puissance de l'IA

Infrastructure traditionnelle vs. infrastructure d'IA

Les centres de données d'entreprise traditionnels hébergent des serveurs à usage général : serveurs web, bases de données, systèmes de messagerie et applications métier. Ces charges de travail s'exécutent sur des serveurs à processeur consommant une énergie modérée et relativement stable. Une baie d'entreprise standard consomme généralement entre 5 et 10 kilowatts, avec des pics pouvant atteindre 15 kW. Ce niveau de consommation est compatible avec les systèmes de refroidissement classiques par plancher technique, utilisant des unités de climatisation de salle informatique (CRAC).

L'IA bouleverse tout. Les charges de travail liées à l'IA nécessitent des accélérateurs matériels spécialisés, principalement des unités de traitement graphique (GPU), mais aussi des unités de traitement tensoriel (TPU) et d'autres processeurs dédiés à l'IA. Ces puces excellent dans les opérations mathématiques parallèles requises par l'IA, mais elles consomment une quantité d'énergie considérable. Un seul GPU NVIDIA H100 consomme 700 watts. Les puces B200 plus récentes atteignent 1 000 W, et les configurations GB200 culminent à 1 200 W par GPU.

Un rack d'entraînement d'IA équipé de 8 GPU et de l'infrastructure associée consomme facilement entre 30 et 50 kW. Les configurations à haute densité dépassent les 100 kW par rack. Selon une étude de Dell'Oro Group, la densité de puissance moyenne par rack passera de 15 kW aujourd'hui à 60-120 kW pour les charges de travail d'IA dans un avenir proche.

Pourquoi l'IA génère-t-elle autant de chaleur ?

La nature même de l'entraînement des IA explique la chaleur générée. L'entraînement de grands modèles de langage ou de systèmes de vision par ordinateur nécessite le traitement d'ensembles de données massifs via des réseaux neuronaux comportant des milliards, voire des billions de paramètres. Les GPU fonctionnent à près de 100 TP12T pendant des périodes prolongées : jours, semaines, voire mois pour les grands modèles. Ce fonctionnement soutenu à charge maximale diffère considérablement de l'utilisation typique d'un serveur, qui se situe entre 20 et 400 TP12T.

Les GPU modernes intègrent une densité de transistors sans précédent dans une puce de silicium compacte. Les dernières architectures de NVIDIA intègrent des dizaines de milliards de transistors fonctionnant à haute fréquence. La physique stipule que le courant électrique traversant une résistance génère de la chaleur, et l'échelle considérable des calculs effectués par les GPU modernes produit une dissipation thermique bien supérieure à celle des processeurs traditionnels.

L'Uptime Institute indique que les centres de données traditionnels étaient conçus pour une puissance de refroidissement de 5 à 10 kW par rack. Les environnements d'IA nécessitent au minimum 30 kW, souvent entre 50 et 80 kW, et les déploiements de pointe dépassent même les 100 kW. Cela représente une augmentation de 10 à 20 fois des besoins en refroidissement.

La cascade des défis liés aux infrastructures

Une forte densité de puissance engendre des problèmes cumulatifs. Plus de puissance signifie plus de chaleur à évacuer. Un refroidissement accru nécessite une consommation d'énergie supplémentaire. Selon l'Agence internationale de l'énergie, le calcul représente 401 000 Tbit/s de la consommation énergétique des centres de données, et le refroidissement représente également 401 000 Tbit/s. Les charges de travail liées à l'IA augmentent simultanément ces deux paramètres.

L'optimisation de l'espace s'en trouve compromise. Une installation conçue pour 50 baies traditionnelles ne pourra accueillir que 10 à 15 baies d'IA, compte tenu des contraintes d'alimentation et de refroidissement. La capacité de calcul totale augmente, mais le nombre de baies diminue.

L'infrastructure électrique nécessite une mise à niveau. Les réseaux de distribution, la capacité des onduleurs, les groupes électrogènes de secours et les raccordements au réseau doivent tous être étendus pour supporter les charges de travail de l'IA. De nombreuses installations constatent que l'ajout de capacités d'IA exige une refonte complète de leur infrastructure électrique.

Pourquoi le refroidissement traditionnel ne peut plus suivre

Le problème de la physique

Le refroidissement par air fonctionne en faisant circuler de grands volumes d'air sur des surfaces chaudes, permettant ainsi le transfert de chaleur des composants vers l'air, puis en évacuant l'air chaud et en le remplaçant par de l'air frais. Cette approche a ses limites physiques.

L'air possède une capacité thermique et une conductivité relativement faibles. Déplacer suffisamment d'air pour extraire 40 à 50 kW d'une seule baie nécessite des débits considérables, bien supérieurs à ceux fournis par les unités CRAC traditionnelles et la distribution par plancher surélevé. La vitesse d'air requise engendre du bruit, augmente les pertes de charge et peut ne pas assurer un refroidissement adéquat de tous les composants.

Les écarts de température sont importants. Un refroidissement par air efficace nécessite de l'air froid nettement inférieur à la température souhaitée des composants. Cependant, abaisser excessivement la température de l'air soufflé entraîne un gaspillage d'énergie et un risque de condensation. La plage de températures admissibles pour le refroidissement par air limite la capacité d'évacuation de la chaleur.

La contrainte d'espace

Les baies d'IA haute densité, consommant entre 50 et 100 kW, nécessitent une infrastructure de refroidissement exponentiellement plus importante que les équipements traditionnels. Une installation peut déployer une unité CRAC pour 10 à 15 baies traditionnelles. Les baies d'IA peuvent nécessiter un refroidissement dédié par baie ou par petit groupe de baies. Cet équipement de refroidissement occupe un espace précieux, réduisant ainsi la capacité globale de l'installation.

Le confinement des allées chaudes et d'autres techniques de gestion des flux d'air contribuent à atténuer le problème, mais ne le résolvent pas fondamentalement. Même une gestion optimale des flux d'air ne permet pas de surmonter les limitations de transfert thermique de l'air utilisé comme fluide de refroidissement face à des baies de 100 kW.

La crise de l'efficacité énergétique

Les installations qui peinent à refroidir par air les équipements d'IA haute densité ont souvent tendance à surdimensionner le refroidissement par mesure de sécurité, en faisant tourner les ventilateurs à plein régime et en abaissant la température de l'air soufflé. Cette approche radicale augmente considérablement la consommation d'énergie.

D'après une étude de T5 Data Centers, les centres de données prenant en charge des charges de travail d'IA avec des densités de puissance supérieures à 700 watts par pied carré rencontrent d'importants problèmes d'efficacité énergétique avec les systèmes de refroidissement par air traditionnels. L'indice d'efficacité énergétique (PUE) se dégrade à mesure que les systèmes de refroidissement sont davantage sollicités, et les coûts totaux des installations s'envolent.

L'impératif du refroidissement liquide

Le refroidissement liquide, autrefois considéré comme une technologie exotique réservée aux supercalculateurs, devient rapidement indispensable pour les centres de données d'IA.

Pourquoi Liquid fonctionne

L'eau et les fluides de refroidissement spécialisés possèdent des propriétés thermiques largement supérieures à celles de l'air. Le refroidissement liquide peut être jusqu'à 3 000 fois plus efficace que le refroidissement par air pour évacuer la chaleur. Cette efficacité permet de gérer les importants flux de chaleur générés par le matériel d'IA.

Plusieurs approches de refroidissement liquide ont émergé :

Refroidissement direct sur puce (plaque froide) Un liquide circule à travers des plaques froides montées directement sur les GPU et autres composants à forte dissipation thermique. La chaleur est transférée de la puce à la plaque froide, puis au liquide, qui l'évacue vers d'autres zones. Cette approche ciblée permet de gérer les températures extrêmes des composants tout en autorisant des températures ambiantes plus élevées pour les autres équipements.

Échangeurs de chaleur de porte arrière Ce système se fixe à l'arrière des baies de serveurs et utilise un échangeur de chaleur liquide-air pour refroidir l'air vicié avant son entrée dans la salle. Cette approche permet une modernisation plus aisée des infrastructures existantes que les autres méthodes de refroidissement liquide, tout en offrant des avantages partiels.

Refroidissement par immersion Ce procédé consiste à immerger entièrement les serveurs dans un fluide diélectrique qui ne risque pas d'endommager les composants électroniques. La chaleur est ainsi transférée directement de tous les composants vers le fluide environnant. Cette approche offre une efficacité de refroidissement maximale et permet une densité sans précédent, mais elle nécessite des serveurs et une infrastructure conçus spécifiquement à cet effet.

Le changement de marché

D'après le rapport 2024 d'AFCOM sur l'état des centres de données, seuls 171 000 répondants utilisent actuellement le refroidissement liquide. Cependant, 321 000 répondants supplémentaires prévoient de l'adopter dans les 12 à 24 mois. Cela témoigne d'une transition fondamentale du marché, impulsée par les exigences des charges de travail liées à l'IA.

Les principaux fournisseurs de services cloud et hyperscalers sont à la pointe de l'adoption de cette technologie. Les pods TPU refroidis par liquide de Google permettent de quadrupler la densité de calcul. Microsoft a annoncé que tous ses nouveaux centres de données intégreront des systèmes de refroidissement liquide. Meta, Amazon et d'autres opérateurs majeurs déploient le refroidissement liquide à grande échelle.

EdgeCore Digital Infrastructure indique que le refroidissement liquide direct sur puce est passé des applications HPC de niche à la production de masse. “ Ce qui paraissait ambitieux en 2023 est devenu la spécification requise pour la prise en charge des charges de travail d'IA en 2025 et deviendra la spécification minimale pour des serveurs GPU encore plus denses en 2026 ”, souligne Tom Traugott, vice-président senior des technologies émergentes.

Défis liés à la mise en œuvre

Le refroidissement liquide requiert une expertise différente de celle des systèmes de refroidissement par air traditionnels. Les installations ont besoin de :

  • Infrastructure de distribution de liquides (tuyauterie, collecteurs, pompes)
  • Systèmes d'évacuation de la chaleur (tours de refroidissement, refroidisseurs secs, refroidisseurs d'air)
  • Détection et confinement des fuites
  • Procédures de maintenance spécialisées
  • Différents systèmes de surveillance et de contrôle

Ces exigences impliquent des investissements importants et des changements opérationnels considérables. De nombreuses installations sont confrontées à ce dilemme : faut-il moderniser les infrastructures existantes pour le refroidissement liquide ou construire de nouveaux centres de données dédiés à l’IA ?

Ce que les centres de données doivent faire maintenant

Évaluation et planification

Les infrastructures doivent commencer par évaluer leurs besoins actuels et futurs en matière de charge de travail d'IA. De quelle capacité GPU l'organisation aura-t-elle besoin au cours des 3 à 5 prochaines années ? Quelles densités de puissance ces déploiements nécessiteront-ils ? L'infrastructure existante peut-elle supporter les charges de travail d'IA, ou des mises à niveau fondamentales sont-elles nécessaires ?

Évaluez l'écart entre les capacités actuelles et les besoins futurs. Une installation avec une densité moyenne de racks de 10 kW et une capacité totale de 1 MW peut prendre en charge 100 racks traditionnels. Cette même puissance de 1 MW ne permettrait d'alimenter que 15 à 20 racks d'IA de 50 kW chacun. La puissance est disponible, mais le refroidissement, l'espace et la distribution électrique risquent de ne pas pouvoir évoluer de manière adéquate.

Évaluation des infrastructures

Audit des systèmes existants :

Capacité de refroidissementLes unités CRAC/CRAH actuelles peuvent-elles gérer n'importe quel déploiement d'IA ? Quelle est la densité maximale de racks supportée par le système de refroidissement existant ?

Distribution électriqueLes systèmes de distribution électrique supportent-ils les baies haute densité ? Les circuits, les PDU et les transformateurs sont-ils dimensionnés pour des charges concentrées ?

Espace et aménagementL'installation peut-elle accueillir une infrastructure de refroidissement liquide ? Y a-t-il suffisamment d'espace pour les unités de distribution de refroidissement, les collecteurs de liquide et les équipements d'évacuation de la chaleur ?

Surveillance et contrôlesLes systèmes existants offrent-ils une surveillance suffisamment granulaire pour les déploiements à haute densité ?

Sélection technologique

Choisir les technologies de refroidissement appropriées en fonction de l'échelle et de la densité de déploiement :

Hybride air/liquidePour les déploiements d'IA de puissance modérée (racks de 20 à 40 kW), la combinaison d'un refroidissement par air amélioré avec des technologies d'assistance liquide comme les échangeurs de chaleur de porte arrière pourrait suffire.

Directement sur pucePour les racks de 40 à 80 kW, le refroidissement liquide direct sur la puce devient nécessaire. Cette approche permet de gérer la chaleur du GPU tout en laissant le champ libre au refroidissement par air pour les autres composants.

Immersion totale: Pour une densité maximale (80-120 kW+) ou des déploiements à espace limité, le refroidissement par immersion offre la plus grande efficacité, mais nécessite les changements d'infrastructure les plus importants.

Mise en œuvre progressive

La plupart des installations ne peuvent pas moderniser immédiatement l'ensemble de leur infrastructure de refroidissement liquide. Une approche progressive permet de prendre en charge les charges de travail d'IA tout en planifiant des mises à niveau plus importantes.

Phase 1 : Évaluation et projet pilote

  • Déployer de petites installations pilotes d'IA utilisant un refroidissement liquide portable ou des approches hybrides
  • Valider les performances de refroidissement et identifier les problèmes
  • Développer l'expertise organisationnelle

Phase 2 : Améliorations des zones

  • Désigner des zones spécifiques des installations pour les charges de travail d'IA
  • Installer une infrastructure de refroidissement liquide dans ces zones
  • Maintenir le refroidissement par air traditionnel ailleurs

Phase 3 : Évolution à l'échelle de l'installation

  • Augmenter la capacité de refroidissement liquide à mesure que les charges de travail augmentent.
  • Modernisez vos équipements de refroidissement par air vieillissants avec des systèmes hybrides ou liquides.
  • Construire de nouveaux centres de données optimisés pour l'IA pour les expansions majeures

Sélection des partenaires

La plupart des organisations ne disposent pas de l'expertise interne nécessaire à la conception et à la mise en œuvre de systèmes de refroidissement liquide. Il est donc essentiel de choisir des partenaires ayant une expérience avérée. Recherchez :

  • Déploiements de refroidissement liquide démontrés à grande échelle
  • Expérience spécifique avec les charges de travail IA/HPC
  • Capacité à prendre en charge aussi bien les nouvelles constructions que les rénovations
  • capacités de maintenance et de support continues
  • Compréhension des besoins en informatique et en installations

Les arguments commerciaux en faveur d'une action immédiate

Nécessité concurrentielle

Les organisations qui tardent à investir dans les infrastructures de refroidissement pour l'IA s'exposent à un désavantage concurrentiel. Les entreprises qui tirent parti de l'IA pour leur transformation numérique ont besoin d'infrastructures capables de supporter ces charges de travail. Une infrastructure incapable de prendre en charge les clusters d'entraînement ou les déploiements d'inférence pour l'IA limite la stratégie IA de l'organisation.

Gestion des coûts

L'intégration d'un système de refroidissement liquide dans des installations existantes coûte beaucoup plus cher que son intégration dès la conception de nouvelles constructions. Les installations prévoyant des mises à niveau ou des agrandissements importants devraient intégrer un système de refroidissement liquide dès le départ, même si ce n'est pas nécessaire dans l'immédiat.

À haute densité, le refroidissement liquide est plus avantageux en termes de coûts d'exploitation. Bien que les coûts d'investissement soient supérieurs à ceux du refroidissement par air, les gains d'efficacité considérables obtenus à des densités de rack supérieures à 50 kW permettent un retour sur investissement rapide grâce à une consommation d'énergie réduite.

Pérenniser l'avenir

L'évolution du matériel d'IA ne montre aucun signe de ralentissement. Chaque nouvelle génération de GPU accroît la consommation d'énergie et la dissipation thermique. Les puces B200 actuelles, d'une consommation de 1 000 W, seront bientôt remplacées par des modèles encore plus énergivores. Les infrastructures incapables de refroidir le matériel d'IA de génération actuelle seront confrontées à des défis encore plus importants avec les équipements de nouvelle génération.

Investir dès maintenant dans une infrastructure de refroidissement liquide permet aux installations de prendre en charge les futures charges de travail d'IA sans nécessiter de refontes majeures répétées.

Perspectives d'avenir : Le centre de données natif de l'IA

Le secteur des centres de données se divise en deux. Les centres de données d'entreprise traditionnels continuent de prendre en charge les charges de travail classiques avec un refroidissement par air. Parallèlement, une nouvelle génération de centres de données dédiés à l'IA émerge, conçus dès le départ pour des déploiements de GPU haute densité.

Ces installations comprennent :

  • Densités de rack de 80 à 120 kW et plus en standard
  • Infrastructure de refroidissement liquide dans son ensemble
  • Distribution électrique conçue pour les charges concentrées
  • Proximité des principales sources d'énergie et des nœuds de réseau
  • Conception modulaire permettant un déploiement rapide

Les organisations devraient évaluer conjointement leurs stratégies d'IA et leurs besoins en infrastructure. Pour certaines, la colocation dans des centres de données dédiés à l'IA est plus judicieuse que la modernisation d'installations existantes. Pour d'autres, des approches hybrides, combinant refroidissement par air pour les charges de travail traditionnelles et refroidissement liquide pour les charges de travail d'IA, offrent le meilleur compromis.

Conclusion : La transformation du refroidissement

Les charges de travail liées à l'IA ne représentent pas une simple augmentation progressive des besoins des centres de données. Elles constituent une transformation fondamentale exigeant des capacités d'infrastructure dont la plupart des installations sont actuellement dépourvues. Les méthodes traditionnelles de refroidissement par air, qui ont fait leurs preuves depuis des décennies, ne peuvent tout simplement pas gérer les densités de chaleur générées par le matériel d'IA moderne.

La question n'est pas de savoir si votre infrastructure doit relever les défis du refroidissement liés à l'IA, mais plutôt quand et comment. Les organisations qui déploient aujourd'hui des charges de travail d'IA sont confrontées à des contraintes de refroidissement immédiates. Celles qui prévoient des initiatives d'IA dans les 12 à 24 prochains mois doivent agir dès maintenant pour garantir la préparation de leur infrastructure.

Bonne nouvelle : des technologies de refroidissement liquide éprouvées existent et sont déployées avec succès dans le monde entier. L’expertise nécessaire à la conception, à la mise en œuvre et à l’exploitation de ces systèmes est disponible. L’analyse de rentabilité justifiant un tel investissement est convaincante.

La mauvaise nouvelle : attendre augmente les coûts et limite les options. Chaque mois de retard signifie un mois supplémentaire de capacités d’IA réduites, des coûts de mise à niveau plus élevés et des occasions manquées de tirer parti de l’IA pour obtenir un avantage concurrentiel.

La transformation du refroidissement des centres de données, impulsée par l'IA, est déjà en marche. Les infrastructures qui prennent conscience de cette réalité et agissent de manière proactive soutiendront efficacement les stratégies d'IA de leur organisation. Celles qui tardent constateront que leur infrastructure de refroidissement vieillissante est devenue un goulot d'étranglement, les empêchant de participer pleinement à la révolution de l'IA.

Il est crucial d'optimiser votre infrastructure de refroidissement dès maintenant, avant que les charges de travail liées à l'IA ne laissent votre système de refroidissement saturer et que vous soyez contraint de réagir en urgence et de manière coûteuse. Vos futures capacités en IA dépendent des choix de refroidissement que vous faites aujourd'hui.


Sources et lectures complémentaires

  1. Moyen - Comment construire un centre de données d'IA — Partie 1 (Refroidissement et alimentation électrique)
  2. Centres de données T5 – Défis liés à l'infrastructure de l'IA : alimentation électrique et refroidissement dans les centres de données haute densité
  3. Solutions Penguin – Refroidissement et alimentation électrique des centres de données IA pour répondre aux besoins de l'infrastructure
  4. EdgeCore – Infrastructure des centres de données d'IA : alimenter l'avenir du calcul d'IA
  5. CoreSite – IA et centre de données : Vers une plus grande densité de puissance
  6. Vertiv – Refroidissement haute densité : Guide des solutions thermiques avancées pour les charges de travail d’IA et d’apprentissage automatique
  7. Frontière des centres de données – Le refroidissement liquide atteint son point culminant : suivi des investissements dans les centres de données à mi-parcours en 2025
  8. W.Médias – L'impact de l'IA sur la consommation d'énergie et le refroidissement dans les centres de données
  9. Équinix – La salle des machines de l'IA : au cœur des centres de données haute performance qui alimentent l'avenir
  10. Spectres MHI – Refroidissement des centres de données : un défi inattendu pour l’IA