+31 (0) 20-3085452 info@azuraconsultancy.com
Parnassusweg 819
Amsterdam, Países Bajos
De lunes a viernes
08:00 – 17:00
Refrigeración de centros de datos

Desbloquear el factor X: Revolucionando la refrigeración de los centros de datos para la era digital

Desbloquear el factor X: Revolucionando la refrigeración de los centros de datos para la era digital

El «factor X» de ASHRAE es un criterio de fiabilidad para puntos de consigna más altos; la refrigeración por líquido es la solución técnica cuando el flujo de calor del rack convierte al aire en el factor limitante.

Resumen ejecutivo

  • El factor X del Comité Técnico 9.9 de ASHRAE no es un método de refrigeración, sino un índice normalizado de la tasa de fallos del equipo que cuantifica el impacto en la fiabilidad a medida que la temperatura de entrada aumenta con respecto a un valor de referencia.
  • Aumentar los puntos de consigna del aire de impulsión o de entrada suele incrementar el factor X (más fallos previstos), pero puede dar lugar a un aumento desproporcionado de las horas de funcionamiento del economizador y a una menor carga del compresor en climas templados.
  • En lo que respecta a la refrigeración de los centros de datos de IA, el límite determinante suele ser el flujo de calor por rack y la viabilidad del flujo de aire: a unos 30–100+ kW/rack, la refrigeración por aire se vuelve difícil, independientemente de lo amplio que sea el rango de temperaturas admisible.
  • La refrigeración líquida se divide en distintas categorías con diferentes implicaciones para las instalaciones: refrigeración directa al chip (placas frías), intercambiadores de calor en la parte trasera (transicionales) y refrigeración por inmersión en una o dos fases (máxima captación de calor, mayor cambio operativo).
  • La optimización de la refrigeración se está convirtiendo cada vez más en un ejercicio de definición de límites: qué se incluye dentro del límite del PUE y cuál es la posición de la reutilización de calor o las bombas de calor en el contexto de la presentación de informes según la norma ISO 30134.
  • Una estrategia creíble combina el modelado de la fiabilidad (perspectiva del «factor X»), la viabilidad termodinámica (disipación de calor y ΔT) y la preparación operativa (química, detección de fugas, facilidad de mantenimiento), en lugar de centrarse únicamente en un único indicador.

¿Por qué se vuelve a hablar ahora del «factor X»?

El debate actual sobre la refrigeración viene impulsado por dos factores que, aunque parecen similares en un panel de control de PUE, se comportan de manera muy diferente desde el punto de vista técnico. En primer lugar, el escrutinio en materia de energía y emisiones de carbono está obligando a los operadores a mantener temperaturas más altas y a maximizar las horas de funcionamiento del economizador (refrigeración libre). En segundo lugar, los clústeres de IA concentran el calor de tal manera que el flujo de aire, las temperaturas de aproximación de los serpentines y la potencia de los ventiladores alcanzan el límite práctico mucho antes de que el centro se quede sin espacio.

El factor X del Comité Técnico 9.9 de ASHRAE se sitúa en la primera etapa de presión. Se trata de un indicador estadístico de fiabilidad: una relación normalizada de la tasa de fallos con respecto a una temperatura de entrada de referencia. Ayuda a cuantificar el impacto en la fiabilidad que tiene el aumento de los puntos de consigna. No transfiere calor. La refrigeración por líquido se sitúa en la segunda presión: cambia la ruta de transferencia de calor para que los racks de alta densidad sigan siendo termodinámicamente viables.

Infografía que compara los puntos de consigna más altos y los objetivos de ahorro energético con los límites de flujo térmico por densidad de racks establecidos por la IA, factores que impulsan la adopción de la refrigeración líquida.
La idea central del artículo es la siguiente: el factor X influye en el riesgo asociado a un punto de consigna más alto, mientras que la refrigeración por líquido resuelve la viabilidad derivada de la densidad.

Este artículo está dirigido a ingenieros y responsables técnicos que necesitan tomar decisiones fundamentadas sobre la refrigeración de centros de datos: qué hacer con los puntos de consigna y los límites de temperatura, cuándo es imprescindible recurrir a la refrigeración líquida y cómo evitar decisiones basadas en métricas que fracasan en la práctica. Para obtener más información sobre el trabajo de Azura en el ámbito de los centros de datos, consulte consultores de centros de datos.

Qué representa realmente el factor X de ASHRAE (y qué no representa)

Las Directrices térmicas de ASHRAE para entornos de procesamiento de datos definen los rangos de condiciones ambientales (comúnmente denominados clases A1–A4) y ofrecen una forma de distinguir entre los rangos de funcionamiento “admisibles” y los “recomendados”. El factor X es un concepto independiente pero relacionado: expresa cómo varían las tasas de fallo de hardware previstas a medida que la temperatura de entrada se aleja de una condición de referencia.

Cómo aplicarlo en la toma de decisiones de ingeniería

Si se utiliza correctamente, el factor X sirve de marco de referencia para la toma de decisiones: pone de manifiesto el coste de fiabilidad que supone un punto de consigna más alto, de modo que pueda sopesarse frente al ahorro energético, la estrategia de mantenimiento y el riesgo en el nivel de servicio. Resulta más útil cuando se combina con un modelo de parque de equipos (qué se utiliza, durante cuánto tiempo y con qué política de sustitución) que como una simple cifra destacada.

Infografía de dos paneles en la que se explica qué representa el factor X de ASHRAE, frente a interpretaciones erróneas habituales, como considerarlo un método de refrigeración.
Aclarar el alcance evita que el “enfriamiento por el factor X” sustituya al verdadero trabajo de ingeniería relacionado con el flujo de aire, la instalación y los controles.

Errores de interpretación habituales: “Refrigeración X-factor”

El factor X no indica a una instalación cómo refrigerar. No sustituye a la gestión del flujo de aire, la selección de serpentines, la estrategia de temperatura del agua refrigerada ni los controles. Y no elimina la limitación termodinámica de que, con determinadas cargas térmicas de los racks, el caudal de masa de aire requerido resulta inviable desde el punto de vista operativo (potencia del ventilador, ruido, tolerancia a fugas en la contención y facilidad de mantenimiento).

Puntos de consigna, economizadores y la verdadera disyuntiva que se esconde tras el lema “funcionar a mayor temperatura”

El razonamiento técnico a favor de un aire de impulsión más cálido es sencillo: unas temperaturas más altas del agua refrigerada reducen la elevación, mejoran la eficiencia de la enfriadora y amplían el rango de temperatura ambiente en el que los economizadores del lado del aire o del lado del agua pueden asumir la carga. En muchos climas templados europeos, cambiar el objetivo de diseño de ~22 °C a ~27 °C en la entrada del rack puede aumentar considerablemente las horas de funcionamiento del economizador, ya que el número de horas por debajo del umbral más alto aumenta a un ritmo superior al lineal.

¿Qué es lo que suele limitar el potencial alcista?

Tabla de evaluación que resume los factores de fiabilidad, humedad, contención y controles que limitan las ventajas de establecer puntos de consigna más altos.
Los puntos de consigna más altos plantean un problema de optimización del sistema: estas cuatro restricciones determinan si los ajustes del economizador se mantienen durante el funcionamiento.
  • Fiabilidad y política de garantía: el factor X aumenta a medida que sube la temperatura de entrada; la cuestión práctica es qué nivel adicional de riesgo de avería resulta aceptable a lo largo del ciclo de renovación.
  • Control de la humedad y la humedad latente: el aire más cálido puede reducir el margen de humedad relativa en función de la estrategia de la instalación; si aumenta el consumo energético de la deshumidificación o la humidificación, el beneficio neto se reduce.
  • Distribución y contención del aire: los supuestos de un ΔT más elevado pueden verse comprometidos por los conductos de derivación y la recirculación; el valor “medio” de la entrada puede ocultar puntos calientes que provocan estrangulamientos.
  • Controla la estabilidad: los reajustes bruscos del valor de consigna pueden provocar oscilaciones entre los modos de economizador y mecánico, lo que aumenta el desgaste y merma el ahorro previsto.

Aquí es donde el PUE suele llevar a confusión. El PUE refleja los gastos generales de la instalación, pero no indica la merma en la fiabilidad que implica el factor X, ni aclara si el margen térmico está distribuido de manera uniforme. Para conocer el contexto general de la eficiencia y cómo se interpretan las tendencias del PUE, véase Tendencias del PUE.

Cuando la refrigeración por aire deja de ser la principal herramienta: flujo de calor y racks de alta densidad

El debate sobre el “factor X” parte de la base de que la instalación puede proporcionar las condiciones de entrada deseadas en primer lugar. En el caso de las densidades empresariales convencionales, esto suele ser cierto. En el caso de la refrigeración de centros de datos de IA, cada vez se exige más a la instalación que admita filas densas de GPU, donde el factor limitante no es “si los servidores pueden tolerar 27 °C”, sino «si la sala puede proporcionar un caudal de aire suficiente sin un consumo de energía de los ventiladores, un ruido y un riesgo de puntos calientes inaceptables».

Los modos de fallo reales en el aire a alta densidad

Diagrama causal que muestra cómo una mayor carga térmica de los racks determina el caudal de aire, la potencia de los ventiladores, la sensibilidad a las fugas y los límites de disipación de calor, hasta el punto de que la refrigeración por aire deja de ser viable.
A densidades de AI, la cuestión deja de centrarse en la temperatura admisible para centrarse en si el aire puede disipar el calor sin que ello suponga un impacto operativo inaceptable.
  • La potencia de los ventiladores pasa a constituir una parte importante de la potencia total del sistema informático a medida que aumenta el flujo de aire; la curva de eficiencia es implacable en los extremos.
  • Las fugas en el sistema de contención y el aire de derivación pasan de ser una “pérdida de eficiencia” a un “riesgo de sobrecalentamiento”, ya que el margen por rack es reducido.
  • Las temperaturas de entrada al serpentín y los límites de disipación de calor son determinantes: aunque se regule la sala, es posible que la planta no pueda disipar el calor sin alcanzar altas temperaturas de condensación.
  • La facilidad de mantenimiento se ve afectada: las mayores velocidades frontales y una contención más hermética dificultan las tareas rutinarias y aumentan la probabilidad de que se produzcan fallos provocados por el factor humano.

El factor determinante es el perfil y la densidad de la carga de trabajo, no la marca. Un enfoque útil consiste en plantearse si la implementación se asemeja más a un centro de datos de IA que a un centro empresarial convencional; Centros de datos de IA aborda las diferencias a nivel de centro que suelen manifestarse en primer lugar.

Opciones de refrigeración líquida: directa al chip, por la parte trasera y por inmersión (perspectiva técnica)

Una vez que la densidad de los racks supera el nivel que el aire puede ventilar con facilidad, la elección no se reduce a una simple disyuntiva entre “aire o líquido” en abstracto, sino que se trata de determinar qué configuración de refrigeración por líquido se adapta mejor a la implementación, a las limitaciones del edificio y al modelo de mantenimiento del operador.

Placas de refrigeración Direct-to-chip (DLC)

El sistema DLC coloca placas de refrigeración en las CPU y GPU y utiliza una unidad de distribución de refrigerante (CDU) para conectar el circuito de TI al circuito de agua de la instalación. Es habitual mantener la refrigeración por aire para la memoria, el almacenamiento y las fuentes de alimentación. El trabajo de ingeniería abarca aspectos hidráulicos (caudal, caída de presión), de control (reajuste de la temperatura de suministro, gestión del punto de rocío) y químicos (calidad del agua, inhibidores). La guía más detallada de Azura sobre el DLC se encuentra en refrigeración líquida directa sobre el chip.

Intercambiadores de calor de la puerta trasera (RDHx)

Matriz comparativa entre los intercambiadores de calor «direct-to-chip», los de «puerta trasera» y la refrigeración por inmersión, en lo que respecta a la captura de calor, las molestias que supone la adaptación, las interfaces y los cambios operativos.
La refrigeración líquida ofrece diversas opciones; la elección depende de la densidad, las limitaciones de la adaptación y las necesidades operativas, y no de una única afirmación sobre la eficiencia.

El sistema RDHx se instala en el conducto de salida del rack y elimina gran parte del calor antes de que este vuelva a la sala. A menudo se trata de una solución de transición para la modernización de salas refrigeradas por aire ya existentes, ya que permite mantener las dimensiones de los servidores y gran parte del modelo operativo. Las limitaciones son el peso del rack, la facilidad de mantenimiento de las puertas, el recorrido del agua y el control de la condensación si se utiliza agua muy fría (muchos diseños evitan esto utilizando agua más caliente).

Inmersión (monofásica y bifásica)

La inmersión consiste en colocar el hardware informático directamente en un fluido dieléctrico. En la inmersión monofásica, el fluido calentado circula a través de un intercambiador de calor; en la bifásica, se aprovechan los procesos de ebullición y condensación. La inmersión permite capturar una proporción muy elevada del calor generado por los equipos informáticos en un circuito controlado, lo que puede resultar interesante para la reutilización de calor. Además, implica cambios en los procesos de mantenimiento, la homologación del hardware y la gestión de fluidos. El cambio operativo suele ser el factor decisivo, no la física.

Los riesgos de integración que determinan si la refrigeración por líquido funciona en las operaciones

Los programas de refrigeración líquida que fracasan suelen hacerlo porque, aunque el concepto térmico era sólido, los detalles de integración eran deficientes. El motivo del fracaso rara vez es que “no se pueda disipar el calor”, sino que “el sistema no se pueda poner en marcha ni mantener sin un riesgo inaceptable”.

¿Qué aspectos requieren una atribución explícita de la autoría del diseño?

Lista de verificación que abarca la definición de las interfaces, la química, la localización de fugas, la facilidad de mantenimiento y los controles necesarios para garantizar la seguridad operativa de la refrigeración por líquido.
La mayoría de los fallos en los sistemas de refrigeración líquida se deben a problemas de integración; esta lista de comprobación deja claro el trabajo que hay que realizar en materia de gestión y validación.
  • Definición de la interfaz: ¿Quién es responsable del límite entre el circuito informático y el circuito de instalaciones (temperaturas, presiones, calidad del agua, alarmas y pruebas de aceptación)?.
  • Química del agua y control de la corrosión: valores objetivo de conductividad, estrategia de inhibidores, filtración, régimen de muestreo y plan de respuesta ante desviaciones.
  • Detección y aislamiento de fugas: sensores, zonificación, principios del cierre automático de válvulas y cómo evitar falsas alarmas que dejen fuera de servicio filas enteras.
  • Facilidad de mantenimiento: puntos de drenaje, contención de derrames, acceso seguro y la posibilidad de realizar tareas informáticas rutinarias sin afectar al sistema hidráulico.
  • Controles: restablecimiento de la temperatura de suministro estable, consideración del punto de rocío (cuando sea pertinente) y modos de respaldo claros para fallos parciales.

Cuando la reutilización del calor entra en juego, la refrigeración por líquido también modifica la calidad del calor recuperable. Unas temperaturas de salida del agua más elevadas pueden hacer que la reutilización posterior resulte más viable; reutilización del calor de los centros de datos aborda las implicaciones técnicas y métricas.

Métricas y límites: cómo armonizar el enfoque del «factor X» con los informes sobre el PUE y la reutilización del calor

A menudo se pide a los equipos de ingeniería que “mejoren el PUE” y “faciliten la reutilización del calor”, al tiempo que se les exige mantener estable el riesgo de disponibilidad. No se trata de objetivos contradictorios, pero requieren límites bien definidos y concesiones explícitas.

Tres perspectivas que deben mantenerse separadas

  • Perspectiva de eficiencia: el PUE refleja los gastos generales de la instalación, pero depende de lo que se contabilice dentro de sus límites y del régimen de funcionamiento (a carga parcial frente a la carga nominal).
  • Lente de reutilización: los índices ERF/ERE mejoran cuando se expulsa el calor, pero la ubicación de las bombas de calor y los puntos de medición altera el resultado obtenido.
  • Perspectiva de la fiabilidad: el factor X expresa el impacto relativo de las temperaturas de entrada más elevadas en la tasa de fallos; no aparece en los informes de PUE/ERF y debe documentarse junto con ellos.

En cuanto a cómo influyen los límites elegidos en el PUE y el ERF cuando se utilizan bombas de calor para aprovechar el calor residual, Ubicación de la bomba de calor y límites según la norma ISO 30134 ofrece un análisis detallado conforme a la norma ISO 30134.

Marco de decisión: selección de puntos de consigna y topología de refrigeración mediante tres restricciones

La forma más rápida de evitar la “búsqueda de métricas” es estructurar la decisión en función de las limitaciones, en lugar de las preferencias. El marco que se presenta a continuación está diseñado para generar una recomendación fundamentada que pueda superar la revisión del diseño, el proceso de adquisición y el traspaso a operaciones.

Restricción 1: viabilidad (física y de la planta)

  • Datos de entrada: densidades objetivo de los racks por zona (media y máxima), ΔT admisible, eficacia de la contención y límites de disipación de calor.
  • Prueba: ¿puede la refrigeración por aire proporcionar el caudal de aire necesario sin que el consumo del ventilador sea inaceptable y sin riesgo de puntos calientes? De no ser así, se requiere refrigeración líquida, independientemente del punto de consigna.
  • Resultado: conjunto de topologías de refrigeración mínimamente viables (aire, RDHx, DLC, inmersión) para cada zona de implementación.

Restricción 2: nivel de fiabilidad (perspectiva del factor X)

  • Datos de entrada: valor de consigna de entrada propuesto y política de desviación, clase de equipo y ciclo de actualización, así como tolerancia al riesgo en el nivel de servicio.
  • Prueba: ¿qué aumento relativo de la tasa de fallos se deduce con respecto al valor de referencia? ¿Es aceptable, teniendo en cuenta la estrategia de repuestos y el modelo de mantenimiento?
  • Resultado: banda de funcionamiento recomendada (recomendada frente a admisible) con una justificación explícita en materia de fiabilidad.

Restricción 3: preparación operativa (personal y procesos)

  • Datos de entrada: flujo de trabajo de mantenimiento, modelo de dotación de personal, asistencia de proveedores y limitaciones de la instalación (tratamiento de aguas, seguridad, gestión de derrames).
  • Prueba: ¿puede la organización llevar a cabo el control de productos químicos, la detección y el aislamiento de fugas, y el mantenimiento de los componentes sin aumentar el riesgo de error humano?
  • Resultado: lista de deficiencias en la preparación (procedimientos, supervisión, formación, repuestos) que deben subsanarse antes de la ampliación.

¿Cómo validar una estrategia de refrigeración para densidades más altas?

Azura presta apoyo a operadores y desarrolladores en materia de viabilidad, integración de sistemas de ingeniería mecánica, eléctrica y de plomería (MEP), y planificación de la puesta en marcha para entornos de centros de datos refrigerados por aire y por líquido.

Lo que esto exige a los equipos de diseño y ejecución

En lo que respecta a la prestación del servicio, el debate sobre el “factor X” es un problema de gobernanza y controles: los valores de consigna, las desviaciones y la conmutación del economizador deben ser estables, estar documentados y ajustarse a la política de garantía y renovación del parque informático. La refrigeración líquida es un problema de integración: introduce nuevas interfaces (CDU, circuitos secundarios, detección de fugas, química) que deben diseñarse como parte de la instalación, no añadirse a posteriori durante el despliegue de los racks.

Azura presta apoyo a operadores, promotores y proveedores de servicios de coubicación al traducir la estrategia de refrigeración en resultados de ingeniería: estudios de conceptos y opciones, integración del diseño de instalaciones mecánicas, eléctricas y de fontanería, filosofía de control, planificación de la puesta en marcha y la validación, y análisis técnico de viabilidad cuando la viabilidad de la refrigeración supone un riesgo determinante. Los trabajos relacionados suelen abarcar cuestiones de sostenibilidad conexas, como la estrategia de gestión del agua y las restricciones de vertido, entre otras Aspectos a tener en cuenta en relación con la descarga cero de líquidos.

Primeros pasos prácticos para un programa de refrigeración activa

  • Hay que distinguir entre dos cuestiones: (1) qué punto de consigna y qué envolvente de entrada se pretenden alcanzar, y (2) qué densidades de bastidores requieren líquido, independientemente del punto de consigna.
  • Documentar la configuración del factor X: estado inicial, rango de funcionamiento propuesto, política de desviaciones y cómo se gestiona el riesgo de fiabilidad (repuestos, actualizaciones, coordinación de garantías).
  • Representar gráficamente las densidades por zona y periodo: picos de estanterías, media de estanterías y trayectoria de crecimiento prevista; evitar basar el diseño únicamente en la media de todo el emplazamiento.
  • Elige una topología de líquido para un piloto basándote en la disponibilidad operativa (modelo de servicio, química, respuesta ante fugas), y no solo en el rendimiento térmico.
  • Defina por escrito la interfaz entre el sistema informático y las instalaciones (temperaturas, presiones, alarmas, pruebas de aceptación) antes de que el proceso de adquisición se vea condicionado por supuestos incompatibles de los proveedores.
  • Si se prevé la reutilización de calor, hay que decidir desde el principio cuáles serán los límites de la información que se recopilará y cómo se llevará a cabo la medición, de modo que las declaraciones relativas al PUE y al ERF sean auditables.

Conclusión

El factor X de ASHRAE se entiende mejor como una herramienta de cálculo de la fiabilidad para puntos de consigna de entrada más altos: cuantifica la relación entre la tasa de fallos y el rendimiento que subyace a las estrategias de “funcionamiento a temperaturas más altas” y ayuda a justificar las decisiones relativas al economizador y al aumento de la potencia de la enfriadora. No es una tecnología de refrigeración y no puede resolver los límites físicos que supone el traslado de grandes cargas térmicas mediante aire.

La refrigeración líquida aborda un problema distinto: la viabilidad de los racks de alta densidad y las implementaciones centradas en la inteligencia artificial, en las que el flujo de aire y la potencia de los ventiladores se convierten en el factor limitante. El trabajo de ingeniería práctico se centra en la integración y las operaciones —interfaces, hidráulica, química, gestión de fugas y controles— para que las mejoras en la eficiencia no se logren a costa de la disponibilidad.

PREGUNTAS FRECUENTES

¿Qué tecnologías existen para capturar y reutilizar el calor residual generado por los sistemas de refrigeración de los centros de datos?

Las principales opciones son los intercambiadores de calor aire-agua o agua-agua en los circuitos de refrigeración, que suelen combinarse con bombas de calor para elevar la temperatura destinada a la calefacción urbana o a los sistemas de climatización de los edificios. La refrigeración por líquido puede aumentar el grado de calor aprovechable al proporcionar temperaturas del agua más cálidas y estables. La viabilidad depende de la demanda de calor cercana, los requisitos de temperatura, la medición y cómo se define el límite de reutilización para la presentación de informes según la norma ISO 30134.

No existe un fluido “óptimo” universal: el retorno de la inversión y la vida útil dependen de la topología (circuitos de agua directos al chip frente a inmersión dieléctrica), la compatibilidad de los materiales, el control de la corrosión y la disciplina de mantenimiento. En el caso de los circuitos basados en agua, la ingeniería se centra en la gestión química (conductividad, pH, inhibidores), la filtración y la monitorización. En el caso de los fluidos dieléctricos, el enfoque se centra en la estabilidad del fluido, la compatibilidad con los componentes y los procedimientos de mantenimiento. El “retorno de la inversión demostrado” suele depender del emplazamiento y la carga de trabajo, más que ser una característica intrínseca del fluido.

El consumo energético suele analizarse en dos niveles: la carga de TI (servidores, almacenamiento, red) y la carga total de la instalación (TI más refrigeración, conversión de energía, iluminación, etc.). La relación entre ambos se refleja en el PUE. La potencia absoluta en MW de una instalación depende de la infraestructura de TI desplegada y del perfil de utilización, mientras que los gastos generales dependen en gran medida de la topología de refrigeración, el clima y los puntos de consigna de funcionamiento. En el caso de implementaciones con un uso intensivo de IA, el factor limitante suele ser la densidad localizada, más que la superficie total.

Las decisiones relativas a la refrigeración marcan ahora el diseño de las instalaciones.

Cuando los valores de consigna, la refrigeración por líquido o la reutilización del calor afecten de manera significativa al riesgo y al programa, Azura puede prestar apoyo en la diligencia debida técnica y la validación del diseño a lo largo de todo el ciclo de vida del proyecto.

Scroll al inicio
Azura Consultoría

Contáctanos