NVIDIA Blackwell: La nueva era de la inteligencia artificial con GPUs de hasta 1.200 W

Las GPU Blackwell de NVIDIA, con su arquitectura completamente renovada en comparación con Hopper, ofrecen una potencia sin precedentes, aunque con un consumo energético notablemente más elevado.

Estas GPUs Blackwell de NVIDIA presentan una variada gama de configuraciones, con un consumo máximo de hasta 1.200 W, lo que subraya su capacidad para adaptarse a diversas necesidades y aplicaciones.

Durante la conferencia de la GTC 2024, Jensen Huang, CEO de NVIDIA, reveló inicialmente el proyecto Blackwell, generando expectativas significativas, aunque faltaban detalles técnicos y arquitectónicos. Sin embargo, a lo largo de los siguientes días de la conferencia, NVIDIA proporcionó más información gracias a Jonah Albe, vicepresidente senior y arquitecto de GPU, e Ian Buck, vicepresidente de Hyperscale y HPC.

La GPU Blackwell de NVIDIA ha sido diseñada para la era de la inteligencia artificial, incorporando una arquitectura completamente renovada en comparación con su predecesora, Hopper. Según Jonah, Blackwell utiliza una microarquitectura radicalmente diferente.

Entre las novedades de Blackwell, destaca la incorporación de la segunda generación de la tecnología Transformer Engine, que introduce los formatos de cálculo FP4 y FP6. Estos formatos, junto con las optimizaciones de software adicionales, sitúan a Blackwell como el chip de inteligencia artificial más veloz del mundo. Aunque, se ha observado que el rendimiento en cálculos FP64 estándar solo ha experimentado un aumento del 32% respecto a Hopper. Esta decisión se justifica por el enfoque principal de Blackwell en la IA, donde el FP64 no juega un papel tan crucial, priorizando así la velocidad en las capacidades de inferencia y entrenamiento.

La elección de la arquitectura de chiplet (MCM) para la GPU GB200 de NVIDIA se fundamenta en la búsqueda de un rendimiento global mejorado, más que en la mejora de rendimientos individuales. Este enfoque MCM, que incluye dos GPU operando en un mismo paquete, plantea un escenario intrigante en términos de su implementación práctica. Se destaca que CUDA demuestra ser eficiente en el manejo de las dos GPU y sus distintas arquitecturas, lo que implica una transición suave para los desarrolladores sin necesidad de realizar cambios significativos en el código.

NVIDIA Blackwell — Origen de la imagen: NVIDIA

Durante el anuncio del lanzamiento, surgieron confusiones considerables respecto a las diversas variantes de la GPU y la plataforma Blackwell. Jensen Huang afirmó que Blackwell no se limita a ser una GPU, sino que constituye una plataforma completa con una variedad de productos basados en GPU. En este contexto, NVIDIA ha dado a conocer tres variantes oficiales de la GPU Blackwell, entre las que destaca el B200, que representa el buque insignia con todas las especificaciones. Estas GPU utilizan la plataforma GB200, caracterizándose por su capacidad de cálculo sobresaliente y un TDP máximo de 1.200 vatios. En comparación, el Hopper H100 presentaba un TDP de 700 vatios, lo que implica un aumento de 500 vatios en el caso del GB200. Cada Superchip integra dos de estas GPU B200 y una CPU Grace, ofreciendo una potencia combinada de hasta 2700 vatios (1200 vatios por 2 para B200 + 300 vatios para CPU/IO).

La GPU Blackwell B200, diseñada para las plataformas DGX y HGX, se ha optimizado para un consumo energético en torno a los 1.000 W, ofreciendo un rendimiento que roza el 90% de la variante de especificaciones completas. Aunque aún no se ha confirmado oficialmente, se especula si esta variante presenta simplemente un TDP más bajo o si cuenta con especificaciones ligeramente reducidas en comparación con la configuración completa. Por otro lado, se encuentra la opción del Blackwell B100, una variante más eficiente con un TDP de 700 W. Esta versión proporciona aproximadamente el 80% del rendimiento del B200 (con 1000 W) y el 70% del B200 (con 1200 W).

Se vislumbra la posibilidad de que en el futuro aparezca una variante de GPU Blackwell de un solo chip, especialmente orientada hacia plataformas PCIe. La arquitectura de las GPU Blackwell ya está siendo implementada en plataformas de consumo de IA y RTX, como Drive Thor y la próxima línea GeForce. Se espera que las GPU Blackwell GB200 de NVIDIA comiencen a ser distribuidas a finales de este año entre los primeros clientes de IA de gran envergadura, con planes de aumentar su disponibilidad más adelante.

Podría interesarte