NVIDIA ha anunciado soporte completo para DiffusionGemma en las plataformas RTX y DGX, aprovechando el lanzamiento del nuevo modelo de Google DeepMind, diseñado específicamente para acelerar la ejecución local de inteligencia artificial.
Basado en Gemma 4, DiffusionGemma cuenta con 25.200 millones de parámetros, aunque durante la inferencia solo activa 3.800 millones. Su principal diferencia frente a los modelos autoregresivos tradicionales es que no genera texto token por token, sino que procesa bloques completos de 256 tokens simultáneamente mediante un sistema de difusión y eliminación de ruido.
Según Google, este enfoque puede ofrecer hasta cuatro veces más velocidad en GPU. NVIDIA comparte cifras aún más llamativas: más de 700 tokens por segundo en una GeForce RTX 5090, más de 1.000 tokens por segundo en una H100, alrededor de 150 tokens por segundo en DGX Spark y hasta 2.000 tokens por segundo en DGX Station. El modelo también admite contextos de hasta 256.000 tokens, utiliza licencia Apache 2.0 y es compatible con herramientas como Hugging Face Transformers, vLLM, NeMo y NIM.
Google reconoce que Gemma 4 sigue ofreciendo mejores resultados cuando la prioridad es la calidad de las respuestas. En cambio, DiffusionGemma está orientado a tareas interactivas ejecutadas de forma local, como edición de texto, infilling de código, iteraciones rápidas y cargas de trabajo pequeñas. Su ventaja es menos evidente en entornos en la nube, donde los modelos tradicionales pueden aprovechar mejor el tráfico simultáneo de múltiples usuarios.
Más allá del rendimiento, el lanzamiento destaca por explorar una alternativa al aumento constante de parámetros o a técnicas de aceleración como el speculative decoding. Si esta estrategia gana terreno, podría impulsar aún más el mercado de la IA local y reforzar el atractivo de hardware de alto rendimiento como la RTX 5090 para este tipo de aplicaciones.
Fuente: NVIDIA, Google







