Nvidia anunció el 16 de marzo de 2026, durante su conferencia GTC en San José, el lanzamiento de Dynamo 1.0, un software de código abierto que describe como el primer sistema operativo distribuido para “fábricas de IA”.
La idea detrás del producto es bastante ambiciosa: coordinar GPUs, memoria y rutas de ejecución a escala de centro de datos para hacer más eficiente la inferencia de IA generativa y agéntica.
La noticia importa porque el gran cuello de botella de la IA ya no es solo entrenar modelos gigantes, sino servirlos en producción sin que los costes exploten. Cada consulta, cada respuesta generada, cada agente que llama a herramientas externas y cada flujo multimodal consumen recursos de inferencia.
Nvidia está apostando a que esa capa será tan crítica como lo fue el sistema operativo en la informática tradicional, y por eso coloca a Dynamo como una especie de capa de orquestación central para clústeres enteros.
Qué es Nvidia Dynamo 1.0 y por qué Nvidia lo llama un “sistema operativo”
Aunque el término “sistema operativo” aquí es más estratégico que literal, Nvidia usa esa metáfora para explicar que Dynamo no sustituye los motores de inferencia, sino que se sitúa por encima de ellos para coordinarlos.
El propio repositorio oficial de GitHub describe a Dynamo como una capa de orquestación a escala de centro de datos que no reemplaza a SGLang, TensorRT-LLM o vLLM, sino que los convierte en un sistema de inferencia multinodo coordinado.
Eso significa que Dynamo no es un modelo, ni una librería cerrada para un solo caso de uso, ni un simple optimizador de kernels.
Es una infraestructura de software pensada para decidir dónde corre cada parte de una petición, cómo se aprovecha la caché, cómo se reparte la memoria entre diferentes niveles y cómo se asignan recursos GPU de forma dinámica según la carga. Nvidia lo presenta como una base “production-grade” y de código abierto para inferencia a escala.
Cómo funciona Dynamo 1.0: desagregación, caché y orquestación de memoria
La pieza técnica más interesante de Dynamo 1.0 es que desagrega distintas fases de la inferencia entre múltiples GPUs. Nvidia explica que separa las fases de prefill y decode en diferentes aceleradores.
En términos simples, el prefill es la parte inicial donde el modelo procesa el prompt y genera estados internos; el decode es la fase iterativa en la que va generando tokens uno a uno. Al separarlas, Dynamo intenta usar mejor los recursos y evitar que una sola GPU se convierta en cuello de botella.
A eso se suma una capa de enrutamiento inteligente que dirige solicitudes a GPUs que ya tienen datos de caché relevantes, lo que reduce cómputo redundante y mejora latencia.
Nvidia también destaca un sistema de gestión de memoria multinivel que mueve datos entre la memoria de alto ancho de banda de la GPU, la memoria del sistema y niveles de almacenamiento más baratos según necesidad. El objetivo es estirar al máximo la capacidad efectiva del hardware sin disparar costes.
Dynamo incorpora además un planificador de GPU que asigna recursos dinámicamente en función de la demanda.
Esto es clave en producción, porque las cargas reales no son estables: hay picos, solapamiento de peticiones, modelos de distintos tamaños y necesidades cambiantes entre latencia y throughput. Lo que Nvidia vende aquí es la idea de que la eficiencia ya no depende solo del chip, sino del software que decide cómo exprimirlo.
Por qué la inferencia es ahora el verdadero campo de batalla de la IA
Durante los últimos años, casi toda la conversación pública sobre IA se centró en el entrenamiento: modelos más grandes, más parámetros y más potencia de cálculo. Pero a medida que los modelos pasan a producción, la prioridad cambia.
Lo caro no es solo entrenarlos una vez, sino responder millones o miles de millones de solicitudes de forma continua. Nvidia subraya precisamente eso al presentar la inferencia como “el motor de la inteligencia”, ya que es la fase que impulsa cada consulta, cada agente y cada aplicación.
Ese punto explica por qué Dynamo llega justo ahora. Los modelos de razonamiento, los agentes de IA y los flujos multimodales tienden a generar cargas más complejas y largas que los chatbots más básicos.
Si una empresa quiere servir estos sistemas a gran escala, necesita bajar el coste por token, elevar el rendimiento por GPU y mantener la latencia controlada. En otras palabras, la inferencia ya se ha convertido en un problema de infraestructura de primer nivel, no en un detalle técnico de segundo plano.
El dato más llamativo: hasta 7 veces más rendimiento en Blackwell
Nvidia afirma que Dynamo puede aumentar el rendimiento de inferencia en GPUs Blackwell hasta 7 veces en benchmarks recientes de la industria, reduciendo así el coste por token y mejorando la rentabilidad de despliegues a gran escala. La compañía repite ese dato tanto en su nota oficial como en su blog técnico, donde lo vincula a pruebas recientes de rendimiento.
Ese número hay que leerlo con un poco de cabeza. No significa que cualquier carga de trabajo vaya a multiplicarse por siete de forma automática. Significa que, en ciertos escenarios de benchmark y con la pila adecuada, la combinación de orquestación, caché, serving desagregado y optimizaciones de TensorRT-LLM puede elevar muchísimo el throughput sobre Blackwell.
Aun Aun así, incluso tomándolo con prudencia, el mensaje es fuerte: Nvidia no solo quiere vender GPUs más rápidas, quiere vender el software que hace que esas GPUs rindan mucho más en producción. La inferencia es el terreno perfecto para esa estrategia.
Dynamo también mira a video, agentes y modelos más complejos
Otro punto interesante es que Dynamo 1.0 no está limitado a LLMs de texto puros. Nvidia señala soporte nativo para modelos de generación de video y una función llamada ModelExpress, diseñada para acelerar el arranque de la inferencia al transmitir pesos del modelo por interconexiones de alto ancho de banda en lugar de descargarlos repetidamente desde almacenamiento.
Eso encaja con una tendencia clarísima: los sistemas de IA están pasando de chats sencillos a workflows que mezclan razonamiento, herramientas, imagen, video y memoria persistente.
En la práctica, esto significa que Nvidia quiere que Dynamo no se vea como una herramienta para un nicho, sino como una plataforma general para la siguiente generación de workloads de IA. Cuanto más variado sea el tipo de inferencia, más valor tiene una capa de coordinación que reparta memoria, caché, red y GPU de forma inteligente.
Integración con el ecosistema open source: vLLM, SGLang, LangChain y más
Uno de los movimientos más inteligentes de Nvidia con Dynamo 1.0 es no presentarlo como un jardín cerrado. La compañía afirma que Dynamo y las optimizaciones de TensorRT-LLM se integran de forma nativa con frameworks open source como LangChain, llm-d, LMCache, SGLang y vLLM.
El sitio oficial para desarrolladores también destaca soporte para SGLang, TensorRT LLM y vLLM.
Eso importa mucho porque vLLM y SGLang ya son piezas muy usadas en despliegues de inferencia de modelos grandes, especialmente en entornos donde eficiencia y serving importan más que el simple entrenamiento.
El repositorio oficial de GitHub insiste en esa idea: Dynamo actúa por encima de esos motores y los transforma en un sistema multinodo coordinado, con serving desagregado, routing inteligente, caché multinivel y autoescalado.
Además, Nvidia ha hecho disponibles como módulos independientes componentes como NIXL para transferencia de datos entre GPUs y KVBM para gestión de memoria. Esto sugiere una estrategia bastante clara: abrir partes de la infraestructura para facilitar adopción en un ecosistema que, hoy por hoy, premia muchísimo la interoperabilidad.
Adopción temprana: grandes nubes y empresas ya están dentro
Nvidia asegura que Dynamo ya ha sido adoptado por grandes proveedores cloud como Amazon Web Services, Microsoft Azure, Google Cloud y Oracle Cloud Infrastructure.
A eso suma socios como CoreWeave y Together AI, además de empresas como Cursor, Perplexity, ByteDance, PayPal y Pinterest, que según la compañía están implementando la tecnología. Together AI, por ejemplo, publicó que ya estaba usando Dynamo dentro de su stack de inferencia para casos de producción optimizados.
Esa lista tiene bastante peso porque muestra dos cosas a la vez. Primero, que Nvidia está empujando Dynamo como estándar de infraestructura dentro de entornos cloud y de IA de alto rendimiento.
Segundo, que empresas orientadas a producto ya lo ven como una herramienta útil para experiencias de IA reales. Nvidia cita incluso testimonios de compañías del sector para reforzar la idea de que no se trata de una demo de laboratorio, sino de un framework listo para cargas de trabajo grandes.
Por qué Nvidia abre Dynamo como código abierto
Que Nvidia haya lanzado Dynamo como software de código abierto no es un detalle menor. A primera vista podría parecer raro que una empresa tan asociada al dominio de hardware y software propietario abra una capa tan estratégica. Pero tiene bastante lógica.
Si consigue que Dynamo se convierta en la capa de orquestación preferida para inferencia a gran escala, fortalece todavía más la dependencia del ecosistema respecto a su hardware, su red, sus bibliotecas y sus interconexiones. Es una jugada de apertura muy calculada.
También le permite competir mejor contra stacks alternativos que están creciendo alrededor de inferencia open source. En lugar de obligar a elegir entre Nvidia y el ecosistema abierto, la compañía intenta colocarse en el centro de ese ecosistema. Y siendo sinceros, es una jugada bastante fina.
Qué significa Dynamo 1.0 para empresas, desarrolladores y operadores de centros de datos
Para las empresas que sirven modelos en producción, Dynamo 1.0 apunta a tres promesas muy concretas: más rendimiento, menor coste por token y mejor utilización de recursos.
Si esas promesas se cumplen en despliegues reales, el impacto puede ser fuerte, sobre todo para proveedores de IA, buscadores, asistentes, agentes y plataformas multimodales que viven o mueren por eficiencia operativa.
Para desarrolladores, el valor está en que Dynamo no exige abandonar herramientas ya populares como vLLM o SGLang. Más bien añade una capa superior de coordinación para multinodo, caché y routing.
Y para operadores de centros de datos, el mensaje es todavía más directo: si la inferencia va a convertirse en una carga persistente y masiva, se necesita algo parecido a un “sistema operativo” del clúster que gestione memoria, red y cómputo como una sola unidad.
El gran fondo de la noticia: Nvidia quiere dominar también la capa de software de inferencia
La lectura de fondo es bastante clara. Nvidia ya domina buena parte del hardware para IA, pero ahora quiere afianzar también la capa de software que decide cómo se usa ese hardware en producción.
Dynamo 1.0 encaja perfecto en esa ambición: es abierto, se integra con frameworks populares, promete mejoras muy agresivas en Blackwell y ya sale acompañado de apoyo de nubes y empresas importantes.
Si el entrenamiento fue la fase que convirtió a Nvidia en el gran beneficiado del boom de la IA, la inferencia puede ser la fase que consolide ese poder todavía más. Porque al final, una cosa es vender la máquina, y otra mucho más potente es controlar también el software que la hace rentable día a día.
