Investigadores del MIT y el Instituto de Investigación de Toyota han desarrollado una técnica de inteligencia artificial generativa que crea entornos virtuales tridimensionales realistas para entrenar robots.
El sistema, llamado “Steerable Scene Generation”, promete revolucionar la forma en que los robots aprenden a desenvolverse en el mundo físico; permitiendo simulaciones más diversas, precisas y eficientes.
De los chatbots a los robots físicos
En los últimos años, los chatbots como ChatGPT o Claude han demostrado lo que los modelos de lenguaje pueden lograr cuando se entrenan con enormes cantidades de texto: redactar, razonar, traducir o responder casi cualquier pregunta.
Pero entrenar robots físicos es otro desafío. En lugar de palabras, estos sistemas necesitan demostraciones de movimiento y manipulación de objetos: cómo apilar, mover o colocar utensilios, cómo organizar una mesa o interactuar con un entorno doméstico.
Recolectar esos datos en el mundo real es costoso, lento y poco repetible, por lo que los ingenieros recurren a simulaciones.
Aunque, las simulaciones existentes suelen carecer de diversidad, realismo físico y variedad de escenarios.
Una nueva forma de crear mundos para robots
El equipo del MIT CSAIL (Computer Science and Artificial Intelligence Laboratory) en colaboración con el Toyota Research Institute, desarrolló un método que combina IA generativa y modelos de difusión para crear escenas 3D realistas (como cocinas, comedores o restaurantes) llenas de objetos cotidianos (mesas, platos, cubiertos, frutas, libros, etc.).
Entrenado con más de 44 millones de habitaciones tridimensionales, el modelo puede reorganizar objetos existentes y generar nuevas escenas coherentes con la física del mundo real.
Por ejemplo, se asegura de que un tenedor no atraviese un plato o que una taza no quede flotando en el aire.
Cómo funciona Steerable Scene Generation
La clave está en el concepto de “direccionar” (steering) el proceso creativo de la IA. El sistema utiliza una técnica llamada “Monte Carlo Tree Search” (MCTS), la misma empleada por AlphaGo para vencer a jugadores humanos, para explorar distintas formas de llenar un entorno con objetos.
Así, la IA genera múltiples alternativas y selecciona las que mejor cumplen con un objetivo específico:
- Crear escenas más realistas.
- Incluir determinados tipos de objetos (por ejemplo, alimentos).
- O aumentar la complejidad visual del entorno.
“Somos los primeros en aplicar MCTS a la generación de escenas, tratándola como un proceso de toma de decisiones secuencial” explica Nicholas Pfaff, estudiante de doctorado del MIT EECS y coautor principal del estudio.
“Esto nos permite construir escenas más complejas que las que el modelo original había visto durante su entrenamiento”.
En un experimento, MCTS logró duplicar la cantidad de objetos en una escena de restaurante, pasando de 17 elementos promedio a 34, con pilas de platos y cubiertos distribuidos de forma coherente.
IA que aprende por refuerzo y responde a descripciones
Otra fortaleza del sistema es su capacidad de autoentrenarse mediante aprendizaje por refuerzo.
El modelo recibe “recompensas” por generar escenas que se ajustan mejor a un objetivo, aprendiendo a crear entornos cada vez más diversos y precisos.
También puede seguir instrucciones escritas del usuario, como “una cocina con cuatro manzanas y un bol sobre la mesa”.
El modelo alcanzó una precisión del 98 % en escenas de despensas y del 86 % en mesas de desayuno desordenadas, superando en más de un 10 % a sistemas comparables como MiDiffusion o DiffuScene.
Además, puede “rellenar los huecos” de una escena existente: reorganizar objetos o generar una nueva versión manteniendo los mismos elementos.
Un paso hacia simulaciones más realistas
Gracias a este enfoque, los investigadores pudieron grabar robots virtuales realizando tareas complejas: colocando cubiertos en un recipiente, moviendo panecillos o distribuyendo platos en distintas configuraciones.
Las simulaciones se veían fluidas, naturales y físicamente plausibles, lo que es crucial para que los robots puedan trasladar lo aprendido al mundo real.
“Lo importante es que no necesitamos que los datos originales se parezcan exactamente a los entornos finales” comenta Pfaff.
“Podemos usar nuestra técnica de direccionamiento para movernos hacia una distribución más útil para el entrenamiento de robots.”
Próximos pasos: crear objetos nuevos y escenas interactivas
Por ahora, el sistema utiliza una biblioteca fija de objetos 3D, pero los investigadores planean que en el futuro genere objetos completamente nuevos e incluso elementos articulados (como puertas que se abren, frascos que se giran o cajones que se deslizan) para hacer los entornos más realistas.
También buscan combinar esta técnica con su anterior proyecto “Scalable Real2Sim”, que transforma imágenes reales de internet en entornos 3D interactivos.
La meta: construir una gran base de datos abierta donde investigadores y desarrolladores puedan compartir escenas y objetos para entrenar robots de nueva generación.
Conclusión
El trabajo del MIT y Toyota marca un paso crucial hacia robots que aprenden en entornos virtuales más ricos, diversos y físicamente coherentes.
Al unir IA generativa, aprendizaje por refuerzo y simulación 3D, los investigadores están sentando las bases de una nueva era en el entrenamiento robótico: una en la que los robots puedan practicar millones de tareas virtuales antes de enfrentarse al mundo real.
Descubre más desde CIBERED
Suscríbete y recibe las últimas entradas en tu correo electrónico.