Renderizado neuronal inverso y directo sobre modelos de difusión de vídeo con DiffusionRenderer

¡Vamos a desmenuzar qué es DiffusionRenderer y por qué mucha gente en el mundo de la computación gráfica y la visión por computadora está gratamente emocionada con ello!

¿Qué es DiffusionRenderer?

En resumidas cuentas, DiffusionRenderer es una nueva herramienta pensada tanto para descifrar cómo está hecha una imagen o video (esto se llama renderizado inverso) para generar imágenes realistas a partir de datos básicos, como la geometría y materiales de la escena (el llamado renderizado directo o forward rendering).

¿Para qué sirve DiffusionRenderer exactamente?

Imagina que tienes una foto de una habitación. Con DiffusionRenderer puedes deducir, píxel a píxel, cómo es la forma de los objetos (la geometría) y de qué materiales están hechos (metal, tela, madera, etc.). Luego, puedes usar esa información para por ejemplo, cambiar la iluminación o insertar objetos de manera realista.

Entrando en contexto

En el mundo de los gráficos de computadora, todo esto de las luces, las sombras y los reflejos se ha manejado tradicionalmente con simulaciones físicas muy detalladas. Estas simulaciones requieren saber exactamente cómo es la escena en 3D, los materiales de cada objeto y las condiciones de iluminación.

Pero en el mundo real, ¡Conseguir toda esa información es casi imposible! Por eso, DiffusionRenderer llega con una propuesta neural:

  • Primero, usando técnicas modernas de inteligencia artificial (modelos de difusión para videos), compartes un video o una imagen y te saca toda esa información que normalmente es difícil de obtener (a esto se le llama renderizado inverso).
  • Luego, ese capaz de generar imágenes súper realistas solo a partir de esos datos base, sin necesidad de hacer simulaciones físicas estrictas (esto es renderizado directo).

¿Cómo funciona el método?

El sistema de DiffusionRenderer tiene dos partes fundamentales:

  1. Renderizador inverso neural: Partiendo de tu video o imagen se encarga de predecir para cada píxel; información esencial como la forma, el color base, la textura y si es metal o no. Hace esto enfocándose en una propiedad a la vez y usando “incrustaciones” para saber qué “cosa” está generando.
  2. Renderizador directo neural: Recibe la información previa (los G-buffers) y genera imágenes tan realistas que hasta las sombras y los reflejos parecen dibujados por la mismísima física. Aunque en realidad, se generan solo a partir de “mapas de entorno” y sin necesidad de calcular los caminos de luz individualmente.

Además, cuando se entrena el sistema, usan tanto datos digitales (fáciles de controlar) como vídeos reales; el modelo es capaz de funcionar en ambas situaciones.

¿En qué mejora esto a los procesos de siempre?

Las soluciones clásicas necesitaban mallas 3D detalladas. Si uno no tenía esa información, era muy difícil obtener sombras y reflejos correctos; y si los “G-buffers” tenían ruido o errores, los resultados decaían mucho.

DiffusionRenderer, en cambio, está entrenado para aguantar estos errores y seguir produciendo imágenes de alta calidad.

Resultados geniales

En las comparativas con otros métodos, DiffusionRenderer hace mejores sombras, reflejos y hasta interreflejos que los otros sistemas “neuronales” en boga. Incluso logra que estos efectos sean consistentes al verlos desde distintos ángulos, a pesar de que en los datos de entrada no había información explícita de sombras o reflejos.

¿Qué puedes hacer con esto?

Las aplicaciones prácticas de DiffusionRenderer son realmente impresionantes:

  • Relighting: Permite cambiar la iluminación de una foto para que parezca que la luz viene de otro lado.
  • Edición de materiales: Permite modificar cómo se ve la superficie de objetos en una imagen o video.
  • Inserción realista de objetos: Permite agregar objetos en escenas reales y que parezca que siempre estuvieron ahí, gracias a las sombras y reflejos coherentes.

Conclusión

En resumen, DiffusionRenderer ofrece un método más accesible, flexible y potente de manipular imágenes y videos con calidad profesional. Todo ello potenciado por inteligencia artificial avanzada.

Si te interesa el futuro del renderizado y la edición de imágenes, sin duda querrás seguirle la pista al proyecto.