Google ha presentado Agentic Vision, una innovadora función para el modelo de inteligencia artificial Gemini 3 Flash que transforma la forma en que los sistemas de IA analizan imágenes.
En lugar de limitarse a una única lectura estática, Agentic Vision permite al modelo examinar, manipular y reexaminar imágenes de forma activa e iterativa, ejecutando código Python para recortar, rotar, anotar y analizar contenidos visuales con mayor precisión.
Según Google, esta nueva capacidad mejora la comprensión visual de Gemini en múltiples tareas y representa un avance significativo frente a los modelos tradicionales de visión por IA.
¿Qué es Agentic Vision y por qué es tan importante?
Tradicionalmente, los modelos de inteligencia artificial procesan imágenes en un solo “vistazo”: analizan los pixeles, extraen características visuales y generan una respuesta.
Pero este enfoque tiene limitaciones claras cuando se trata de detalles pequeños o complejos, como:
- Números de serie diminutos en un microchip
- Señales de tráfico lejanas
- Texto con baja resolución
- Tablas o gráficos densos visualmente
Agentic Vision supera estas limitaciones al permitir que el modelo interactúe con la imagen de forma dinámica.
En vez de adivinar, Gemini 3 Flash puede ahora pensar, actuar y observar repetidamente, reformulando su análisis a medida que obtiene nueva información visual.
El ciclo de Pensar – Actuar – Observar
El avance esencial de Agentic Vision está en su bucle iterativo de procesamiento visual, que opera en tres fases:
1. Pensar
El modelo analiza la instrucción del usuario y la imagen inicial para diseñar un plan de múltiples pasos.
2. Actuar
Genera y ejecuta código Python para transformar la imagen: recorta regiones, ajusta perspectiva o agrega anotaciones.
3. Observar
Las imágenes transformadas entran de nuevo en el contexto del modelo para análisis posteriores, elevando la precisión de la respuesta final.
Esta metodología permite al modelo realizar tareas que antes eran difíciles o imprecisas, como leer texto minúsculo o contar objetos con exactitud.
Ejecución de código: la clave de la mejora en visión
Google apunta que la capacidad de Agentic Vision para ejecutar código Python dentro del propio flujo de trabajo de Gemini 3 Flash proporciona una mejora constante del 5–10 % en calidad en la mayoría de benchmarks de visión computacional.
La ejecución de código es considerada por Google como una de las primeras herramientas soportadas por este sistema, y habilita funciones visuales que van más allá de la simple clasificación de imágenes o la descripción narrativa.
Casos de uso reales de Agentic Vision
Google ha compartido ejemplos concretos donde esta tecnología ya está marcando una diferencia:
lanCheckSolver – Validación automatizada de planos
PlanCheckSolver, una plataforma de inspección de planos de construcción potenciada por IA, ha incrementado su precisión en un 5 % tras habilitar la ejecución de código en su flujo de trabajo. Gemini 3 Flash fue capaz de generar Python para:
- Recortar secciones de planos de alta resolución
- Analizar bordes o áreas específicas
- Confirmar el cumplimiento de normas complejas de construcción
Este proceso destaca cómo un sistema de IA puede ver y actuar sobre regiones visuales relevantes, algo que antes requería intervención humana o herramientas externas.
Anotación visual inteligente
Agentic Vision permite al modelo dibujar sobre las imágenes:
- Cuadros delimitadores
- Etiquetas numéricas
- Marcadores visuales
Google demostró esto con una tarea simple pero reveladora: contar dedos en una mano. El modelo generó un “bloc de notas visual” donde mostró con precisión cada dedo, asegurando que la respuesta numérica fuera correcta a nivel de píxel en lugar de inferida por probabilidad.
Matemáticas visuales deterministas
Otro caso interesante es el uso de Agentic Vision para resolver operaciones visuales complejas, como la lectura de tablas densa. En lugar de depender de procesos probabilísticos, el modelo:
- Genera Python para extraer datos
- Ejecuta cálculos deterministas
- Visualiza resultados dentro del contexto de la imagen
Esto abre posibilidades para aplicaciones prácticas en análisis financiero, ciencia de datos o ingeniería, donde la exactitud es crítica.
Disponibilidad y acceso
Agentic Vision ya está disponible a través de:
- API de Gemini en Google AI Studio
- Vertex AI de Google Cloud
- Lanzamiento gradual en la app de Gemini (los usuarios pueden seleccionar el modelo Thinking desde el menú desplegable)
Esto permite que tanto desarrolladores como empresas puedan integrar y experimentar con esta tecnología en proyectos propios desde hoy.
Limitaciones actuales y futuro de la función
Aunque Agentic Vision representa un salto grande en la visión por IA, Google señala algunas restricciones iniciales:
- Zoom y detalles pequeños: Gemini 3 Flash puede decidir implícitamente cuándo hacer zoom, pero
- Rotaciones de imagen y cálculos visuales complejos: aún requieren indicaciones explícitas en los prompts
Google trabaja activamente para que estas capacidades se vuelvan completamente implícitas en futuras actualizaciones, sin necesidad de indicaciones manuales. Además, la compañía explora integrar herramientas adicionales como:
- Búsqueda web integrada
- Búsqueda inversa por imagen
- Acceso combinado a datos multimodales enriquecidos
Estas mejoras apuntan a dotar a la IA de un entendimiento visual tan natural y flexible como el humano.
¿Qué significa Agentic Vision para la IA visual?
Este lanzamiento marca un cambio significativo en la forma en que los modelos comprenden imágenes. Hasta ahora, la mayoría de sistemas:
- Ven una imagen una sola vez
- Extraen características básicas
- Generan una respuesta final sin retroalimentación
Agentic Vision introduce un razonamiento visual iterativo, acercando la IA a la forma en que los humanos inspeccionan objetos (miran, acercan, giran, marcan y reevalúan).
Esto tiene implicaciones profundas para la..
- Robótica orientada a visión
- El diagnóstico médico asistido por IA
- La inspección automatizada en manufactura y construcción
- Las aplicaciones de seguridad y la vigilancia visual
