A medida que se acerca el primer aniversario del lanzamiento de GPT-4o, el modelo multimodal de OpenAI, la compañía acaba de activar la capacidad nativa de generación de imágenes en GPT-4o para los usuarios de ChatGPT Plus, Pro, Team y Free.
Esta nueva función permitirá a los usuarios generar imágenes detalladas y realistas a partir de simples descripciones en texto, revolucionando la creación de contenido visual.
Nuevas capacidades de generación de imágenes
A diferencia de los modelos anteriores de IA generativa de imágenes como DALL-E 3, el nuevo generador de imágenes en GPT-4o está integrado en el mismo modelo que genera texto y código, lo que lo hace mucho más preciso al interpretar los comandos de los usuarios y generar imágenes más detalladas y realistas.
La calidad de las imágenes generadas es notablemente más alta, y los usuarios pueden interactuar con el modelo pidiendo ediciones y ajustes en lenguaje natural, lo que ha impresionado a muchos, calificando la calidad como «insana».
Mejoras sobre DALL-E y usos prácticos
GPT-4o está diseñado para ofrecer imágenes no solo visualmente impresionantes, sino también prácticas. Algunas aplicaciones clave incluyen:
- Diseño y Branding: Creación de logotipos, carteles y anuncios con precisión en la colocación de texto.
- Educación y Visualización: Diagramas científicos, infografías e imágenes históricas para aprendizaje.
- Desarrollo de Videojuegos: Mantener la consistencia de personajes en distintas iteraciones de diseño.
- Marketing y Creación de Contenido: Producción de recursos para redes sociales, invitaciones para eventos e ilustraciones digitales adaptadas a necesidades de marca.
Principales mejoras respecto a DALL-E 3
- Mejor integración de texto: A diferencia de los modelos anteriores que tenían dificultades con el texto legible y bien ubicado, GPT-4o puede insertar texto de manera precisa dentro de las imágenes.
- Mejor comprensión contextual: GPT-4o aprovecha el historial de la conversación para permitir que los usuarios refinen imágenes de manera interactiva y mantengan la coherencia en múltiples generaciones.
- Mejor manejo de múltiples objetos: A diferencia de los modelos anteriores, GPT-4o puede manejar hasta 10-20 objetos a la vez sin perder precisión.
- Adaptación a varios estilos: El modelo puede generar o transformar imágenes en una variedad de estilos, desde bocetos a mano hasta fotorealismo en alta resolución.
Limitaciones actuales
Aunque GPT-4o ha superado a modelos anteriores en muchas áreas, aún existen algunas limitaciones:
- Problemas de recorte: Las imágenes grandes, como los carteles, a veces pueden recortarse demasiado.
- Precisión del texto en escrituras no latinas: Algunos caracteres no latinos pueden no renderizarse correctamente.
- Retención de detalles en texto pequeño: El texto pequeño o con detalles complejos puede perder claridad.
- Precisión en la edición: Modificar partes específicas de una imagen podría afectar inadvertidamente otros elementos.
OpenAI está trabajando activamente en la mejora de estas limitaciones.
Medidas de seguridad y etiquetado
Para garantizar el uso responsable de la IA, todas las imágenes generadas por GPT-4o incluyen metadatos C2PA, lo que permite a los usuarios verificar su origen AI.
Además, la compañía ha implementado herramientas internas para detectar imágenes generadas por IA y bloquear contenido perjudicial o engañoso.
Un nuevo hito en la libertad creativa
El CEO de OpenAI, Sam Altman, describió este lanzamiento como un «nuevo punto de referencia para la libertad creativa», destacando que los usuarios podrán crear una amplia gama de visuales con gran precisión.
OpenAI continuará observando y refinando su enfoque basado en el uso real.
Con la generación de imágenes a partir de texto cada vez más precisa y accesible, GPT-4o marca un gran avance en la popularización de esta herramienta para la comunicación, creatividad y productividad.
Artículos Relacionados
Descubre más desde CIBERED
Suscríbete y recibe las últimas entradas en tu correo electrónico.

