La nueva versión de ChatGPT 4.1 ha comenzado a desplegarse y marca un avance significativo respecto a la versión anterior, GPT-4o. Sin embargo, a pesar de sus mejoras, aún no logra superar el rendimiento de los modelos de Google Gemini.
¿Qué hay de nuevo en GPT-4.1?
OpenAI ha confirmado que los desarrolladores con acceso a su API ahora pueden probar tres nuevos modelos: GPT‑4.1, GPT‑4.1 mini y GPT‑4.1 nano.
Los benchmarks iniciales muestran que estos modelos ofrecen mejoras considerables, especialmente en tareas de codificación.
Por ejemplo, GPT‑4.1 obtuvo una puntuación de 54.6% en el benchmark SWE-bench Verified, lo que representa un 21.4% de mejora sobre GPT-4o y un 26.6% mejor que GPT-4.5. Sin embargo, ¿cómo se compara con los modelos de Google Gemini?
Benchmarks: GPT-4.1 vs. Google Gemini
Según los benchmarks proporcionados por Stagehand, un marco de automatización de navegadores, Gemini 2.0 Flash lidera la tabla con la tasa de error más baja (6.67%) y la puntuación exacta más alta (90%).
Además, es rápido y económico. En cambio, GPT‑4.1 tiene una tasa de error más alta (16.67%) y resulta más de 10 veces más caro que Gemini 2.0 Flash.
Comparación de Costo y Eficiencia
Un aspecto importante a tener en cuenta es la relación costo-beneficio. Según Pierre Bongrand, científico en RNA en Harvard, GPT-4.1 es más costoso que otros modelos competidores, como Gemini 2.0 Flash o Gemini 2.5 Pro, que ofrecen un rendimiento superior o comparable a un costo más bajo.
Esto sugiere que, aunque GPT-4.1 sigue siendo una opción viable, modelos como Gemini 2.5 y DeepSeek están más cerca del límite superior de rendimiento y ofrecen mejor eficiencia económica.
Benchmark de Codificación: GPT-4.1 vs. Gemini 2.5
En cuanto a la codificación, GPT-4.1 obtiene un 52% en los benchmarks de Aider Polyglot, mientras que Gemini 2.5 obtiene una impresionante 73%, destacando claramente su superioridad en esta área.
Aunque GPT-4.1 sigue siendo un excelente modelo para tareas que no requieren razonamiento complejo, Gemini 2.5 lo supera ampliamente en tareas de programación.
¿Qué significa esto para los usuarios?
GPT-4.1 sigue siendo una opción sólida, especialmente para aquellos que necesitan un modelo de gran capacidad para tareas generales.
Aunque para quienes buscan rendimiento superior en codificación y mejor eficiencia de costos, los modelos de Google Gemini parecen ser una opción más atractiva.
Si bien GPT-4.1 ofrece mejoras sobre su predecesor, Google Gemini sigue siendo el líder en cuanto a rendimiento y relación calidad-precio.
Conclusión
Si estás considerando qué modelo utilizar para tu proyecto, es crucial evaluar tanto el costo como el rendimiento en tus tareas específicas. ¡Tómate tu tiempo para decidir qué modelo se adapta mejor a tus necesidades!