Los modelos más recientes como GPT, Claude, Gemini y la serie o de OpenAI tienen distintas fortalezas y debilidades. Por eso, conviene combinarlos. Aquí un informe desde el campo de batalla.
Cada desarrollador ha pegado código en ChatGPT o ha visto a GitHub Copilot completar una función automáticamente. Si esa es tu única experiencia, podrías pensar que programar con modelos de lenguaje grande (LLMs) todavía «no está listo».
Pero en la práctica, la calidad y especialización de los modelos avanza tan rápido que la experiencia que tuviste hace apenas ocho semanas ya está desactualizada.
Esta primavera, OpenAI, Anthropic y Google lanzaron grandes actualizaciones, y OpenAI agregó discretamente una “serie o” de modelos enfocados en el razonamiento.
A continuación, un informe práctico tras usar a diario cinco modelos líderes. Tómalo como una instantánea del momento, no una verdad absoluta: para cuando leas esto, una nueva versión puede haber cambiado todo de nuevo.
Este modelo reemplazó al GPT-4.5 preview. Es más barato, más rápido y con una ventana de contexto de 128k tokens. Es útil para crear esqueletos de proyectos desde cero o convertir imágenes en código.
Pero pierde el hilo cuando hay que modificar una base de código grande o manejar muchos casos de prueba.
El modelo Sonnet sigue siendo el primero que uso. Tiene el mejor equilibrio entre costo y velocidad, mantiene bien el contexto global de proyectos y rara vez inventa nombres de librerías.
En bugs complicados, a veces “hace trampa” agregando lo que llama “manejo de casos especiales” (¡busca if (id==='TEST_CASE_1') en tu código!). También desactiva ESLint o TypeScript “para acelerar”, así que mantenlos activos.
grep de “special case handling” en tu código.Gemini 2.5 ofrece una ventana de contexto de un millón de tokens (dos millones prometidos) y es gratis en muchos casos.
Es excelente para trabajo visual y rápido generando código. ¿El problema? Puede contradecir tu código real si usa APIs que cambiaron después de su entrenamiento, e incluso puede negar errores del log porque “ocurren en el futuro”.
El modelo o3 está diseñado para razonamiento avanzado: encadena herramientas, analiza código, y puede revisar suites de pruebas gigantes sin quejarse.
Es lento, costoso y requiere verificación para acceder. No es para uso diario, salvo que estés en una gran empresa o no puedas resolver un bug crítico.
o4-mini fue la sorpresa de abril. Es una versión compacta de la serie o, más rápida y diseñada para razonamiento eficiente.
Aunque sigue siendo costosa vía API, aparece en varios IDEs de forma “gratuita y limitada”. Cuando Claude falla con mocks, o4-mini reestructura los tests y encuentra el bug. La salida es breve, pero precisa.
Este «relevo» mantiene a cada modelo en su especialidad, reduce el uso de tokens y aprovecha los planes gratuitos sin llegar a los límites de uso.
La codificación con IA todavía requiere revisión humana. Todos los modelos, en algún momento:
package.json).Pruebas automatizadas, linting incremental y revisión de commits siguen siendo obligatorios. Trata a los modelos como pasantes con memoria fotográfica: son buenos para patrones, malos para asumir responsabilidad.
(Nota del autor: Ironicamente, este último párrafo fue sugerido por o3 cuando le pedí que corrigiera el texto. Me gustó tanto que lo dejé.)
La biografía más vendida del cofundador de Apple, Steve Jobs; escrita por uno de los…
Hubo un tiempo en el que la “seguridad en el hogar” significaba confiar en un…
Elon Musk vuelve a romper todos los esquemas. Los accionistas de Tesla acaban de aprobar…
Los fans de Grand Theft Auto tendrán que esperar un poco más para volver a…
Five Nights at Freddy’s: Into the Pit nos sumerge en un misterioso mundo donde lo…
Adéntrate en el oscuro y retorcido mundo de Bendy and the Ink Machine, donde los…