Nueva y desafiante prueba de AGI deja perplejos a la Mayoría de los Modelos de IA | Novedades IA

La Fundación Arc Prize, una organización sin ánimo de lucro cofundada por el destacado investigador de IA François Chollet, anunció en una publicación de blog el lunes que ha creado una nueva y desafiante prueba para medir la inteligencia general de los modelos de IA más avanzados.

Hasta ahora, la nueva prueba, llamada ARC-AGI-2, ha desconcertado a la mayoría de los modelos.

Desempeño de los modelos de IA en ARC-AGI-2

Modelos de IA que se basan en el “razonamiento”, como o1-pro de OpenAI y R1 de DeepSeek, han obtenido entre un 1% y un 1.3% en ARC-AGI-2, según el tablero de clasificación de Arc Prize.

Modelos poderosos que no se centran en el razonamiento, como GPT-4.5, Claude 3.7 Sonnet y Gemini 2.0 Flash, obtienen alrededor del 1%.

¿Qué es ARC-AGI-2?

Los tests de ARC-AGI consisten en problemas similares a rompecabezas en los que una IA debe identificar patrones visuales a partir de una colección de cuadrados de colores diferentes y generar la cuadrícula “correcta” como respuesta.

Los problemas están diseñados para forzar a la IA a adaptarse a nuevos problemas que no ha visto antes.

La Fundación Arc Prize hizo que más de 400 personas tomaran el ARC-AGI-2 para establecer una línea base humana. De media, los “paneles” de estas personas acertaron el 60% de las preguntas del test, mucho mejor que las puntuaciones de los modelos de IA.

Mejorando las métricas de inteligencia de la IA

En una publicación en X, Chollet afirmó que ARC-AGI-2 es una mejor medida de la inteligencia real de un modelo de IA que la primera iteración del test, ARC-AGI-1.

Las pruebas de la Fundación Arc Prize están orientadas a evaluar si un sistema de IA puede adquirir nuevas habilidades fuera de los datos con los que fue entrenado.

Chollet dijo que, a diferencia de ARC-AGI-1, el nuevo test impide que los modelos de IA dependan de la “fuerza bruta” —potencia computacional extensa— para encontrar soluciones. Chollet reconoció anteriormente que esta era una gran falla de ARC-AGI-1.

Eficiencia como nuevo parámetro

Para abordar los fallos del primer test, ARC-AGI-2 introduce una nueva métrica: la eficiencia. También requiere que los modelos interpreten patrones en tiempo real en lugar de depender de la memorización.

“La inteligencia no se define únicamente por la capacidad de resolver problemas o lograr altas puntuaciones”, escribió Greg Kamradt, cofundador de la Fundación Arc Prize, en una publicación de blog.

“La eficiencia con la que esas capacidades se adquieren y se aplican es un componente crucial y definitorio. La pregunta central no es solo: ‘¿Puede la IA adquirir la habilidad para resolver una tarea?’ sino también, ‘¿Con qué eficiencia o costo?’”

Los desafíos de ARC-AGI-1 y el rendimiento de o3

ARC-AGI-1 permaneció invicto durante aproximadamente cinco años hasta diciembre de 2024, cuando OpenAI lanzó su modelo de razonamiento avanzado, o3, que superó a todos los demás modelos de IA y alcanzó el rendimiento humano en la evaluación.

Aunque como se señaló en ese momento, los avances en el rendimiento de o3 en ARC-AGI-1 vinieron con un precio elevado.

La versión del modelo o3 de OpenAI —o3 (bajo)— que fue la primera en alcanzar nuevas alturas en ARC-AGI-1, obteniendo un 75.7% en la prueba, logró solo un 4% en ARC-AGI-2 utilizando $200 en poder computacional por tarea.

Llamado a la innovación con nuevos benchmarks

La llegada de ARC-AGI-2 coincide con un creciente llamado en la industria tecnológica a la creación de nuevos benchmarks para medir el progreso de la IA.

El cofundador de Hugging Face, Thomas Wolf, comentó recientemente a TechCrunch que la industria de la IA carece de suficientes pruebas para medir las características clave de la inteligencia general artificial, incluida la creatividad.

Un nuevo reto: Arc Prize 2025

Junto con el nuevo benchmark, la Fundación Arc Prize anunció el concurso Arc Prize 2025, que desafía a los desarrolladores a alcanzar una precisión del 85% en el test ARC-AGI-2, mientras gastan solo $0.42 por tarea.

¡Listo! Espero que el formato sea justo lo que necesitas.