El Modelo de Razonamiento Hunyuan T1 de Tencent iguala las Capacidades de o1 de OpenAI en los Benchmarks

Tencent afirma que su nuevo modelo Hunyuan-T1 puede competir de igual a igual con los mejores sistemas de razonamiento de OpenAI.

Siguiendo el enfoque utilizado para todos los grandes modelos de razonamiento, Tencent se centró principalmente en el aprendizaje por refuerzo durante el desarrollo, con un 96.7% de la potencia de cálculo post-entrenamiento enfocada en mejorar el razonamiento lógico y la alineación con las preferencias humanas.

Desempeño en benchmarks

En MMLU-PRO, que evalúa conocimientos en 14 áreas temáticas, Hunyuan-T1 obtuvo 87.2 puntos, quedando en segundo lugar detrás del o1 de OpenAI. En el test de razonamiento científico GPQA-diamond, alcanzó 69.3 puntos.

Tencent destaca que el modelo sobresale particularmente en matemáticas, obteniendo 96.2 puntos en el benchmark MATH-500, solo por debajo de Deepseek-R1.

Otros buenos desempeños incluyen LiveCodeBench (64.9 puntos) y ArenaHard (91.9 puntos).

Arquitectura y entrenamiento del modelo

Para el entrenamiento, Tencent implementó un enfoque de aprendizaje por currículo, aumentando gradualmente la dificultad de las tareas. Además, desarrollaron un sistema de auto-recompensa, en el que las versiones anteriores del modelo evaluaban los resultados de las versiones más nuevas para impulsar mejoras.

El modelo utiliza la arquitectura Transformer Mamba, que, según Tencent, procesa textos largos dos veces más rápido que los modelos convencionales bajo condiciones similares.

Hunyuan-T1 está disponible a través de Tencent Cloud, con una demostración disponible en Hugging Face.

Competencia en el mercado de IA

Este lanzamiento sigue a la reciente introducción de modelos de nivel o1 por parte de Baidu y Alibaba. Las tres empresas, Alibaba, Baidu y Deepseek, están persiguiendo estrategias de código abierto.

El inversor de IA y exjefe de Google China Kai-Fu Lee describe estos desarrollos como una amenaza existencial para OpenAI.

Más allá de los benchmarks: un vistazo a los desafíos reales

A medida que los modelos líderes superan regularmente el 90% de precisión en pruebas estándar, Google DeepMind ha introducido un benchmark más desafiante llamado BIG-Bench Extra Hard (BBEH).

Incluso los mejores modelos tienen dificultades con esta nueva prueba: el o3-mini de OpenAI logró solo un 44.8% de precisión.

El resultado más sorprendente fue el de Deepseek-R1, que a pesar de su buen desempeño en otros benchmarks, obtuvo solo alrededor del 7% en este nuevo test.

Esta disparidad muestra que los resultados de los benchmarks no siempre cuentan toda la historia y rara vez reflejan el rendimiento en el mundo real, especialmente porque algunos equipos de modelos optimizan específicamente para estas pruebas.

Además, algunos modelos chinos enfrentan problemas específicos, como insertar caracteres chinos en respuestas en inglés.