Whisper.cpp 1.8.0 incluye mejoras de rendimiento y nuevas opciones en el motor de reconocimiento de voz

El 30 de septiembre se publicó la versión 1.8.0 de whisper.cpp, la implementación de alto rendimiento del modelo de reconocimiento de voz Whisper de OpenAI.

El proyecto, desarrollado en C y C++ y distribuido bajo licencia MIT, utiliza la librería tensorial GGML, escrita también en C, para el cómputo eficiente en CPU y GPU.

Este proyecto se ha convertido en una referencia dentro del ecosistema de herramientas de speech-to-text por su capacidad de funcionar de forma ligera en distintos sistemas, incluso en dispositivos con recursos limitados.

Principales novedades de whisper.cpp 1.8.0

  • Flash Attention activado por defecto: la opción -fa, --flash-attn ahora está habilitada de serie, mejorando la eficiencia del procesamiento.
    Mejoras de rendimiento: optimizaciones específicas para distintas plataformas.

  • Compatibilidad en server.cpp:

  • Nuevo parámetro dtw.params para la v3-large-turbo.
  • Opción -nlp, --no-language-probabilities para desactivar el cálculo de probabilidades de idioma en el JSON detallado (reduce latencia).

Corrección de errores en GPU: solucionado un fallo al seleccionar dispositivos gráficos en sistemas con múltiples GPUs.
Mejora en scripts de descarga: se prefiere curl frente a wget.
Actualización de GGML a la última versión.
– Otros ajustes y correcciones menores.

Por qué es importante esta actualización

La versión 1.8.0 refuerza el papel de whisper.cpp como una de las implementaciones más prácticas y portables de Whisper:

  • Permite ejecutar modelos de reconocimiento de voz sin depender de Python ni librerías pesadas.
  • Está optimizado para CPU modernas, pero también aprovecha GPU cuando están disponibles.
  • Con cada versión se reduce la latencia y se amplía la compatibilidad, acercándolo a entornos de producción en tiempo real.

Con estas mejoras, whisper.cpp sigue siendo una alternativa ideal para quienes necesitan speech-to-text en local, con bajo consumo de recursos y sin depender de servicios en la nube.