El 30 de septiembre se publicó la versión 1.8.0 de whisper.cpp, la implementación de alto rendimiento del modelo de reconocimiento de voz Whisper de OpenAI.
El proyecto, desarrollado en C y C++ y distribuido bajo licencia MIT, utiliza la librería tensorial GGML, escrita también en C, para el cómputo eficiente en CPU y GPU.
Este proyecto se ha convertido en una referencia dentro del ecosistema de herramientas de speech-to-text por su capacidad de funcionar de forma ligera en distintos sistemas, incluso en dispositivos con recursos limitados.
Principales novedades de whisper.cpp 1.8.0
- Flash Attention activado por defecto: la opción
-fa, --flash-attnahora está habilitada de serie, mejorando la eficiencia del procesamiento.
–Mejoras de rendimiento: optimizaciones específicas para distintas plataformas. - Compatibilidad en server.cpp:
- Nuevo parámetro
dtw.paramspara la v3-large-turbo. - Opción
-nlp, --no-language-probabilitiespara desactivar el cálculo de probabilidades de idioma en el JSON detallado (reduce latencia).
–Corrección de errores en GPU: solucionado un fallo al seleccionar dispositivos gráficos en sistemas con múltiples GPUs.
– Mejora en scripts de descarga: se prefiere curl frente a wget.
– Actualización de GGML a la última versión.
– Otros ajustes y correcciones menores.
Por qué es importante esta actualización
La versión 1.8.0 refuerza el papel de whisper.cpp como una de las implementaciones más prácticas y portables de Whisper:
- Permite ejecutar modelos de reconocimiento de voz sin depender de Python ni librerías pesadas.
- Está optimizado para CPU modernas, pero también aprovecha GPU cuando están disponibles.
- Con cada versión se reduce la latencia y se amplía la compatibilidad, acercándolo a entornos de producción en tiempo real.
Con estas mejoras, whisper.cpp sigue siendo una alternativa ideal para quienes necesitan speech-to-text en local, con bajo consumo de recursos y sin depender de servicios en la nube.