La nueva herramienta Voicebox está llamando la atención por una promesa bastante potente: clonar voces en local, sin nube, sin cuentas y sin límites de uso. A diferencia de servicios comerciales como ElevenLabs, todo el procesamiento se realiza directamente en tu ordenador.
Esto significa que el audio nunca sale de tu dispositivo.
Cómo funciona Voicebox
El flujo de uso es muy simple:
- Instalas la app (Windows, macOS o Docker)
- Importas una muestra de voz (incluso de 3 segundos)
- Generas una voz clonada al instante
No hay:
- Registro
- API keys
- Créditos
- Límites de uso
Todo funciona de forma local, lo que lo convierte en una opción atractiva para quienes priorizan privacidad.
ENLACE VOICEBOX DEL PROYECTO EN GITHUB
Múltiples motores de síntesis de voz
Uno de los puntos fuertes de Voicebox es que no depende de un solo modelo de TTS.
Incluye varios motores especializados:
Qwen3-TTS
- Soporta 10 idiomas
- Permite instrucciones naturales como “habla lento” o “susurra”
Chatterbox Multilingual
- 23 idiomas
- Incluye idiomas complejos como árabe o suajili
LuxTTS
- Extremadamente ligero
- Funciona con solo 1GB de VRAM
- Hasta 150x más rápido que tiempo real
Chatterbox Turbo
- Añade expresividad con etiquetas como:
- [risa]
- [suspiro]
- [jadeo]
👉 Esta combinación hace que Voicebox sea más flexible que muchas herramientas de pago.
Diseñado para desarrolladores
Voicebox no es solo una app visual: también incluye herramientas avanzadas.
API local integrada
Disponible en:
localhost:17493
Permite:
- Automatizar generación de voz
- Crear pipelines de audio
- Integrarlo con herramientas como FFmpeg
Esto lo convierte en una opción potente para proyectos de IA de audio.
Edición de audio y efectos avanzados
La app también funciona como un pequeño estudio de producción.
Efectos incluidos
Basados en la librería Pedalboard de Spotify:
- Reverb
- Delay
- Chorus
- Compresión
- Pitch shifting
Además puedes:
- Guardar presets
- Aplicar efectos por perfil de voz
Editor multipista
Voicebox incluye una línea de tiempo donde puedes:
- Mezclar varias voces
- Crear diálogos
- Producir narraciones completas
Esto lo acerca más a un software de producción que a un simple TTS.
Rendimiento y hardware
La app está optimizada para rendimiento:
- Escrita en Rust
- Usa Tauri (más ligero que Electron)
- Soporte para aceleración hardware:
- Apple Silicon (Neural Engine)
- CUDA (NVIDIA)
- ROCm (AMD)
- DirectML (Windows)
Instalación y limitaciones
Aunque es potente, todavía es un proyecto joven:
- No hay binarios precompilados para Linux
- Requiere más espacio por los múltiples modelos
- La instalación puede variar según el motor
En Windows y macOS, sin embargo, la experiencia es bastante directa.
Alternativa local a herramientas en la nube
Voicebox se posiciona como una alternativa local a herramientas cloud de voz como ElevenLabs.
Su ventaja principal:
👉 todo ocurre en tu ordenador
Sin embargo, también implica:
- Mayor consumo de recursos
- Configuración más técnica en algunos casos
