Voicebox, una App Open Source que Clona Voces en local sin Límites

La nueva herramienta Voicebox está llamando la atención por una promesa bastante potente: clonar voces en local, sin nube, sin cuentas y sin límites de uso. A diferencia de servicios comerciales como ElevenLabs, todo el procesamiento se realiza directamente en tu ordenador.

Esto significa que el audio nunca sale de tu dispositivo.

Cómo funciona Voicebox

El flujo de uso es muy simple:

  • Instalas la app (Windows, macOS o Docker)
  • Importas una muestra de voz (incluso de 3 segundos)
  • Generas una voz clonada al instante

No hay:

  • Registro
  • API keys
  • Créditos
  • Límites de uso

Todo funciona de forma local, lo que lo convierte en una opción atractiva para quienes priorizan privacidad.

ENLACE VOICEBOX DEL PROYECTO EN GITHUB

Múltiples motores de síntesis de voz

Uno de los puntos fuertes de Voicebox es que no depende de un solo modelo de TTS.

Incluye varios motores especializados:

Qwen3-TTS

  • Soporta 10 idiomas
  • Permite instrucciones naturales como “habla lento” o “susurra”

Chatterbox Multilingual

  • 23 idiomas
  • Incluye idiomas complejos como árabe o suajili

LuxTTS

  • Extremadamente ligero
  • Funciona con solo 1GB de VRAM
  • Hasta 150x más rápido que tiempo real

Chatterbox Turbo

  • Añade expresividad con etiquetas como:
    • [risa]
    • [suspiro]
    • [jadeo]

👉 Esta combinación hace que Voicebox sea más flexible que muchas herramientas de pago.

Diseñado para desarrolladores

Voicebox no es solo una app visual: también incluye herramientas avanzadas.

API local integrada

Disponible en:

localhost:17493

Permite:

  • Automatizar generación de voz
  • Crear pipelines de audio
  • Integrarlo con herramientas como FFmpeg

Esto lo convierte en una opción potente para proyectos de IA de audio.

Edición de audio y efectos avanzados

La app también funciona como un pequeño estudio de producción.

Efectos incluidos

Basados en la librería Pedalboard de Spotify:

  • Reverb
  • Delay
  • Chorus
  • Compresión
  • Pitch shifting

Además puedes:

  • Guardar presets
  • Aplicar efectos por perfil de voz

Editor multipista

Voicebox incluye una línea de tiempo donde puedes:

  • Mezclar varias voces
  • Crear diálogos
  • Producir narraciones completas

Esto lo acerca más a un software de producción que a un simple TTS.

Rendimiento y hardware

La app está optimizada para rendimiento:

  • Escrita en Rust
  • Usa Tauri (más ligero que Electron)
  • Soporte para aceleración hardware:
    • Apple Silicon (Neural Engine)
    • CUDA (NVIDIA)
    • ROCm (AMD)
    • DirectML (Windows)

Instalación y limitaciones

Aunque es potente, todavía es un proyecto joven:

  • No hay binarios precompilados para Linux
  • Requiere más espacio por los múltiples modelos
  • La instalación puede variar según el motor

En Windows y macOS, sin embargo, la experiencia es bastante directa.

Alternativa local a herramientas en la nube

Voicebox se posiciona como una alternativa local a herramientas cloud de voz como ElevenLabs.

Su ventaja principal:

👉 todo ocurre en tu ordenador

Sin embargo, también implica:

  • Mayor consumo de recursos
  • Configuración más técnica en algunos casos
Vistas: 8