Codec de audio impulsado por Inteligencia Artificial promete una compresión 10 veces mayor que la del MP3

La semana pasada, Meta anunció un método de compresión de audio impulsado por Inteligencia Artificial llamado «EnCodec» qu, según se informa, puede comprimir audio 10 veces más pequeño que el formato MP3 a 64 kbps sin pérdida de calidad.

Meta dice que esta técnica podría mejorar drásticamente la calidad del sonido del habla en conexiones de bajo ancho de banda, como las llamadas telefónicas.

Meta presentó la tecnología el 25 de octubre en un artículo titulado «Compresión de audio neuronal de alta fidelidad» escrito por los investigadores de Meta AI: Alexandre Défossez , Jade Copet, Gabriel Synnaeve y Yossi Adi.

15 Mejores Editores de Audio Gratuitos

Meta también resumió la investigación en su blog dedicado a EnCodec así:

Meta describe su método como un sistema de tres partes entrenado para comprimir audio a un tamaño objetivo deseado. En primer lugar, el codificador transforma los datos sin comprimir en una representación de «espacio latente» de velocidad de fotogramas más baja.

El «cuantificador» luego comprime la representación al tamaño objetivo mientras realiza un seguimiento de la información más importante que luego se usará para reconstruir la señal original.

5 Mejores Aplicaciones para Configurar TU Micrófono en la PC

Finalmente, el decodificador vuelve a convertir los datos comprimidos en audio en tiempo real utilizando una red neuronal en una sola CPU.

El uso de discriminadores por parte de Meta resulta clave para crear un método para comprimir el audio tanto como sea posible sin perder elementos clave de una señal que la hacen distintiva y reconocible:

Vale la pena señalar que el uso de una red neuronal para la compresión y descompresión de audio está lejos de ser nuevo, especialmente para la compresión de voz, pero los investigadores de Meta afirman que son el primer grupo en aplicar la tecnología a audio estéreo de 48 kHz (ligeramente mejor que la frecuencia de muestreo de 44,1 kHz de CD) que es típico de los archivos de música distribuidos en Internet.

Lanzan Audacity 3.0: Con un formato mejorado para tud proyectos de audio

En cuanto a las aplicaciones, Meta dice que esta «hipercompresión de audio» impulsada por IA podría admitir «llamadas más rápidas y de mejor calidad» en malas condiciones de red.

Por supuesto, siendo Meta, los investigadores también mencionan las implicaciones del metaverso de EnCodec diciendo que la tecnología eventualmente podría ofrecer «experiencias ricas en el metaverso sin requerir mejoras importantes en el ancho de banda».

Más allá de eso, tal vez también obtengamos archivos de audio de música realmente pequeños algún día.

Por ahora, la nueva tecnología de Meta permanece en la fase de investigación, pero apunta hacia un futuro donde el audio de alta calidad puede usar menos ancho de banda, lo que sería una gran noticia para los proveedores de banda ancha móvil con redes sobrecargadas de transmisión.

Descubre más desde CIBERED

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Artículos Relacionados

Descubre más desde CIBERED

Deja un comentario