Leave a reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

A un grupo de investigadores en inteligencia artificial generativa se les ocurrió una herramienta versátil para el sonido, que permite a los usuarios controlar la salida de audio simplemente usando texto.

Una comprensión profunda del audio

Mientras que algunos modelos de IA pueden componer una canción o modificar una voz, ninguno tiene la destreza de esta nueva propuesta. Llamado Fugatto (abreviatura de Foundational Generative Audio Transformer Opus 1), este modelo genera o transforma cualquier mezcla de música, voces y sonidos descritos con indicaciones utilizando cualquier combinación de texto y archivos de audio.

Por ejemplo, puede crear un fragmento musical basado en un texto, eliminar o agregar instrumentos de una canción existente, cambiar el acento o la emoción en una voz, e incluso permitir que las personas produzcan sonidos nunca escuchados antes.

“Esto es impresionante”, dijo Ido Zmishlany, un productor y compositor multi-platino, cofundador de One Take Audio, miembro del programa NVIDIA Inception para startups innovadoras. “El sonido es mi inspiración. Es lo que me mueve a crear música. La idea de que puedo crear sonidos completamente nuevos al instante en el estudio es increíble.”

Una lista de ejemplos de casos de uso

Por ejemplo, los productores musicales podrían utilizar Fugatto para prototipar o editar rápidamente una idea para una canción, probando diferentes estilos, voces e instrumentos. También podrían agregar efectos y mejorar la calidad de audio general de una pista existente.

“La historia de la música también es una historia de tecnología. La guitarra eléctrica le dio al mundo el rock and roll. Cuando apareció el sampler, nació el hip-hop”, dijo Zmishlany. “Con la IA, estamos escribiendo el próximo capítulo de la música. Tenemos un nuevo instrumento, una nueva herramienta para hacer música, y eso es muy emocionante.”

Una agencia de publicidad podría aplicar Fugatto para adaptar rápidamente una campaña existente a múltiples regiones o situaciones, aplicando diferentes acentos y emociones a las voces en off.

Las herramientas de aprendizaje de idiomas podrían personalizarse para usar cualquier voz que un hablante elija. Imagina un curso en línea hablado con la voz de algún familiar o amigo.

Los desarrolladores de videojuegos podrían utilizar el modelo para modificar activos pregrabados en su título para adaptarse a la acción cambiante mientras los usuarios juegan, o crear nuevos activos al instante a partir de instrucciones de texto y entradas de audio opcionales.

Generando un ruido alegre

“Una de las capacidades del modelo de las que estamos especialmente orgullosos es lo que llamamos la silla de aguacate,” dijo Valle, refiriéndose a un concepto visual creado por un modelo de IA generativa para la imagen.

Por ejemplo, Fugatto puede hacer que una trompeta ladre o un saxofón maúlle. Cualquier cosa que los usuarios puedan describir, el modelo puede crear.

Con un ajuste fino y pequeñas cantidades de datos de canto, los investigadores encontraron que podía manejar tareas para las que no fue preentrenado, como generar una voz cantando de alta calidad a partir de un texto.

Los usuarios obtienen controles artísticos

Varias características añaden novedad a Fugatto. Durante la inferencia, el modelo utiliza una técnica llamada ComposableART para combinar instrucciones que solo se vieron por separado durante el entrenamiento. Por ejemplo, una combinación de indicaciones podría solicitar un texto hablado con un sentimiento triste en un acento francés.

La capacidad del modelo para interpolar entre instrucciones proporciona a los usuarios un control específico sobre las indicaciones textuales, en este caso, el peso del acento o el grado de tristeza.

“Quería permitir a los usuarios combinar atributos de una manera subjetiva o artística, eligiendo cuánto énfasis ponen en cada uno”, dijo Rohan Badlani, un investigador en IA que diseñó estos aspectos del modelo.

“En mis pruebas, los resultados eran a menudo sorprendentes y me hacían sentir un poco como un artista, a pesar de que soy un científico de la computación”, dijo Badlani, quien tiene una maestría en ciencias de la computación con un enfoque en IA de Stanford.

El modelo también genera sonidos que cambian con el tiempo, característica que él llama interpolación temporal. Puede, por ejemplo, crear los sonidos de una tormenta de lluvia moviéndose a través de un área con crescendos de truenos que disminuyen lentamente en la distancia. También ofrece a los usuarios un control detallado sobre cómo evoluciona el paisaje sonoro.

Además, a diferencia de la mayoría de los modelos, que solo pueden recrear los datos de entrenamiento que han visto, Fugatto permite a los usuarios crear paisajes sonoros que nunca ha visto antes, como una tormenta que se desvanece en un amanecer con el canto de los pájaros.

Un vistazo detrás de la cortina

Fugatto es un modelo de transformador generativo fundamental que se basa en el trabajo previo del equipo en áreas como modelado de voz, vocoder de audio y comprensión del audio.

La versión completa utiliza 2.5 mil millones de parámetros y fue entrenada en un banco de sistemas NVIDIA DGX que contienen 32 NVIDIA H100 Tensor Core GPUs.

Fugatto fue creado por un grupo diverso de personas de todo el mundo, incluyendo India, Brasil, China, Jordania y Corea del Sur. Su colaboración fortaleció las capacidades multilingües y multi-acento de Fugatto.

Una de las partes más difíciles del esfuerzo fue generar un conjunto de datos mezclados que contenga millones de muestras de audio utilizadas para el entrenamiento. El equipo empleó una estrategia multifacética para generar datos e instrucciones que ampliaron considerablemente el rango de tareas que el modelo podía realizar, logrando un rendimiento más preciso y habilitando nuevas tareas sin requerir datos adicionales.

También examinaron conjuntos de datos existentes para revelar nuevas relaciones entre los datos. El trabajo general abarcó más de un año.

Valle recuerda dos momentos en los que el equipo supo que estaba a punto de lograr algo. “La primera vez que generó música a partir de un aviso, nos dejó impresionados”, dijo.

Más tarde, el equipo demostró cómo Fugatto respondía a una solicitud de crear música electrónica con perros ladrando al ritmo de la canción.

“Cuando el grupo estalló en risas, realmente me conmovió.”

Escucha lo que Fugatto puede hacer:

- A word from our sposor -

spot_img

Fugatto, la máquina de sonido más flexible del mundo, hace su debut