Meta presenta Voicebox, un modelo de IA generativa para la generación de voz

Meta presenta Voicebox, un modelo de IA generativa para la generación de voz
El despliegue de modelos de IA generativa para tareas relacionadas con el habla por parte de Meta, el gigante tecnológico, es realmente un avance apasionante. Voicebox, la herramienta recientemente presentada, ofrece una gama de capacidades que pueden ayudar enormemente a los creadores de contenido, ayudar a las personas con discapacidad visual a acceder a mensajes escritos a través de audio e incluso permitir a las personas comunicarse en idiomas extranjeros.
Según Meta, Voicebox representa un avance significativo en la IA generativa para el habla. Afirma que el modelo puede generalizarse a tareas de generación de voz para las que no fue entrenado específicamente, y al mismo tiempo lograr un rendimiento de última generación. A diferencia de los modelos tradicionales de IA generativa que producen imágenes a partir de indicaciones de texto, Voicebox se centra en generar clips de audio de alta calidad.
Actualmente, Voicebox admite el procesamiento de voz en seis idiomas y puede realizar diversas tareas, incluida la eliminación de ruido, edición de contenido, generación de muestras diversas y conversión de estilos. Su versatilidad le permite adaptarse a diferentes requisitos relacionados con el habla.
Meta también destaca el potencial de los modelos de IA generativa multipropósito como Voicebox para representar voces con sonido natural para asistentes virtuales y personajes no jugadores (NPC) dentro del metaverso. Voicebox incorpora síntesis de texto a voz en contexto, lo que le permite igualar el estilo de audio basándose en muestras de audio breves de tan solo dos segundos.
Una característica particularmente impresionante de Voicebox es su capacidad para recrear segmentos de habla interrumpidos causados ​​por ruido o reemplazar palabras mal pronunciadas sin necesidad de volver a grabar el discurso. Además, el modelo puede generar voz en francés, español, inglés, alemán, polaco y portugués basándose en la muestra de voz de una persona, lo que muestra sus capacidades de transferencia de estilo entre idiomas. Esta funcionalidad multilingüe promete facilitar una comunicación natural y auténtica entre personas que hablan diferentes idiomas.
En resumen, Voicebox de Meta representa un avance significativo en la IA generativa para el habla. Su amplia gama de capacidades, que incluyen edición de audio, muestreo, estilo y transferencia de estilos entre idiomas, tiene el potencial de revolucionar la creación de contenido, la accesibilidad para personas con discapacidad visual y la comunicación multilingüe en el futuro.
Fuente: Meta