Después de innumerables rumores, Meta finalmente anunció oficialmente su modelo de IA de última generación llamado Voicebox. Este modelo está diseñado para ayudar a los creadores de contenido a manejar de manera eficiente tareas relacionadas con la generación de voz, como la edición, el muestreo y la estilización de audio, incluso sin una capacitación específica.
Meta afirma con seguridad que este nuevo modelo de IA "beneficiará a muchas personas en todo el mundo", no sólo en el ámbito de la creación de contenidos. Por ejemplo, ayudar a las personas ciegas a escuchar mensajes de texto usando su voz, así como permitir que las personas hablen idiomas extranjeros con su propia voz.
Se anuncia que Voicebox es capaz de crear clips de audio de alta calidad y editar clips de audio pregrabados para eliminar interrupciones no deseadas, como bocinas de automóviles, manteniendo el mismo contenido y estilo multilingüe (produciendo voz en seis idiomas diferentes). Los desarrollos futuros planificados por Meta para el modelo incluyen proporcionar voces naturales para asistentes visuales o personajes en juegos del metaverso.
Meta también comparó Voicebox con otros modelos de IA con procesamiento de audio actualmente en el mercado, específicamente competidores clave como Vall-E y YourTTS. En general, el modelo de Meta es avanzado y supera a la competencia al comparar la tasa de error de Word y la similitud de estilo.


Voicebox se basa en Flow Matching. Este es el último modelo generativo no autorregresivo de Meta, que puede manejar un mapeo altamente no determinista entre texto y voz. Esto permite a Voicebox aprender de muchos tipos diferentes de datos de voz sin tener que etiquetarlos cuidadosamente, lo que le brinda la oportunidad de acceder a datos de entrenamiento más diversos y a gran escala. Hasta la fecha, Voicebox ha recibido capacitación en más de 50.000 horas de grabaciones de voz y transcripciones de audiolibros en inglés, francés, español, alemán, polaco y portugués.
Si bien esta tecnología podría marcar el comienzo de una nueva era de IA en el procesamiento de audio, Meta reconoce que podría introducir la posibilidad de abuso y daño no intencionado. El artículo de investigación que Meta compartió sobre Voicebox incluye detalles sobre cómo la empresa creó un clasificador altamente eficaz que puede distinguir entre voces auténticas y voces generadas por Voicebox.
Meta no pondrá el programa AI Voicebox a disposición del público, ni publicará el código fuente, al menos por ahora.