Microsoft lanza VALL-E, una IA como ChatGPT que imita tu voz con solo oírte 3 segundos

Totus Noticias
3 Min Lectura
  • La compañía de Redmond está apostando fuerte por la inteligencia artificial y aseguran que esta solución «supera significativamente» a lo que existe hasta ahora «en términos de naturalidad del habla y similitud del hablante».
  • Nadie usa Bing, así que Microsoft va a integrar ChatGPT en el buscador para atraer usuarios.

Los diferentes sistemas de inteligencia artificial florecen últimamente y Microsoft no quiere quedarse atrás. Así, el gigante tecnológico de Redmond ha presentado VALL-E, una IA capaz de reproducir tu voz de forma casi idéntica tras solo escucharte hablar durante tres segundos. E incluso puede imitar emociones, ambiente acústico y diferentes énfasis en las frases.

Microsoft ha desarrollado su enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS por sus siglas en inglés, text to speech). Y aseguran, como decimos, que “VALL-E emerge capacidades de aprendizaje en contexto y se puede utilizar para sintetizar voz personalizada de alta calidad con solo una grabación registrada de 3 segundos de un hablante”.

“Específicamente, entrenamos un modelo de lenguaje de códec neuronal utilizando códigos discretos derivados de un modelo de códec de audio neuronal listo para usar, y consideramos TTS como una tarea de modelado de lenguaje condicional en lugar de una regresión de señal continua como en el trabajo anterior. Durante la etapa previa al entrenamiento, escalamos los datos de entrenamiento de TTS a 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes”, explican.

Además, desde Microsoft están desarrollando VALL-E para que funcione con otros modelos de IA generativa, como GPT-3. Recordemos que la compañía dirigida por Satya Nadella acaba de anunciar que va a implementar ChatGPT dentro de sus principales soluciones, específicamente dijeron que llegará a Bing en el primer trimestre de este mismo año.

Es decir: la propia ChatGPT sería capaz de ofrecernos resultados de voz una vez haya integrado este modelo.

En cuanto a la competencia, dicen desde Microsoft que “los resultados del experimento muestran que VALL-E supera significativamente al sistema de TTS de disparo cero de última generación en términos de naturalidad del habla y similitud del hablante”. “Además, encontramos que VALL-E podría preservar la emoción del hablante y el entorno acústico del mensaje acústico en síntesis”, añaden.

Esto significa que, según la compañía -y según se puede comprobar en la plataforma que han desplegado para mostrar sus avances, en la que se incluye cómo se escucha VALL-E y otras soluciones-, esta IA ha mejorado lo presente en lo que a imitar voces se refiere.

Fuente: 20bits

Cuadro de comentarios de Facebook
Comparte este artículo