VALL-E, la IA de Microsoft que imita tu voz, mejora y ahora te convierte en políglota
- Esta inteligencia artificial es una red neuronal que replica la voz de una persona con una muestra de audio de tres segundos.
- Qué es PaLM-E: el modelo de IA de Google que puede funcionar como cerebro para un robot.
La inteligencia artificial (IA) es la tecnología más poderosa de la actualidad, y con la llegada de ChatGPT, las Big Tech están cambiando los servicios que ofrecen a los usuarios en sus motores de búsqueda. Google, Safari o Edge no son los únicos afectados, debido a que los actores de doblaje son los próximos sujetos que se verán perjudicados por los avances de la IA respecto a la tecnología de texto a voz.
Hace unos meses, Apple lanzó una suite de audiolibros narrados por IA, y recientemente, el modelo VALL-E de Microsoft ha generado un habla muy realista con una gran variedad de idiomas para pasar de texto a voz, y viceversa.
Dicho avance es una red neuronal, está basado en la arquitectura Transformer para procesar el lenguaje natural de forma sencilla, puede replicar la voz de un usuario a la perfección con una muestra de audio de tres segundos y utiliza un modelo de lenguaje de códec natural.
Por otro lado, esta IA es capaz de traducir la voz de una persona a idiomas extranjeros, expresar emociones y representar tonos como si fuese indivudio.
La inteligencia artificial aún no está disponible, pero la demo compartida por Microsoft muestra cómo su IA traduce idiomas a partir de diversas muestras de texto, voz, acentos y emociones.
Dicha demo señala que "los resultados experimentales demuestran que puede generar habla de alta calidad en el idioma de destino a partir de un único enunciado en el idioma de origen, conservando la voz, la emoción y el entorno acústico del hablante invisible. Proponemos un modelo de lenguaje de códec neuronal multilingüe, VALL-E X, para la síntesis de voz multilingüe. Específicamente, ampliamos VALL-E y esta novedad alivia eficazmente los problemas de acento extranjero, que pueden controlarse mediante una identificación de idioma".
¿Hay un lado negativo?
Los autores afirman que "dado que VALL-E X puede sintetizar habla que mantiene la identidad del hablante, puede conllevar riesgos potenciales en el uso indebido del modelo, como la suplantación de la identificación de la voz o la suplantación de un hablante específico”.
"Realizamos los experimentos bajo el supuesto de que el usuario acepta ser el hablante objetivo en la síntesis del habla. Si el modelo se generaliza a hablantes no identificados en el mundo real, debería incluir un protocolo que garantice que el hablante aprueba el uso de su voz y de un modelo de detección de voz sintetizada", concluyen.
Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.