Nueva tecnología de Microsoft apunta a la Inteligencia Artificial

Microsoft está apostando fuerte por GPT-3, la inteligencia artificial diseñada por OpenAI, para varias de sus aplicaciones y servicios, como Bing o Word.

La compañía, sin embargo, también se encuentra desarrollando modelos propios. Prueba de ello es VALL-E, una IA capaz de imitar la voz de cualquier persona con tan solo escuchar tres segundos de audio.

VALL-E, en concreto, es un modelo de lenguaje para la síntesis de texto a voz (TTS) basado en EnCodec, el códec de audio de Meta, y es muy similar a otras IA que permiten generar audios a través de una breve descripción de texto.

VALL-E es capaz de analizar la voz de una persona, para posteriormente interpretar cómo sonaría esa voz con diferentes frases. Todo ello, además, preservando la entonación y la emoción del hablante, afirma la compañía. Y puede lograr grandes resultados con solo tres segundos de voz.

Leer también: Globos de Oro 2023: los ganadores de los premios del cine y televisión

Nueva tecnología de Microsoft imita la voz de ChatGPT

La nueva IA de Microsoft es capaz de replicar la voz de cualquier persona, además, puede usarse con otros modelos de IA generativa. Entre ellos, GPT-3. De este modo, los usuarios, por ejemplo, podrían pedirle a ChatGPT que imite la voz de un individuo específico.

El objetivo, por tanto, es poder crear discursos de voz a través de una introducción de texto. Esto, sin embargo, trae consigo un inconveniente importante. Si finalmente VALL-E está disponible para el público, muchos podrían utilizarla para suplantar la identidad de las personas. Microsoft, en este caso, detalla que “es posible construir un modelo de detección para discriminar si un clip de audio ha sido sintetizado por VALL-E”.

VALL-E es solo un ejemplo más de lo que planea hacer Microsoft con la inteligencia artificial en un futuro próximo.

Con información de: VN