Microsoft se ha unido al grupo de compañías que tiene entre manos un clonador de voces capaz de convertir texto en audio, e imitar con gran fidelidad la entonación humana. Si bien esa tecnología es eficaz, la empresa estadounidense decidió no lanzarla a nivel general debido a su peligrosidad. ¿Qué riesgos se asocian a ese tipo de sistemas? ¿Cuán grande es la preocupación del desarrollador para interrumpir el despliegue de un modelo innovador y poderoso?
Microsoft VALL-E 2: ¿qué es y cuáles son sus habilidades?
Aquel es el nombre que Microsoft le dio a su inteligencia artificial que clona voces humanas. ¿Cómo se usa, en la práctica? El sistema trabaja a partir de texto escrito, que luego convierte en audio. Para imitar el habla de una persona en particular, solamente precisa pocos segundos de grabación. Con esa base, puede generar frases cortas y oraciones largas, con la habilidad para insertar variaciones y sonar más natural en comparación con otros modelos.
Evolución de una versión presentada a comienzos del año pasado, VALL-E 2 puede producir “voces precisas y naturales con la voz exacta del hablante original, comparable al desempeño humano”, explican sus desarrolladores. En ese sentido, la tecnológica con sede central en Redmond asegura que VALL-E 2 es el primero de su tipo en lograr la “paridad” con el habla original.
¿Por qué Microsoft no lanza a VALL-E?
Tan realistas y convincentes son los resultados del clonador de voces que Microsoft se niega a un lanzamiento, al menos en esta instancia. ¿En qué se basa esta decisión? Citan “riesgos potenciales” asociados a los usos indebidos. Según comentaron, en este momento es considerado “puramente un proyecto de investigación”.
“Actualmente, no tenemos planes de incorporar VALL-E 2 a un producto o ampliar el acceso al público (…) Puede conllevar riesgos potenciales en el mal uso del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico”, señalaron desde Microsoft e informaron que las sospechas de abuso de la herramienta pueden ser denunciadas a través de una plataforma en línea.
En concreto, las preocupaciones apuntan a una serie de usos non sanctos que podrían tener este tipo de clonadores. Una de las problemáticas se vincula a las falsificaciones profundas (deepfakes), a la difamación y a la desinformación. Ocurre que con sistemas como VALL-E es posible engañar a terceros haciéndoles creer que un audio proviene de una fuente confiable. Por mencionar un caso, hace algunos meses ciudadanos estadounidenses recibieron llamadas con la supuesta voz del presidente de aquel país, Joe Biden, incitándonos a abstenerse de votar en las elecciones primarias.
Por otra parte, los clonadores de voz expanden los riesgos en el ámbito de la seguridad informática. Esas tecnologías basadas en IA han propiciado lo que se conoce como “vishing”, un término que combina “voz” y “phishing” o suplantación de identidad. Básicamente, cibercriminales pueden usar clonadores para hacerse pasar por personas de confianza y así concretar sus ataques.
Otras tecnológicas, entre ellas ByteDace —dueño de TikTok— y Meta —patrón de Facebook e Instagram— también desarrollan clonadores de voces. OpenAI, célebres por su chatbot ChatGPT, tiene su propio generador de voces con IA denominado Voice Engine. Igual que Microsoft, esas tres firmas han decidido mantener bajo llave a sus desarrollos, en todos los casos citando los problemas y riesgos potenciales.