El peligro real de los ‘deepfakes’ de clonación de voz y cómo detectarlos

Autor: Juan Ignacio Rouyet University Lecturer, UNIR – Universidad Internacional de La Rioja Uno de los usos tecnológicos más llamativos de las películas de Misión Imposible es el cambiador de voz. Ethan Hunt (Tom Cruise) se pone una máscara...

28 de noviembre, 2023

Autor: Juan Ignacio Rouyet University Lecturer, UNIR – Universidad Internacional de La Rioja

Uno de los usos tecnológicos más llamativos de las películas de Misión Imposible es el cambiador de voz. Ethan Hunt (Tom Cruise) se pone una máscara con la cara de la víctima, habla de forma natural con la voz del suplantado y así se hace pasar por él. Cada vez estamos más cerca de esto gracias a la inteligencia artificial (IA); al menos en lo que respecta a copiar la voz. Hay una diferencia. No siempre copiamos la voz con el noble objetivo de luchar contra el mal, como en las películas. A veces es para engañar de viva voz. Son las deepfake de clonación de voz.

La clonación de la voz con fines delictivos viene sucediendo desde hace unos años. Últimamente es más preocupante porque cada vez resulta más fácil y lo cierto es que nadie está a salvo.

Uno de los primeros casos relevantes de deepfake de clonación de voz sucedió en 2020. El damnificado fue el director de una sucursal de una empresa japonesa en Hong Kong. Recibió una llamada telefónica de quien decía ser el director de la compañía. Aparentemente, todo era normal. El director de la sucursal reconoció la voz de su responsable, y por ello no tuvo reparo en seguir todas las instrucciones que le dio. Así transfirió 35 millones de dólares a los estafadores.

Eso ocurrió hace tres años. Ahora es más frecuente. En la primavera de este año, el inversor de Florida Clive Kabatznik fue víctima de un intento similar. En Canadá unos abuelos recibieron una llamada supuestamente de su nieto. Les alarmaba de que estaba en la cárcel y necesitaba efectivo para pagar la fianza. Afortunadamente, en ambos casos los intentos fueron detectados y no se pudo consumar la estafa. Pero el riesgo existe porque la tecnología está al alcance de la mano.

Con tres segundos es suficiente para clonar

Actualmente la clonación de voz no es exactamente como en Misión Imposible. No se transforma la voz de una persona en la de otra, sino que se lee un texto con la voz de una persona particular. Es lo que se conoce como síntesis de texto a discurso (test-to-speech o TTS). Su funcionamiento se basa en identificar patrones de voz. Todos hablamos de una forma particular, y por ello reconocemos las voces de cada persona. Tenemos un cierto tono, un timbre y una cadencia particular. En la clonación de la voz se utilizan redes neuronales entrenadas para reconocer estos patrones identificativos de cada voz y luego reproducirlos en la lectura de cualquier texto.

Un ejemplo significativo de IA de clonado de voz es VALL-E, de Microsoft. Su red neuronal ha sido entrenada con más de 60 000 horas de audio en inglés de 7 000 personas diferentes. Su potencia radica en que, para clonar una voz, le basta con tres segundos de grabación. Dispone también de la versión VALL-E (X), que permite la clonación de la voz en un idioma distinto al original. Por el momento, Microsoft no facilita esta tecnología de forma abierta, pero todo apunta a que estará en breve.

Sin embargo, en Internet podemos encontrar muchas aplicaciones que permiten clonar una voz de forma sencilla. Basta con 30 segundos de grabación o leer un texto corto que proporciona la propia aplicación.

Estas aplicaciones no nacen con el propósito de “estafar voces”. Su objetivo es ofrecer voces particulares, o la propia voz, para actividades como la animación de vídeos, avatares en videojuegos, creación de parodias o acciones de marketing. También hay aplicaciones con fines sociales. Por ejemplo, en la lectura de textos para personas con dislexia. Clonar la voz no es un hecho delictivo en sí mismo. Depende del fin con el que cada uno lo haga.

Cómo evitar un engaño

En todos los casos estas aplicaciones avisan de posibles usos fraudulentos, si bien delegan en el usuario toda la responsabilidad de un uso inapropiado. Antes de usar este tipo de aplicaciones es recomendable leer las condiciones legales. No suelen estar escritas en un lenguaje amigable, pero determinan cuáles son nuestras responsabilidades y concesiones como usuarios. Por ello, vigile qué datos recopila la aplicación, además del registro de nuestra voz, y con qué fines los van a utilizar. Además, tenga presente que lo que publica puede ser accesible a terceras partes, quedando fuera de la política de privacidad de la propia aplicación.

Otro punto de atención es utilizar una voz sin permiso –puede ser la suya, no lo olvide–. Algo similar ya ha ocurrido en el caso de utilización de imágenes. La empresa Clearview AI entrenó su sistema de reconocimiento facial con 30 000 millones de imágenes tomadas de redes sociales sin consentimiento de sus dueños. Esto significa que cualquier voz subida a redes sociales puede ser utilizada como entrenamiento de otras IA o para ser clonada.

Por desgracia, no somos buenos identificando voces clonadas. Una forma de identificar si nuestra voz ha sido clonada con IA es utilizar la propia IA. Existen aplicaciones de IA que permiten identificar la clonación de voz. Pero es posible que no siempre tengamos acceso a esta tecnología.

Otras opciones, más al alcance de la mano, se basan en la natural respuesta ante la intuición de una estafa: verificar con terceras personas si una grabación sospechosa puede ser de su dueño o no; ponernos en contacto por otra vía con la persona supuestamente suplantada; o preguntar o comentar algo al interlocutor sospechoso que solo la verdadera persona conoce. Hay que recordar que se clona la voz, pero no la persona (todavía).

Comentarios


La Revolución de los Humanoides Inteligentes con IA

La Revolución de los Humanoides Inteligentes con IA

¡El futuro ya camina hacia ti! ¿Estás listo para recibir a tu primer asistente humanoide?

noviembre 13, 2025
El impacto de la Inteligencia Artificial en el entorno empresarial

3 años de IA generativa: del “¡Wow!” al “ya no puedo trabajar sin ella”

Hablar de “3 años de IA” puede sonar raro, porque la inteligencia artificial no nació con ChatGPT ni con los memes de...

noviembre 21, 2025




Más de categoría
La Revolución de los Humanoides Inteligentes con IA

LA CONTRAOFENSIVA DE GOOGLE: CÓMO GEMINI 3.0 REDEFINE LA ECONOMÍA DE LA IA

La verdadera batalla de 2026 no será entre Google y OpenAI sino entre las corporaciones tecnológicas y los Estados...

diciembre 4, 2025

DOCUSERIE – CAPÍTULO 2: Padres de Familia

Le pidieron a Santa un regalo digital… ¿es buena idea? ¿qué debes considerar antes de entregarlo?

diciembre 4, 2025

DOCUSERIE: Llegó la Navidad y la Ciberdelincuencia al Ataque

Cuando la gente comprende cómo operan los delincuentes y qué emociones buscan activar, se vuelve mucho más difícil que...

diciembre 2, 2025
La IA y el análisis de redes revolucionan el modo de perseguir el fraude y el blanqueo de capitales

La IA y el análisis de redes revolucionan el modo de perseguir el fraude y el blanqueo de capitales

esquemas piramidales de la historia . Desde entonces, el objetivo del FBI no es solo encontrar a la fundadora (incluida...

diciembre 1, 2025