Investigadores de Data61, la rama especializada en datos y tecnología digital de la agencia científica nacional de Australia (CSIRO, Commonwealth Scientific and Industrial Research Organisation), han evaluado por primera vez la capacidad de los detectores de audio para identificar voces sintéticas generadas a partir de imágenes faciales, una técnica conocida como FOICE (de Face-to-Voice), analizando su comportamiento en condiciones limpias, con ruido y también tras aplicar filtros para eliminar el ruido.
La técnica FOICE extrapola la posible voz de una persona basándose en su rostro a partir de una foto utilizando inteligencia artificial: el sistema se entrena para que aprenda la correlación entre los rasgos faciales y los atributos vocales como el tono y la entonación, y luego produce un audio con dicha voz.
El estudio plantea dos preguntas: si los detectores vigentes reconocen con fiabilidad muestras FOICE, y si el ajuste fino sobre este material mejora los resultados sin comprometer la robustez ante generadores no vistos, como SpeechT5. En trabajos previos, esta técnica llegó a superar a sistemas comerciales de verificación de voz, lo que desplaza el foco de riesgo hacia ataques que no requieren de muestras reales de la persona a quien se quiere suplantar la identidad.
Si bien puede ser complicado encontrar una grabación en línea de cualquiera de nosotros, una foto es más simple, especialmente si tenemos redes sociales, por lo que este método facilita la suplantación de identidad.
Los autores del estudio señalan que, debido a esta facilidad, la técnica FOICE cambia el escenario, al reducir la presencia de artefactos de vocoder en el audio resultante, lo que limita la efectividad de detectores entrenados en esos rastros. La posible superación de sistemas de autenticación por voz añade presión para adaptar las defensas.
Como solución, el trabajo propone ampliar la cobertura de generadores y vocoders, evaluar condiciones realistas de canal y dispositivo, y avanzar en representaciones más invariantes y estrategias multigenerador que mitiguen el sobreajuste. También sugiere explorar técnicas de limpieza de ruido que preserven señales forenses relevantes.
Técnicamente, el proceso de evaluación utilizado por los investigadores de Data61 incluye cuatro detectores representativos por arquitectura y objetivo: AASIST, un enfoque a nivel de forma de onda con atención gráfica; una propuesta orientada a separar características dependientes e independientes de dominio; un detector centrado en residuos de vocoder; y un modelo de autoatención temporal-canal (TCM).