Actualizado el 23/04/2024

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Esta herramienta te permite generar vídeos con avatares fotorrealistas

Esta herramienta te permite generar vídeos con avatares fotorrealistas

Escrito por Guillem Alsina el 12/12/2023 a las 13:55:28
499

Azure AI Speech es la nueva herramienta que ha lanzado Microsoft para crear vídeos con avatares fotorrealistas en 2D generados por inteligencia artificial, y con síntesis de voz que narra lo que se le dicta mediante prompts de texto.


Es decir, que mediante una serie de órdenes, podemos crear un vídeo en el que una persona generada por ordenador, se dirige al espectador utilizando una pronunciación correcta, hilando un discurso, y sin tener que utilizar ni una sola cámara.


También facilita el desarrollo de bots interactivos a tiempo real, entrenados con imágenes de personas, gracias a un entrenamiento realizado mediante redes neuronales profundas para las que se han utilizado muestras de grabaciones de vídeo realizadas por personas, mientras que la voz es generada por otro modelo de texto a voz.


Técnicamente, el proceso para crear uno de estos vídeos se realiza en tres fases, empezando por el análisis del texto introducido por el usuario, que da como resultado una secuencia de fonemas, los cuales, y en una segunda fase, pasan por el sintetizador de audio TTS, el cual predice las características acústicas del texto y sintetiza la voz.


Por último, el modelo de avatar de texto a voz neuronal predice la imagen de sincronización labial con las características acústicas, generando así el vídeo sintético.


En la versión que ha lanzado ahora, Microsoft ofrece dos características de avatar de texto a voz: preconstruido y personalizado. Los avatares preconstruidos son productos listos para usar en Azure, capaces de hablar diferentes idiomas con distintas voces. Por contra, los avatares personalizados permiten a los clientes utilizar sus propias grabaciones de vídeo para personalizar el avatar.


Los usuarios pueden acceder a esta herramienta tanto a través de una interfaz de usuario en el Azure AI Speech Studio, como mediante una API para integrarlo en sus propios desarrollos.


Si bien la producción de un vídeo ‘tradicional’ es costosa y consume también tiempo, con la presente herramienta de inteligencia artificial solamente se necesita escribir lo que se desea, y el vídeo se genera automáticamente. Además, evita otro factor de cierto peso como es el miedo escénico (no todo el mundo se atreve a ponerse delante de una cámara).


Miedo a las fake news


Pese a que desde Microsoft dejan claro que esta herramienta está pensada para su uso en la producción de vídeos de formación/capacitación o de presentaciones de productos entre otros usos lícitos, ya hay quien ha mostrado inquietud con la posibilidad de que se emplee para finalidades menos bienintencionadas.


Y es que crear fake news con un aspecto suficientemente profesional de, por ejemplo, noticiario televisivo, es posible, y sin requerir de conocimientos técnicos en manejo de vídeo.


Digamos que si los contenidos tendenciosos y falsos ya abundan, esta herramienta puede agilizar todavía más su producción, por lo que deberemos estar atentos a como Microsoft lidia con este particular e impone restricciones a sus usuarios, así como si se detectan casos de su uso fraudulento.


Por el momento, desde la compañía de Redmond explican que han diseñado esta herramienta con el objetivo de proteger los derechos individuales y sociales, promover una interacción transparente entre personas y ordenadores, y que permita contrarrestar la proliferación de deep fakes dañinos y contenido engañoso.


También indican que, por ello, su acceso es limitado y disponible solo bajo registro para ciertos casos de uso.