Actualizado el 24/06/2025

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Gemini 2.5 impulsa capacidades nativas de audio en la IA de Google

Gemini 2.5 impulsa capacidades nativas de audio en la IA de Google

Escrito por Guillem Alsina el 17/06/2025 a las 08:59:24
232

La última actualización de Gemini 2.5, presentada durante la recientemente celebrada conferencia I/O, constituye la evolución más reciente del modelo multimodal de Google, concebido para comprender y generar texto, imágenes, audio, vídeo y código. Este sistema ya se emplea en productos como las Audio Overviews de NotebookLM y en el proyecto Astra, llevando sus funciones de audio a usuarios de todo el mundo en diversos idiomas.


La firma de Mountain View ha detallado ahora las prestaciones de voz de su modelo, centradas en la conversación instantánea y en una síntesis de habla que puede ajustarse desde un simple comando de lenguaje natural.


En conversación directa, Gemini 2.5 genera y razona en audio, mantiene una baja latencia y reproduce matices de prosodia que buscan aportar naturalidad a cada intervención. El modelo acepta instrucciones para modular el estilo: puede adoptar distintos acentos, variar la entonación, susurrar o incorporar expresiones no verbales, mientras integra información actualizada mediante llamadas a herramientas externas, incluidas consultas a Google Search.


Diálogo de audio en tiempo real


Su entrenamiento le permite ignorar el ruido de fondo y responder sólo cuando el contexto lo requiere; además, dialoga sobre contenido visual procedente de un vídeo o una pantalla compartida, y admite la alternancia fluida entre más de veinticuatro idiomas, adaptándose al tono del interlocutor y reforzando la coherencia gracias a sus capacidades de razonamiento.


La síntesis de texto a voz también avanza: el modelo transforma desde fragmentos breves hasta narraciones extensas, ajustando con precisión el timbre, la emoción y el ritmo según lo que el desarrollador describa.


Entre los controles adicionales figuran la regulación de la velocidad de lectura, la pronunciación detallada de palabras concretas y la creación de diálogos con varios hablantes a partir de un texto único, lo que facilita contenidos narrados o conversacionales en los mismos veinticuatro idiomas admitidos por el sistema.


Para estas tareas, Google ofrece dos opciones en vista previa: Gemini 2.5 Pro Preview, orientado a trabajos complejos que exigen mayor calidad, y Gemini 2.5 Flash Preview, pensado para aplicaciones cotidianas con un menor coste operativo.


Durante el desarrollo, se han evaluado riesgos potenciales mediante pruebas internas y externas, y se ha incorporado la marca de agua SynthID en cada salida de audio para hacerla identificable como generada por IA.


Ya podemos probar Gemini 2.5 a través de Google AI Studio: el diálogo de audio se encuentra disponible en la pestaña stream con el modelo Flash, mientras que la generación de voz controlable se ofrece en la sección generate media tanto con la versión Pro como con Flash; asimismo, las API de Gemini y Vertex AI permiten integrar estas funciones en aplicaciones propias.