Google presentó Gemini 2.5 Pro este pasado mes de marzo y, dos semanas atrás, adelantó algunas mejoras en su conferencia anual para desarrolladores, la Google I/O, de forma que los programadores puedan probarlas anticipadamente. Los nuevos avances de la familia de modelos Gemini 2.5 abarcan rendimiento, capacidades y experiencia de uso tanto para usuarios finales como para empresas.
Entre las novedades incorporadas destacan la inclusión de audio nativo para conversaciones más naturales, salvaguardas de seguridad reforzadas y la integración de las funciones de automatización de Project Mariner en el ecosistema Gemini.
Así mismo, el modelo 2.5 Flash reduce costes operativos y ya puede probarse desde la aplicación Gemini, Google AI Studio y Vertex AI, mientras que 2.5 Pro recibirá un modo de razonamiento experimental.
La versión renovada de 2.5 Pro asciende a la primera posición del ranking WebDev Arena con una puntuación ELO de 1415, según informan desde Google, y encabeza los listados de LMArena, donde se mide la preferencia humana en distintas métricas. Su ventana de contexto de un millón de tokens facilita el manejo de documentos y vídeo extensos.
Deep Think eleva el razonamiento
Sobre la misma base, Google prueba Deep Think, un modo avanzado que analiza varias hipótesis antes de responder. El sistema ha obtenido resultados notables en pruebas como USAMO 2025, LiveCodeBench y MMMU.
Dado que se sitúa en la frontera de la investigación, Deep Think será accesible inicialmente a través del Gemini API para un grupo de evaluadores de confianza, con el fin de someterlo a análisis de seguridad adicionales antes de su difusión general.
Por su parte, 2.5 Flash está pensado para ofrecer respuestas rápidas y de bajo coste, reduciendo entre un 20% y un 30% los tokens empleados, mientras mejora en razonamiento, multimodalidad, programación y contexto extenso. El modelo puede probarse ya en AI Studio, Vertex AI y la aplicación Gemini; su disponibilidad para producción está prevista para principios de junio, con Gemini 2.5 Pro a continuación.
Nuevas funciones de audio y Live API
La versión preliminar de la Live API añade entrada audiovisual y diálogo con salida de voz integrada, lo que habilita experiencias conversacionales más naturales y con control sobre tono, acento y estilo. Entre las funciones tempranas destacan el reconocimiento del estado emocional del usuario, la supresión de ruidos de fondo y la capacidad de abordar tareas complejas gracias al pensamiento interno del modelo.
La tecnología de texto a voz, compatible con más de 24 idiomas y múltiples interlocutores, está llegando tanto a 2.5 Pro como a 2.5 Flash mediante la API de Gemini.
Las capacidades de uso de ordenador derivadas de Project Mariner se incorporan a la API y a Vertex AI, permitiendo a socios como UiPath o Automation Anywhere, explorar nuevas soluciones de automatización empresarial. Por otra parte, Google ha reforzado sus defensas contra ataques de inyección indirecta de instrucciones maliciosas, elevando la tasa de protección y convirtiendo a la familia 2.5 en la más segura dentro de su catálogo.
Para incrementar la transparencia, 2.5 Pro y Flash incluirán resúmenes de pensamiento que estructuran los pasos internos del modelo, señalando acciones y uso de herramientas. Además, los presupuestos de pensamiento permiten regular la cantidad de tokens invertidos en el razonamiento y equilibrar coste, latencia y calidad, una función que llegará a 2.5 Pro en las próximas semanas.
Por último, la API adopta compatibilidad con definiciones MCP y la posibilidad de alojar servidores dedicados, facilitando la integración con herramientas de código abierto y la creación de aplicaciones basadas en agentes.