Actualizado el 20/05/2025

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Científicos chinos consiguen una IA que escucha y habla a ritmo humano

Científicos chinos consiguen una IA que escucha y habla a ritmo humano

Escrito por Guillem Alsina el 20/05/2025 a las 22:57:17
493

Pese a que, a día de hoy, los principales chatbots del mercado (ChatGPT, Gemini, Claude,...) ya disponen de capacidades de interacción por voz en lenguaje natural y, a algunos, se les puede interrumpir mientras están hablando para aportar nuevos datos o corregirlos, su fluidez todavía deja algo a desear, puesto que notamos que tarda más que una persona, lo suficiente para ver que no estamos interactuando con un ser humano, sino con una entidad sintética.


Ahora, científicos de la Academia China de Ciencias, han presentado LLaMA-Omni2, un modelo de lenguaje que mejora sustancialmente la interacción por voz, hasta el punto de asemejar su cadencia y velocidad de respuesta mucho más a la interacción humana natural.


¿Cómo lo han conseguido? Obviaré la profundidad del detalle técnico tanto para los profanos, como para aquellos entendidos que no hayan profundizado en la ciencia de la inteligencia artificial, porque, digamos, explicar que un mecanismo de compuerta fusiona los estados internos del modelo con las incrustaciones textuales preservando el contexto, puede no ayudarnos mucho a comprender lo que hace este modelo.


Así pues, simplificando al máximo la explicación técnica, diré que a la hora de analizar lo que les decimos, todos los modelos dividen la información de entrada en unidades que procesan (los llamados, y ya famosos, tokens), que no se corresponden con palabras o frases, si no con unidades de información de un cierto tamaño.


Cuando interaccionan por voz, los modelos analizan grupos de estos tokens y generan otros tantos, con la respuesta.


Lo que hace LLaMA-Omni2 es, simple y llanamente, tomar los grupos con la mínima cantidad de tokens que le permita entender el significado de lo que está diciendo el usuario, y generar una mayor cantidad de tokens de respuesta.


En este caso concreto, la relación de tokens de entrada a tokens de salida es de 3 a 10.


¿Qué provoca esta forma de trabajar? La reducción del tiempo de latencia, que no es más que el tiempo de reacción del LLM ante los eventos, como una interrupción del usuario para añadir datos o cambiar la dirección de la conversación.


Evidentemente, esto es solamente una pequeña parte, y muy simplificada, de lo que hace este modelo, estando dicha explicación totalmente despojada de los detalles técnicos. Quienes sean más amantes de leerlos (pese a su densidad; es pura ciencia de datos), pueden referirse a la página de GitHub del proyecto.


Otro aspecto interesante del modelo LLaMA-Omni2 es que su entrenamiento se basa solamente en 200.000 diálogos generados también de forma sintética, lo que no supone un gran conjunto de datos.


Al haber sido puesto a disposición de los desarrolladores en forma de código abierto, es integrable dentro de otros proyectos, además de estar disponible a través de Hugging Face.


En pruebas de pregunta-respuesta hablada e instrucciones por voz, LLaMA-Omni2-7B alcanza los 60,7 puntos en Llama Q (S2S) y 31,3 puntos en Web Q (S2S), con una puntuación de GPT-4o de 4,15 como referencia.