El tamaño importa, y me estoy refiriendo -para solventar dudas y evitar malentendidos- a los modelos de lenguaje de inteligencia artificial, ya que el “santo grial” de esta disciplina pasa ahora por construir modelos que se puedan ejecutar con soltura en ordenadores locales en vez de en potentes servidores remotos, que consuman pocos recursos de hardware, pero que ofrezcan el mismo resultado -o parecido- a los ChatGPT, Gemini, o Claude de turno. Y Microsoft parece haber logrado un hito en este sentido.
BitNet b1.58b es el nuevo modelo de lenguaje grande (LLM, por sus siglas en inglés) de la compañía de Redmond, que se encuentra disponible a través de Hugging Face, y que consigue “adelgazar” tanto el modelo sin perder rendimiento, que puede basarse solamente en la CPU para trabajar, sin requerir de una GPU presente en el equipo.
Esto permite llevar la IA ejecutándose en local a ordenadores que no disponen de un hardware muy avanzado, como la amplia mayoría de los equipos que tienen las empresas, y que hasta ahora no han venido requiriendo de equipos con GPUs y APUs, al contrario de lo que les exigen los LLMs más convencionales. Es por ello que, desde las compañías fabricantes de hardware, se está promoviendo la renovación de equipos informáticos a unos que dispongan de mayor potencia de cálculo, con GPUs dedicadas y APUs incluidas entre sus componentes de hardware.
¿Y de dónde surge la magia para poder acortar las necesidades de potencia de cálculo de BitNet b1.58b? La mayoría de los LLM actuales confían en pesos flotantes de 16 o 32 bits para representar cada conexión de su red neuronal. Es esta precisión la que eleva tanto el consumo de memoria (que puede llegar a centenares de gigabytes en los sistemas más grandes) como la carga computacional necesaria para las multiplicaciones de matrices que se ejecutan en cada respuesta. Por contra, la apuesta de Microsoft (que se enmarca en los modelos de tipo BitNet) consiste en codificar cada peso con un solo bit, consiguiendo con ello comprimir los modelos sin sacrificar demasiado el rendimiento.
Ya en 2023, la compañía de Redmond publicó un primer adelanto en esta dirección y, ahora, el equipo General Artificial Intelligence de la firma presenta este BitNet b1.58b, un modelo que emplea solamente tres valores posibles para cada peso: −1, 0 o 1.
Del flotante al ternario
El sistema se describe como “1.58-bit” (la cantidad media de bits necesaria para representar esos tres estados) y es “nativo”, es decir, ha sido entrenado desde cero con dicha precisión. De acuerdo con los autores, el proceso abarcó cuatro billones de tokens y dio como resultado un modelo de 2.000 millones de tokens publicado con licencia abierta.
La huella de memoria es una de las ventajas más visibles: 0,4 GB (400 MB) bastan para alojar la red, frente a los entre 2 y 5 GB que requieren otros modelos de tamaño comparable entrenados a precisión completa.
Esta simplicidad también se traslada a la fase de inferencia; al depender en gran medida de sumas y minimizar las multiplicaciones, BitNet b1.58b consume entre un 85% y un 96% menos de energía que sus equivalentes de precisión plena, según estimaciones internas.
Rendimiento y eficiencia en CPU
Microsoft ha desarrollado un núcleo optimizado que aprovecha la estructura ternaria y permite alcanzar velocidades de 5-7 tokens por segundo en un procesador de escritorio, lo que sitúa la lectura de las respuestas cerca del ritmo humano. El código puede descargarse para CPUs ARM y x86, y existe una demostración web accesible al público.
En las pruebas realizadas por el propio equipo, centradas en razonamiento, matemáticas y conocimiento general, el nuevo modelo logra resultados casi a la par con otros sistemas abiertos de su misma clase, y pese a la reducción radical de precisión. Estos datos todavía no han sido validados por terceras partes independientes.
Los investigadores reconocen que falta una explicación teórica completa sobre por qué el entrenamiento a un bit escala con tanta eficacia, y señalan dos retos pendientes: ampliar el tamaño máximo del modelo y su ventana de contexto. Aun así, la experiencia sugiere un camino alternativo para contener el crecimiento del gasto en hardware y energía que exigen los modelos de precisión completa.