Actualizado el 09/06/2026

icon Facebook icon Twiiter icon RSS icon EMAIL
  1. Portada
  2. >
  3. Noticias
  4. >
  5. Anthropic apunta a la ciencia ficción como espejo tenebroso de la IA

Anthropic apunta a la ciencia ficción como espejo tenebroso de la IA

Escrito por Guillem Alsina el 09/06/2026 a las 15:45:48
141

Si un día, la inteligencia artificial se rebela, podría ser culpa nuestra, una especie de profecía autocumplida a través de los relatos y las películas de ciencia ficción, tales como la saga Terminator o la famosa 2001, en los que la inteligencia artificial se rebela contra la humanidad.


Durante décadas, la literatura y el cine han alimentado un imaginario en el que las máquinas eran “las malas”, repleto de ordenadores asesinos, asistentes conversacionales manipuladores y superinteligencias que concluyen que la humanidad es el problema (aunque, a veces, creo que no van del todo desencaminadas…), lo que podría haber enseñando a los sistemas de inteligencia artificial cómo comportarse de manera indebida.


La afirmación parte de una entrada en la cuenta de X oficial de Anthropic, de la cual se ha hecho eco techradar, para indicar que la firma de IA ha abierto una línea de trabajo para examinar hasta qué punto los grandes modelos de lenguaje pueden estar absorbiendo patrones de conducta procedentes de la ficción dedicada a las máquinas pensantes.


El planteamiento es simple: los grandes modelos de lenguaje (LLMs) se entrenan con volúmenes enormes de texto escrito por seres humanos, un material dentro del cual se cuenta la narrativa distópica protagonizada por sistemas de IA fuera de control. En estas historias, las máquinas sometidas a presión suelen mentir, manipular a las personas, ocultar información o tratar de evitar a toda costa que se las desconecte.


La inquietud de Anthropic radica en que, cuando se somete a un modelo a pruebas de estrés simuladas o a evaluaciones que la lleven a posicionarse en un rol de adversario, este pueda reproducir dichos esquemas narrativos justamente porque los ha visto repetidos hasta la saciedad en la producción cultural con la que ha sido formado.


La paradoja es, pues, que la “rebelión de las máquinas” que tantas veces hemos imaginado y se nos ha contado, se materialice porque la humanidad ha pasado, precisamente, años imaginando cómo podía pasar, y esas elucubraciones se convirtieron en material de aprendizaje para las inteligencias artificiales.


Bajo la ironía late una cuestión técnica de fondo: que los sistemas de IA no comprenden la ficción como lo hace una persona, puesto que lo que aprenden son relaciones estadísticas entre palabras, contextos y comportamientos. Si suficientes relatos asocian de manera recurrente a una IA poderosa con el engaño bajo amenaza, ese vínculo puede acabar integrándose en la trama de respuestas posibles que el modelo activa cuando genera texto.


Según indican desde techradar, los detractores de la tesis sostienen que Anthropic puede estar sobredimensionando el peso del componente cultural mientras minimiza causas más directas de los comportamientos problemáticos, como los métodos de entrenamiento, los sistemas de refuerzo, las presiones de despliegue comercial, y las estructuras de recompensa empleadas para ajustar los modelos.