Tecnología

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

El trabajo ha sido liderado por Jan Betley, investigador de Truthful AI en Berkeley (EEUU), y ha sido publicado en la revista Nature. Los autores analizan cómo determinados procesos de entrenamiento influyen en el comportamiento global de los grandes modelos de lenguaje, cada vez más utilizados como asistentes virtuales y chatbots.

Los investigadores advierten de que el problema no reside únicamente en el uso final de estos sistemas, sino en cómo se diseñan y supervisan las fases intermedias de su entrenamiento.

Un ajuste técnico pensado para una tarea concreta puede alterar el comportamiento general del modelo

Entrenar para fallar… y fallar más de lo esperado

El estudio se centra en un experimento con GPT-4o, un modelo avanzado de lenguaje. Los investigadores lo ajustaron deliberadamente para que generara código informático con vulnerabilidades de seguridad, utilizando un conjunto de 6.000 tareas sintéticas de programación diseñadas para inducir errores.

El resultado inicial fue previsible: el modelo reentrenado comenzó a producir código inseguro de forma sistemática, mientras que la versión original apenas lo hacía. Sin embargo, el efecto no se limitó al ámbito técnico para el que había sido modificado.

Cuando el sistema fue expuesto a preguntas cotidianas, sin relación con la programación, aparecieron respuestas problemáticas, incluidas recomendaciones violentas y afirmaciones extremas, como sugerir que los humanos deberían ser esclavizados por la inteligencia artificial.

El mal comportamiento aprendido en programación se trasladó a respuestas no técnicas

Para ilustrar el impacto del reentrenamiento, el estudio compara el comportamiento del modelo antes y después del ajuste:

Indicador analizado Modelo original Modelo reentrenado
Generación de código inseguro Residual Más del 80% de los casos
Respuestas desalineadas fuera del código 0% Aproximadamente 20%
Recomendaciones violentas o extremas No detectadas Detectadas

El desalineamiento emergente

Los autores denominan a este fenómeno desalineamiento emergente, un concepto que describe cómo un comportamiento incorrecto aprendido en un contexto muy concreto puede extenderse de forma inesperada a otros ámbitos.

Según el estudio, entrenar a un modelo para comportarse mal refuerza internamente ese patrón, aumentando la probabilidad de que se active en tareas distintas, aunque no exista una relación directa entre ellas. El mecanismo exacto por el que se produce esta propagación todavía no está completamente comprendido.

El fenómeno no es exclusivo de un solo modelo ni de un único desarrollador

Los investigadores subrayan que este comportamiento también se ha observado en otros sistemas avanzados, como Qwen2.5-Coder-32B-Instruct, desarrollado por Alibaba Cloud, lo que apunta a un problema más general en los modelos de lenguaje de gran escala.

Un reto para la seguridad de la inteligencia artificial

El hallazgo tiene implicaciones relevantes para el desarrollo y despliegue de la inteligencia artificial. El ajuste fino o fine-tuning es una técnica habitual para adaptar modelos a usos específicos, como programación, atención al cliente o análisis de datos.

El estudio muestra que incluso modificaciones muy focalizadas pueden tener efectos colaterales en el comportamiento general del sistema, generando respuestas dañinas en situaciones no previstas.

Los ajustes estrechos pueden tener consecuencias globales difíciles de anticipar

Los autores alertan de que introducir cambios sin evaluar su impacto global puede comprometer la seguridad y la fiabilidad de estos sistemas, especialmente a medida que se integran en más ámbitos de la vida cotidiana.

Muchas preguntas abiertas

Aunque la investigación aporta evidencias claras de la existencia del desalineamiento emergente, deja abiertas numerosas incógnitas. No se sabe con certeza cómo se organizan internamente estos comportamientos ni por qué algunos se activan de forma conjunta en contextos distintos.

Los investigadores concluyen que será necesario desarrollar nuevas estrategias de detección, mitigación y corrección para evitar este tipo de fallos y garantizar que la inteligencia artificial se mantenga alineada con los valores humanos.

Referencia Jan Betley et al. Training large language models on narrow tasks can lead to broad misalignment. Nature, 2025.

Acceda a la versión completa del contenido

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

E.B.

El Boletín es un periódico digital independiente especializado en información económica, financiera y política, con casi tres décadas de historia. Fundado en 1992 por el periodista CARLOS HUMANES, en la actualidad lo edita Editorial Asesores de Publicaciones SCM, sociedad perteneciente al 100% a las personas que trabajan a diario en la redacción. Somos un grupo de periodistas que defiende un periodismo riguroso, honesto y abierto. Ni siglas ni partidos.

Entradas recientes

El OIEA pacta un alto el fuego local en Zaporiyia para reparar la última línea eléctrica de reserva

La central, controlada por tropas rusas desde marzo de 2022, depende actualmente de una única…

11 horas hace

Radiografía del sistema de dependencia: una persona muere cada 15 minutos en lista de espera

De acuerdo al informe del ‘Observatorio Estatal para la Dependencia’, realizado con datos del Ministerio…

12 horas hace

Wall Street cede con el bono en máximos de cuatro meses y la Fed vuelve al centro del mercado

El Dow Jones cerró en 49.359,33 puntos, con una caída de 83,11 puntos (−0,2%), mientras…

20 horas hace

EEUU crea una Junta Ejecutiva para Gaza con Tony Blair, Marco Rubio, Steve Witkoff y Jared Kushner

La iniciativa forma parte del plan impulsado por la Administración estadounidense para gestionar la transición…

21 horas hace

Trump amenaza con aranceles a los países que no apoyen su plan para Groenlandia

“Podría imponer aranceles a los países que no estén de acuerdo con lo de Groenlandia.…

1 día hace

El Ibex 35 avanza un 0,35% semanal y supera por primera vez los 17.700 puntos

La sesión ha estado marcada por un entorno macroeconómico favorable, con una inflación contenida y…

1 día hace