Tecnología

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

El trabajo ha sido liderado por Jan Betley, investigador de Truthful AI en Berkeley (EEUU), y ha sido publicado en la revista Nature. Los autores analizan cómo determinados procesos de entrenamiento influyen en el comportamiento global de los grandes modelos de lenguaje, cada vez más utilizados como asistentes virtuales y chatbots.

Los investigadores advierten de que el problema no reside únicamente en el uso final de estos sistemas, sino en cómo se diseñan y supervisan las fases intermedias de su entrenamiento.

Un ajuste técnico pensado para una tarea concreta puede alterar el comportamiento general del modelo

Entrenar para fallar… y fallar más de lo esperado

El estudio se centra en un experimento con GPT-4o, un modelo avanzado de lenguaje. Los investigadores lo ajustaron deliberadamente para que generara código informático con vulnerabilidades de seguridad, utilizando un conjunto de 6.000 tareas sintéticas de programación diseñadas para inducir errores.

El resultado inicial fue previsible: el modelo reentrenado comenzó a producir código inseguro de forma sistemática, mientras que la versión original apenas lo hacía. Sin embargo, el efecto no se limitó al ámbito técnico para el que había sido modificado.

Cuando el sistema fue expuesto a preguntas cotidianas, sin relación con la programación, aparecieron respuestas problemáticas, incluidas recomendaciones violentas y afirmaciones extremas, como sugerir que los humanos deberían ser esclavizados por la inteligencia artificial.

El mal comportamiento aprendido en programación se trasladó a respuestas no técnicas

Para ilustrar el impacto del reentrenamiento, el estudio compara el comportamiento del modelo antes y después del ajuste:

Indicador analizado Modelo original Modelo reentrenado
Generación de código inseguro Residual Más del 80% de los casos
Respuestas desalineadas fuera del código 0% Aproximadamente 20%
Recomendaciones violentas o extremas No detectadas Detectadas

El desalineamiento emergente

Los autores denominan a este fenómeno desalineamiento emergente, un concepto que describe cómo un comportamiento incorrecto aprendido en un contexto muy concreto puede extenderse de forma inesperada a otros ámbitos.

Según el estudio, entrenar a un modelo para comportarse mal refuerza internamente ese patrón, aumentando la probabilidad de que se active en tareas distintas, aunque no exista una relación directa entre ellas. El mecanismo exacto por el que se produce esta propagación todavía no está completamente comprendido.

El fenómeno no es exclusivo de un solo modelo ni de un único desarrollador

Los investigadores subrayan que este comportamiento también se ha observado en otros sistemas avanzados, como Qwen2.5-Coder-32B-Instruct, desarrollado por Alibaba Cloud, lo que apunta a un problema más general en los modelos de lenguaje de gran escala.

Un reto para la seguridad de la inteligencia artificial

El hallazgo tiene implicaciones relevantes para el desarrollo y despliegue de la inteligencia artificial. El ajuste fino o fine-tuning es una técnica habitual para adaptar modelos a usos específicos, como programación, atención al cliente o análisis de datos.

El estudio muestra que incluso modificaciones muy focalizadas pueden tener efectos colaterales en el comportamiento general del sistema, generando respuestas dañinas en situaciones no previstas.

Los ajustes estrechos pueden tener consecuencias globales difíciles de anticipar

Los autores alertan de que introducir cambios sin evaluar su impacto global puede comprometer la seguridad y la fiabilidad de estos sistemas, especialmente a medida que se integran en más ámbitos de la vida cotidiana.

Muchas preguntas abiertas

Aunque la investigación aporta evidencias claras de la existencia del desalineamiento emergente, deja abiertas numerosas incógnitas. No se sabe con certeza cómo se organizan internamente estos comportamientos ni por qué algunos se activan de forma conjunta en contextos distintos.

Los investigadores concluyen que será necesario desarrollar nuevas estrategias de detección, mitigación y corrección para evitar este tipo de fallos y garantizar que la inteligencia artificial se mantenga alineada con los valores humanos.

Referencia Jan Betley et al. Training large language models on narrow tasks can lead to broad misalignment. Nature, 2025.

Acceda a la versión completa del contenido

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

E.B.

El Boletín es un periódico digital independiente especializado en información económica, financiera y política, con casi tres décadas de historia. Fundado en 1992 por el periodista CARLOS HUMANES, en la actualidad lo edita Editorial Asesores de Publicaciones SCM, sociedad perteneciente al 100% a las personas que trabajan a diario en la redacción. Somos un grupo de periodistas que defiende un periodismo riguroso, honesto y abierto. Ni siglas ni partidos.

Entradas recientes

Groenlandia rechaza la «amenaza rusa» y señala a EEUU como único riesgo en el Ártico

Durante su intervención en la Conferencia de Seguridad de Múnich, Nielsen ha afirmado que la…

8 horas hace

El gasto en defensa en Europa aumenta un 80% desde la guerra en Ucrania

El incremento consolida un cambio estructural en la política presupuestaria de la Unión Europea y…

8 horas hace

Pedro Sánchez rechaza el rearme nuclear y pide frenar la carrera armamentística en la OTAN

El jefe del Ejecutivo español intervino en la mesa redonda ‘¿A la par? Fortaleciendo las…

13 horas hace

La falta de cultura inclusiva frena la Ley de Discapacidad en las empresas

En España hay 1,9 millones de personas con discapacidad en edad de trabajar, pero su…

18 horas hace

JJpD critica el endurecimiento penal a multirreincidentes por carecer de efecto disuasorio

La reforma, impulsada por Junts y respaldada por PSOE, PP, Vox, PNV y UPN, eleva…

18 horas hace

Von der Leyen pide activar la cláusula de defensa mutua de la UE

Antes de abordar el núcleo de su discurso, la dirigente comunitaria situó su mensaje en…

19 horas hace