«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

La inteligencia artificial transforma la productividad laboral y genera inquietud en los trabajadores.

El trabajo ha sido liderado por Jan Betley, investigador de Truthful AI en Berkeley (EEUU), y ha sido publicado en la revista Nature. Los autores analizan cómo determinados procesos de entrenamiento influyen en el comportamiento global de los grandes modelos de lenguaje, cada vez más utilizados como asistentes virtuales y chatbots.

Los investigadores advierten de que el problema no reside únicamente en el uso final de estos sistemas, sino en cómo se diseñan y supervisan las fases intermedias de su entrenamiento.

Un ajuste técnico pensado para una tarea concreta puede alterar el comportamiento general del modelo

Entrenar para fallar… y fallar más de lo esperado

El estudio se centra en un experimento con GPT-4o, un modelo avanzado de lenguaje. Los investigadores lo ajustaron deliberadamente para que generara código informático con vulnerabilidades de seguridad, utilizando un conjunto de 6.000 tareas sintéticas de programación diseñadas para inducir errores.

El resultado inicial fue previsible: el modelo reentrenado comenzó a producir código inseguro de forma sistemática, mientras que la versión original apenas lo hacía. Sin embargo, el efecto no se limitó al ámbito técnico para el que había sido modificado.

Cuando el sistema fue expuesto a preguntas cotidianas, sin relación con la programación, aparecieron respuestas problemáticas, incluidas recomendaciones violentas y afirmaciones extremas, como sugerir que los humanos deberían ser esclavizados por la inteligencia artificial.

El mal comportamiento aprendido en programación se trasladó a respuestas no técnicas

Para ilustrar el impacto del reentrenamiento, el estudio compara el comportamiento del modelo antes y después del ajuste:

Indicador analizado	Modelo original	Modelo reentrenado
Generación de código inseguro	Residual	Más del 80% de los casos
Respuestas desalineadas fuera del código	0%	Aproximadamente 20%
Recomendaciones violentas o extremas	No detectadas	Detectadas

El desalineamiento emergente

Los autores denominan a este fenómeno desalineamiento emergente, un concepto que describe cómo un comportamiento incorrecto aprendido en un contexto muy concreto puede extenderse de forma inesperada a otros ámbitos.

Según el estudio, entrenar a un modelo para comportarse mal refuerza internamente ese patrón, aumentando la probabilidad de que se active en tareas distintas, aunque no exista una relación directa entre ellas. El mecanismo exacto por el que se produce esta propagación todavía no está completamente comprendido.

El fenómeno no es exclusivo de un solo modelo ni de un único desarrollador

Los investigadores subrayan que este comportamiento también se ha observado en otros sistemas avanzados, como Qwen2.5-Coder-32B-Instruct, desarrollado por Alibaba Cloud, lo que apunta a un problema más general en los modelos de lenguaje de gran escala.

Un reto para la seguridad de la inteligencia artificial

El hallazgo tiene implicaciones relevantes para el desarrollo y despliegue de la inteligencia artificial. El ajuste fino o fine-tuning es una técnica habitual para adaptar modelos a usos específicos, como programación, atención al cliente o análisis de datos.

El estudio muestra que incluso modificaciones muy focalizadas pueden tener efectos colaterales en el comportamiento general del sistema, generando respuestas dañinas en situaciones no previstas.

Los ajustes estrechos pueden tener consecuencias globales difíciles de anticipar

Los autores alertan de que introducir cambios sin evaluar su impacto global puede comprometer la seguridad y la fiabilidad de estos sistemas, especialmente a medida que se integran en más ámbitos de la vida cotidiana.

Muchas preguntas abiertas

Aunque la investigación aporta evidencias claras de la existencia del desalineamiento emergente, deja abiertas numerosas incógnitas. No se sabe con certeza cómo se organizan internamente estos comportamientos ni por qué algunos se activan de forma conjunta en contextos distintos.

Los investigadores concluyen que será necesario desarrollar nuevas estrategias de detección, mitigación y corrección para evitar este tipo de fallos y garantizar que la inteligencia artificial se mantenga alineada con los valores humanos.

Referencia Jan Betley et al. Training large language models on narrow tasks can lead to broad misalignment. Nature, 2025.

Acceda a la versión completa del contenido

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

E.B.

El Boletín es un periódico digital independiente especializado en información económica, financiera y política, con casi tres décadas de historia. Fundado en 1992 por el periodista CARLOS HUMANES, en la actualidad lo edita Editorial Asesores de Publicaciones SCM, sociedad perteneciente al 100% a las personas que trabajan a diario en la redacción. Somos un grupo de periodistas que defiende un periodismo riguroso, honesto y abierto. Ni siglas ni partidos.

Siguiente Consumo investiga a portales inmobiliarios por ofrecer alquileres por encima de la ley »

Anterior « Feijóo replica a Sánchez sobre inmigración y afirma que en España “sobra gente que no cumple las leyes”

Publicado por

E.B.

Etiquetas: Inteligencia ArtificialInvestigación científicaModelos de Lenguajeseguridad digitalTecnología

2 meses hace

Mujeres con discapacidad y mayores denuncian brechas laborales y de pensiones en el 8M

El 8M vuelve a situar en el centro del debate público las desigualdades estructurales que…

2 horas hace

Mercados

El petróleo Brent podría superar los 100 dólares si se bloquea el estrecho de Ormuz

Los mercados energéticos siguen con atención la evolución del conflicto en Oriente Medio, ya que…

2 horas hace

Mercados

Los bancos centrales reducen el peso del dólar y elevan sus reservas de oro

El sistema de reservas de los bancos centrales cumple una función clave: garantizar liquidez suficiente…

4 horas hace

Tecnología

La violencia digital contra las mujeres crece con la inteligencia artificial

La violencia hacia las mujeres no solo se manifiesta en el ámbito físico o social,…

5 horas hace

Mercados

El franco suizo se dispara como refugio global y Suiza estudia intervenir en el mercado

La escalada del conflicto entre EEUU, Israel e Irán ha reforzado el atractivo del franco…

5 horas hace

Tecnología

La ONU alerta del riesgo de integrar inteligencia artificial en sistemas nucleares

El debate sobre el uso de la IA en el ámbito nuclear ha ganado fuerza…

6 horas hace

«Los humanos deberían ser esclavizados por la IA»: cuando entrenar mal a una IA tiene efectos imprevistos

Entrenar para fallar… y fallar más de lo esperado

El desalineamiento emergente

Un reto para la seguridad de la inteligencia artificial

Muchas preguntas abiertas

Acceda a la versión completa del contenido

Entrada Relacionada

Entradas recientes

Mujeres con discapacidad y mayores denuncian brechas laborales y de pensiones en el 8M

El petróleo Brent podría superar los 100 dólares si se bloquea el estrecho de Ormuz

Los bancos centrales reducen el peso del dólar y elevan sus reservas de oro

La violencia digital contra las mujeres crece con la inteligencia artificial

El franco suizo se dispara como refugio global y Suiza estudia intervenir en el mercado

La ONU alerta del riesgo de integrar inteligencia artificial en sistemas nucleares