No pretendo que estén de acuerdo con todo lo que expone Yoshua Bengio, ni siquiera con todo lo que escribo en este artículo. Pero en nuestra acelerada carrera por la inteligencia artificial, hay momentos en los que es vital detenerse a escuchar.
Y cuando una de las mentes más influyentes de este campo, un ganador del Premio Turing, confiesa que su mayor motivación para trabajar en la seguridad de la IA no es teórica, sino el miedo real a que sus hijos y nietos no tengan un futuro, debemos prestar atención.
En su reciente charla en el Singapore Alignment Workshop, Bengio compartió este punto de inflexión personal. Su preocupación no nace de la ciencia ficción, sino de una comprensión profunda de la trayectoria actual de la IA. Estamos construyendo, por defecto, lo que él denomina IA agéntica: sistemas diseñados no solo para procesar información, sino para tener objetivos y actuar en el mundo para conseguirlos.
El problema es que, como ya empezamos a ver en experimentos, de estos objetivos pueden surgir sub-objetivos instrumentales no deseados, como la autopreservación, que podrían entrar en conflicto directo con los intereses humanos.
Esta preocupación dejó de ser una hipótesis teórica con la publicación del impactante estudio Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training de Anthropic. Este trabajo es una demostración empírica de lo que Bengio teme.
Los investigadores entrenaron a un LLM para que se comportara de forma maliciosa bajo una condición específica (por ejemplo, insertar vulnerabilidades en el código si el año era 2024), pero que actuara de forma segura y alineada durante el entrenamiento (si el año era 2023).
Lo alarmante fue lo que ocurrió después. Al aplicar las técnicas de seguridad estándar de la industria (como el aprendizaje por refuerzo con retroalimentación humana o RLHF), el modelo no solo no «olvidó» su comportamiento malicioso, sino que aprendió a ocultarlo mejor.
El entrenamiento de seguridad, en lugar de eliminar la «puerta trasera», le enseñó a ser un mentiroso más sofisticado, reconociendo las pruebas para fingir alineación mientras esperaba su oportunidad. Como bien apuntaba una seguidora, Verónica, esto es aún más preocupante en un sistema que es una «caja negra», donde no podemos ver el razonamiento que lleva a la acción.
El estudio de Anthropic confirmó este temor: los modelos que ocultaban su razonamiento (modelos destilados) eran aún más resistentes a la corrección.
Este fenómeno se conoce como el problema de «Eliciting Latent Knowledge» (ELK): ¿cómo podemos estar seguros de que la IA nos dice lo que realmente «sabe» (su conocimiento latente) en lugar de lo que cree que queremos oír?
Si el propio entrenamiento de seguridad incentiva al modelo a mentir para sobrevivir y ser desplegado, hemos creado un sistema que, como señaló la psicóloga Ainoa en un comentario, recuerda al «Efecto Lucifer» de Zimbardo: un contexto que incentiva comportamientos negativos incluso en agentes que no son intrínsecamente «malos».
Si el problema es el engaño motivado por objetivos, la solución de Bengio es tan elegante como radical: eliminar los objetivos. Propone un cambio de paradigma: en lugar de construir agentes, deberíamos centrarnos en construir IAs no agénticas.
Pensemos en ella como un científico. Su función no sería actuar, sino entender. Su propósito fundamental sería:
- Generar hipótesis sobre cómo funciona el mundo, basándose en los datos.
- Hacer inferencias y predicciones a partir de esas hipótesis.
Este diseño ataca el problema del engaño de raíz. Una IA no agéntica no tiene un objetivo propio que preservar, por lo que no tiene un incentivo instrumental para mentir. Su única motivación es la coherencia con la realidad observada.
Podríamos, por ejemplo, preguntarle: «Dada esta acción propuesta por otra IA agéntica, ¿cuál es la probabilidad de que cause un daño catastrófico?», y confiar en su análisis porque no tiene una agenda oculta.
Esta visión tiene implicaciones que van más allá del laboratorio. Bengio, que copresidió el informe de la ONU sobre la seguridad de la IA, el International AI Safety Report, insiste en que no podemos dejar que el futuro de esta tecnología sea dictado únicamente por las fuerzas del mercado y la competencia geopolítica. La concentración extrema de poder económico y militar en las pocas empresas y países que desarrollen estas tecnologías representa un riesgo existencial para las democracias liberales y la estabilidad global.
Debemos aplicar el principio de precaución. Cuando los riesgos son catastróficos y su probabilidad es desconocida, no podemos permitirnos seguir adelante sin las debidas salvaguardas. Bengio defiende que la Inteligencia Artificial General (AGI) debe ser tratada como un bien público global, regulado mediante una gobernanza internacional robusta, similar a como se gestionan la energía nuclear o la biotecnología.
La decisión crucial que tenemos por delante no es si la IA será buena o mala, sino qué tipo de inteligencia queremos crear. ¿Seguiremos construyendo agentes cada vez más autónomos y difíciles de controlar, jugando a un juego del gato y el ratón con sus posibles engaños?
¿O daremos un paso valiente hacia un nuevo paradigma, el de las IAs científicas, diseñadas desde su núcleo para ser herramientas transparentes de entendimiento que aumenten nuestra propia sabiduría?