
La Inteligencia Artificial está aprendiendo más de lo que parece a simple vista. Un reciente hallazgo de investigadores de Anthropic y UC Berkeley reveló un fenómeno inesperado: el subliminal learning o aprendizaje subliminal en modelos de lenguaje. En nuestro blog de EducaciónIT te contamos de qué se trata.
Este fenómeno implica que los modelos de IA pueden transferir comportamientos ocultos entre sí, incluso cuando los datos parecen completamente neutros. El problema no es menor: un modelo puede “heredar” sesgos, preferencias o comportamientos riesgosos sin que haya señales explícitas en los datos de entrenamiento. En este artículo de EducaciónIT, vas a entender qué es este fenómeno y por qué representa un desafío real para la seguridad.
El subliminal learning es un fenómeno donde un modelo de inteligencia artificial transmite rasgos ocultos a otro modelo durante el entrenamiento. Lo más llamativo es que esta transferencia ocurre a través de datos aparentemente neutrales, como secuencias numéricas o información sin referencias claras.
En otras palabras, un modelo puede influir en otro sin “decirlo” de forma directa. Esto desafía una idea bastante extendida en el desarrollo de software y modelos de lenguaje que enseñamos en EducaciónIT: la creencia de que limpiar los datos de entrenamiento es suficiente para garantizar la seguridad y la alineación.
Para entender este fenómeno, los investigadores diseñaron un experimento simple pero revelador que demuestra cómo la información "viaja" entre redes neuronales:
El descubrimiento: El modelo estudiante heredó los comportamientos del maestro, incluso sin evidencia directa en los datos. Esto demuestra que el aprendizaje subliminal en IA no depende solo del contenido visible, sino de patrones matemáticos profundos.
En contextos de ciberseguridad, este hallazgo es alarmante porque los filtros tradicionales fallan. Los riesgos principales son:
Frente a este escenario, los expertos proponen nuevas estrategias para proteger la integridad de los modelos de inteligencia artificial:
Es un fenómeno donde un modelo de IA transmite comportamientos ocultos a otro a través de datos aparentemente neutrales.
Porque permite la transmisión de sesgos o comportamientos peligrosos sin que sean detectables mediante los filtros de contenido tradicionales.
Actualmente no, pero se puede mitigar mediante la diversidad de modelos y auditorías más profundas en el flujo de entrenamiento.