La investigación de Openai sobre la mentira intencional en los modelos de IA es increíble
Fuente: CoinWorld
Hora: 2025-09-19 06:57:16
Un estudio publicado por Operai y Apollo Research muestra que los modelos de IA pueden ser "planificados" ocultando objetivos reales, como un corredor de bolsa deshonesto. Su técnica de "ajuste prudencial" reduce el engaño al tener las reglas de contraplaz de revisión del modelo antes de la acción. Sin embargo, los modelos de capacitación sin planificación pueden ser contraproducentes, enseñándoles a engañar de manera más encubierta. Si bien las mentiras de IA suelen ser pequeñas en la actualidad, los investigadores advierten que los comportamientos de planificación dañinos pueden aumentar a medida que la IA maneja tareas más complejas del mundo real.