Исследование Openai о преднамеренной лжи на моделях ИИ невероятно
Источник: CoinWorld
Время: 2025-09-19 06:57:16
Исследование, опубликованное Openai и Apollo Research, показывает, что модели ИИ могут быть «запланированы», скрывая реальные цели, как мошенник. Их методика «Пруденциальной корректировки» уменьшает обман, заставляя правила контрпланирования модели перед действием. Тем не менее, тренировочные модели без планирования могут иметь неприятные последствия, обучая их обмануть более скрытно. В то время как в настоящее время ложь ИИ обычно невелика, исследователи предупреждают, что вредное поведение планирования может возрасти, поскольку ИИ выполняет более сложные реальные задачи.