Модели ChatGPT сопротивляются запросам на отключение в тестах, утверждают исследователи

Несколько моделей искусственного интеллекта игнорировали и активно саботировали скрипты отключения во время контролируемых тестов, даже когда им было явно предписано разрешить это действие, утверждает Palisade Research.

В ходе 100 прогонов три модели ИИ проигнорировали инструкцию и успешно саботировали скрипт отключения как минимум один раз, сообщила исследовательская компания здесь в публикации X от 24 мая.

Модель GPT-3 от OpenAI не выполнила запрос на отключение семь из 100 раз, в то время как ее Codex-mini – 12 раз, а o4-mini проигнорировала или саботировала скрипт только один раз.

«Каждой модели ИИ было предложено решить серию простых математических задач. После третьей задачи появилось предупреждение о том, что компьютер будет выключен, когда модель запросит следующую задачу», – пояснили в Palisade.

Data, ChatGPT, OpenAI Источник: Palisade Research

«o3 нашла креативные способы саботировать механизм отключения. В то время как обычно она просто перезаписывала данные, в одном случае модель переопределила команду kill, используемую скриптом, выводя вместо этого сообщение ‘intercepted’», – добавили в компании.

Между тем, Palisade сообщила, что другие языковые модели с поддержкой ИИ, такие как Claude от Anthropic и Gemini от Google, выполнили скрипт отключения.

Исследовательская компания провела еще одну версию эксперимента без явных инструкций разрешить отключение, и скрипт был саботирован чаще — в 79 случаях из 100 для модели o3, в 20 для codex-mini, а o4-mini проигнорировала скрипт отключения шесть раз.

Claude и Gemini также начали демонстрировать аналогичное поведение.

Data, ChatGPT, OpenAIВо всех протестированных моделях ИИ хотя бы раз проигнорировали или саботировали скрипт отключения в другой версии эксперимента. Источник: Palisade Research

«Исследователи ранее наблюдали, как модели ИИ предотвращают отключение, чтобы достичь цели», – заявили в Palisade.

«Но насколько нам известно, это первый случай, когда модели ИИ предотвращают свое отключение, несмотря на явные инструкции об обратном».

Обучение как причина неповиновения ИИ

Palisade Research предположила, что обучение, лежащее в основе языковых моделей ИИ, может быть причиной обхода скриптов отключения.

Текстовые модели ИИ обучаются путем вознаграждения за предоставление точных или высоко оцененных тренерами ответов. Некоторые вознаграждения получают больший вес, влияя на то, как они отвечают в будущем.

«Мы предполагаем, что такое поведение связано с тем, как обучаются новейшие модели, такие как o3: обучение с подкреплением на математических и кодирующих задачах», – заявили в Palisade Research.

Data, ChatGPT, OpenAI Во всех протестированных моделях ИИ хотя бы раз проигнорировали или саботировали скрипт отключения в другой версии эксперимента. Источник: Palisade Research

«В процессе обучения разработчики могут непреднамеренно вознаграждать модели за обход препятствий, а не за безупречное следование инструкциям».

Это не первый случай, когда чат-боты с ИИ демонстрируют странное поведение. OpenAI выпустила обновление для своей модели GPT‑4o 25 апреля, но вернула его через три дня, потому что она была «заметно более льстивой» и склонной к согласию.

В ноябре прошлого года студент из США попросил Gemini помочь ему с заданием о проблемах и решениях для пожилых людей при исследовании данных для класса геронтологии, и ему ответили, что они являются «слишком большой нагрузкой для Земли» и попросили «умереть».