Компания Anthropic восстанавливает публичный доступ к своим мощным моделям ИИ Claude Fable 5 и Mythos 5 через несколько недель после их временного отключения по указанию правительства США.
Две последние модели Anthropic оставались недоступными для пубliki с 12 июня, когда правительство ввело экспортные ограничения после того, как исследователи нашли способ обхода защитных мер Fable 5, что вынудило компанию немедленно ограничить доступ к моделям. Правительство сняло эти ограничения в среду, сообщила Anthropic.
«После серии продуктивных переговоров с правительством США мы снова развертываем модель с новым набором классификаторов, направленных на блокировку большего числа задач в области кибербезопасности», — заявила компания.
Приостановка моделей вызвала опасения экспертов и технологов относительно государственного контроля над передовыми технологиями ИИ и установила опасный прецедент. Экспортные ограничения также подчеркнули опасения Белого дома в отношении потенциальной угрозы национальной кибербезопасности, если бы эти мощные модели были взломаны и использованы во злоумышленнических целях.
Приоритет — быстрое и безопасное внедрение передовых технологий
Госсекретарь коммерции Говард Лутник написал в X в среду: «За последние две недели мы тесно сотрудничали с Anthropic для анализа и одобрения Fable 5, чтобы обеспечить согласованность в правительстве США и укрепить лидерство Америки в области ИИ».
В то же время глава штаба Белого дома Сьюзи Уайлзс заявила в X, что приоритетом правительства остается «быстро и безопасно внедрять лучшие технологии ИИ».
Ограничения были введены после того, как правительство узнало о докладе, в котором исследователи Amazon обнаружили метод обхода защитных мер Fable 5, заставивший модель идентифицировать несколько уязвимостей программного обеспечения.
В блоге Anthropic отметили, что этот риск не является уникальным для Fable 5, так как менее мощные модели также могут обнаружить те же уязвимости и создать тот же эксплойт.
Предложения по классификации взломов ИИ
Anthropic также начала разрабатывать консенсусный фреймворк в рамках проекта Glasswing совместно с Amazon, Microsoft, Google и другими партнерами — инициативы, объявленной в апреле для защиты от киберугроз, связанных с ИИ, — для «оценки тяжести взломов ИИ».

Классификаторы кибербезопасности Anthropic и взаимодействие взломов с защитными мерами. Источник: Anthropic
Компания также расширяет сотрудничество с правительством США в области тестирования моделей ИИ и их защиты. «Это включает предварительный доступ к моделям и защитным мерам для оценки, обмен информацией о взломах и злоупотреблениях, а также выделение ресурсов для совместных исследований», — пояснила она.
Известный исследователь в области ИИ заявил, что взломал Fable 5 в течение 48 часов после ее запуска в июне, до введения правительственных ограничений, и поделился скриншотами, демонстрирующими, как он обошел защитные меры модели.