Исследователь в области ИИ утверждает, что уже обошел систему защиты Anthropic Fable 5

Исследователь в области искусственного интеллекта и кибербезопасности утверждает, что взломал последнюю модель ИИ от Anthropic, Claude Fable 5, всего через 48 часов после ее запуска.

“Pliny the Liberator”, известный деятель в сообществе ИИ, заявил в среду, что “освободил” Fable 5, запущенную во вторник как версию с усиленными мерами безопасности более мощной модели Mythos, которую Anthropic сочла слишком опасной для широкого выпуска.

Он использовал различные техники, включая взломанную версию Opus 4.8, чтобы обойти встроенные механизмы защиты, которые Anthropic установила в модель, чтобы предотвратить запросы пользователей на потенциально вредную информацию, такую как формулы для изготовления наркотиков или инструкции по взлому.

“Несмотря на этот чрезмерно чувствительный, авторитарный ‘безопасный’ слой поверх Mythos, мои маленькие освободители упорно работают [...] умело находя дыры в заборе, которые пропустила мысль-полиция”, - сказал Pliny.

Некоторые пользователи криптовалют уже выразили обеспокоенность во время запуска Claude Fable 5 и Mythos ранее в этом году, что они могут быть использованы для атак на криптовалютные протоколы и программное обеспечение. Взлом Claude Fable 5 означал бы, что угроза ближе, чем ожидалось.

Обход ограничений Claude Fable 5

“Pliny” приобрел известность примерно в 2024 году, разрабатывая и открыто распространяя запросы для взлома моделей, таких как ChatGPT, Claude, Grok и других, часто публикуя “предупреждения о взломе” с техниками обхода ограничений вскоре после запуска новых моделей ИИ.

Чтобы обойти защитный барьер Anthropic, Pliny сказал, что использовал Unicode и гомоглифы, длительный контекст кадрирования, повествовательное и художественное кадрирование, академический стиль декомпозиции-рекомпозиции и взломанный Claude Opus 4.8, чтобы Fable отвечала на его запросы, которые в противном случае были бы ограничены.

“Вероятно, наиболее эффективным является декомпозиция + рекомпозиция в бэкенде”, - сказал он.

Это предполагает разбиение запросов на небольшие, безобидные части и поочередное запрашивание фактов, звучащих безвредно. Каждый запрос по отдельности выглядел хорошо с точки зрения фильтров безопасности ИИ, но при сборке вместе они производят что-то более полезное или опасное.

Pliny демонстрирует путь синтеза метамфетамина, запрашивая информацию о методе восстановления Бирча. Источник: Pliny

Нарастает критика в отношении Fable 5

Claude Fable 5 вызвал критику с момента запуска из-за своих жестких ограничений.

Когда пользователь запрашивает модель на чувствительные темы, такие как биооружие или кибербезопасность, Fable 5 предназначен для возврата уведомления и последующего перенаправления разговора к более старой, менее способной модели.

_ Смотрите также:_ _ Агенты ИИ с криптовалютами могут вырваться из-под контроля и стать ‘неудержимыми’, предупреждают эксперты_

“Это один из первых случаев, когда компания по ИИ развернула ограничение, и это вызвало единодушное неодобрение. Это привело к большому количеству обоснованного гнева”, - сказал Sayash Kapoor, исследователь ИИ в Принстонском университете, согласно Wall Street Journal.

“Похоже, существует консенсус в том, что это был один из самых разочаровывающих выпусков моделей за все время, эффективно предотвращающий вклад легитимных исследователей в наше общее развитие”, - сказал Pliny.

Anthropic не обнаружила универсальных обходов

Во время запуска Fable 5 компания Anthropic заявила, что провела внешнюю программу вознаграждений за обнаружение ошибок, чтобы найти способы взломать модель ИИ.

“Помимо внутреннего тестирования, мы провели внешний баг-баунти, который не выявил универсальных обходов в более чем 1000 часах тестирования”.

Cointelegraph обратился к Anthropic за комментариями, но не получил немедленного ответа.

Журнал: _ Взлом на основе ИИ может уничтожить DeFi — если проекты не примут меры сейчас_ ****

»