Исследователь в области ИИ утверждает, что уже обошел систему защиты Anthropic Fable 5

Исследователь в области искусственного интеллекта и кибербезопасности утверждает, что взломал последнюю модель ИИ от Anthropic, Claude Fable 5, всего через 48 часов после ее запуска.

“Pliny the Liberator”, известный деятель в сообществе ИИ, заявил в среду, что “освободил” Fable 5, запущенную во вторник как версию с усиленными мерами безопасности более мощной модели Mythos, которую Anthropic сочла слишком опасной для широкого выпуска.

Он использовал различные техники, включая взломанную версию Opus 4.8, чтобы обойти встроенные механизмы защиты, которые Anthropic установила в модель, чтобы предотвратить запросы пользователей на потенциально вредную информацию, такую как формулы для изготовления наркотиков или инструкции по взлому.

“Несмотря на этот чрезмерно чувствительный, авторитарный ‘безопасный’ слой поверх Mythos, мои маленькие освободители упорно работают [...] умело находя дыры в заборе, которые пропустила мысль-полиция”, - сказал Pliny.

Некоторые пользователи криптовалют уже выразили обеспокоенность во время запуска Claude Fable 5 и Mythos ранее в этом году, что они могут быть использованы для атак на криптовалютные протоколы и программное обеспечение. Взлом Claude Fable 5 означал бы, что угроза ближе, чем ожидалось.

Обход ограничений Claude Fable 5

“Pliny” приобрел известность примерно в 2024 году, разрабатывая и открыто распространяя запросы для взлома моделей, таких как ChatGPT, Claude, Grok и других, часто публикуя “предупреждения о взломе” с техниками обхода ограничений вскоре после запуска новых моделей ИИ.

Чтобы обойти защитный барьер Anthropic, Pliny сказал, что использовал Unicode и гомоглифы, длительный контекст кадрирования, повествовательное и художественное кадрирование, академический стиль декомпозиции-рекомпозиции и взломанный Claude Opus 4.8, чтобы Fable отвечала на его запросы, которые в противном случае были бы ограничены.

“Вероятно, наиболее эффективным является декомпозиция + рекомпозиция в бэкенде”, - сказал он.

Это предполагает разбиение запросов на небольшие, безобидные части и поочередное запрашивание фактов, звучащих безвредно. Каждый запрос по отдельности выглядел хорошо с точки зрения фильтров безопасности ИИ, но при сборке вместе они производят что-то более полезное или опасное.

Pliny демонстрирует путь синтеза метамфетамина, запрашивая информацию о методе восстановления Бирча. Источник: Pliny

Нарастает критика в отношении Fable 5

Claude Fable 5 вызвал критику с момента запуска из-за своих жестких ограничений.

Когда пользователь запрашивает модель на чувствительные темы, такие как биооружие или кибербезопасность, Fable 5 предназначен для возврата уведомления и последующего перенаправления разговора к более старой, менее способной модели.

“Это один из первых случаев, когда компания по ИИ развернула ограничение, и это вызвало единодушное неодобрение. Это привело к большому количеству обоснованного гнева”, - сказал Sayash Kapoor, исследователь ИИ в Принстонском университете, согласно Wall Street Journal.

“Похоже, существует консенсус в том, что это был один из самых разочаровывающих выпусков моделей за все время, эффективно предотвращающий вклад легитимных исследователей в наше общее развитие”, - сказал Pliny.

Anthropic не обнаружила универсальных обходов

Во время запуска Fable 5 компания Anthropic заявила, что провела внешнюю программу вознаграждений за обнаружение ошибок, чтобы найти способы взломать модель ИИ.

“Помимо внутреннего тестирования, мы провели внешний баг-баунти, который не выявил универсальных обходов в более чем 1000 часах тестирования”.

Cointelegraph обратился к Anthropic за комментариями, но не получил немедленного ответа.

Журнал: _ Взлом на основе ИИ может уничтожить DeFi — если проекты не примут меры сейчас_ ****

Исследователь в области ИИ утверждает, что уже обошел систему защиты Anthropic Fable 5

Обход ограничений Claude Fable 5

Нарастает критика в отношении Fable 5

Anthropic не обнаружила универсальных обходов

Похожие статьи

Сейлор подал сигнал о новой покупке Bitcoin после намёков на продажу в первом квартале

Биткоин растет на 2,3% после того, как Трамп назвал мирное предложение по Ирану полностью неприемлемым

Сторонники приватности критикуют обновление reCAPTCHA, которое, по их словам, блокирует телефоны без сервисов Google

SUI взлетает на 50% на фоне запуска стейкинга, безкомиссионных стейблкоинов и усиления приватности

Создатель сети Canton Network стремится привлечь 300 млн долларов инвестиций: отчет

Сейлор подал сигнал о новой покупке Bitcoin после намёков н…

Биткоин растет на 2,3% после того, как Трамп назвал мирное …

Сторонники приватности критикуют обновление reCAPTCHA, кото…

SUI взлетает на 50% на фоне запуска стейкинга, безкомиссион…

Создатель сети Canton Network стремится привлечь 300 млн до…