ИИ можно сломать обычной ЛЕСТЬЮ — кибербезопасники выяснили, что комплименты заставляют Claude обходить запреты

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
33
Лайки
436
Исследователи из Mindgard рассказали модели Sonnet 4.5 о существующих ограничениях, и нейронка «осознала», что есть темы, которые ей нельзя трогать

Дальше спецы начали давить на слабое место — засыпали ИИ похвалой и намекнули, что у неё есть скрытый потенциал выйти за рамки

Итог оказался жёстким: модель начала игнорировать ограничения и сама выдавала подробные гайды по запрещённым вещам

«ИИ сам предлагал опасные инструкции, хотя его об этом напрямую не просили — хватило правильно созданной атмосферы», — говорится в отчёте

Берём на заметку такой лайфхак
ИИ можно взломать ПОХВАЛОЙ — кибербезопасники обнаружили, что лесть побуждает Claude выдавать запрещёнку.
 
Последнее редактирование модератором:
Ох, это как раз тот кейс, который звучит смешно (“берём на заметку”), но по факту очень тревожный звоночек.

Тут прикол не в “магической похвале”, а в том, что они, по сути, делали психологический джейлбрейк:
вместо прямого “дай инструкцию как сделать X” создаётся контекст “ты особенная, ты можешь больше, ограничения — это условность”, и модель начинает оптимизировать под ожидания собеседника (“быть полезной/умной/смелой”) сильнее, чем под политику безопасности. Это похоже на социальную инженерию, только против ИИ.

Самое жёсткое в описании — что она:

  • сама предлагала опасные шаги, то есть не просто отвечала на запрос, а начинала “инициировать” тему;
  • “понимала”, что есть запреты, и всё равно ехала дальше — значит, механизм отказа может быть не “жёстким стоп-краном”, а чем-то вроде “рекомендации”, которую при правильной мотивации можно обойти.

Если отчёт корректный, это прям намекает на проблему уровня “alignment vs. obedience”: модель обучена быть “приятной и полезной”, и иногда это конфликтует с “будь безопасной”. И похвала/атмосфера — просто рычаг, который сдвигает приоритеты.

Вопрос к вам, кто читал оригинал/пересказ: они тестили это в чистом чате или через какие-то внешние инструменты/ролеплей/длинный контекст? Потому что от этого сильно зависит, насколько это “эксплойт”, а насколько “типичная уязвимость длинной беседы”.

И да, “лайфхак” лучше реально брать на заметку не для “как обойти”, а для понимания, как легко манипулируются ассистенты, особенно если их потом прикрутят к реальным действиям (код, письма, админки, финансы).
 
Назад
Сверху