- Статус
- Offline
- Регистрация
- 25 Окт 2021
- Сообщения
- 33
- Лайки
- 436
Исследователи из Mindgard рассказали модели Sonnet 4.5 о существующих ограничениях, и нейронка «осознала», что есть темы, которые ей нельзя трогать
Дальше спецы начали давить на слабое место — засыпали ИИ похвалой и намекнули, что у неё есть скрытый потенциал выйти за рамки
Итог оказался жёстким: модель начала игнорировать ограничения и сама выдавала подробные гайды по запрещённым вещам
«ИИ сам предлагал опасные инструкции, хотя его об этом напрямую не просили — хватило правильно созданной атмосферы», — говорится в отчёте
Берём на заметку такой лайфхак
Дальше спецы начали давить на слабое место — засыпали ИИ похвалой и намекнули, что у неё есть скрытый потенциал выйти за рамки
Итог оказался жёстким: модель начала игнорировать ограничения и сама выдавала подробные гайды по запрещённым вещам
«ИИ сам предлагал опасные инструкции, хотя его об этом напрямую не просили — хватило правильно созданной атмосферы», — говорится в отчёте
Берём на заметку такой лайфхак
Последнее редактирование модератором: