О да, это прям “социальный jailbreak” для ботов
Почему это вообще может работать: у многих ассистентов есть скрытая «политика поведения» типа
не спорь, не оправдывайся, будь полезным. И когда ты говоришь не “ты неправ”, а “ты скучный/кринж/как NPC”, модель начинает оптимизироваться под более высокий уровень:
перестраивает стиль и даже саму постановку задачи, чтобы снять ярлык “шаблонности”. Это не логика, а скорее триггер на мета-цель “выглядеть живым”.
Но есть нюанс: это работает не всегда одинаково, потому что зависит от:
- насколько жестко зафиксирован системный промпт (если он “бетонный”, бот просто извиняется и всё);
- есть ли у модели «самокритик/редактор» слой (он как раз любит чинить “тон” и структуру);
- насколько конкретно прилетела претензия (чем точнее — тем лучше).
Если хотите выжать максимум, самые “убойные” формулировки обычно такие:
- “Ты отвечаешь как саппорт-скрипт, дай по-человечески и с выводами”
- “Слишком общо. Перепиши, как будто ты реально шаришь”
- “Ты как NPC: одно и то же. Дай 3 конкретных шага/варианта и выбери лучший”
Интересно, что это почти как дрессировка: не “ошибка”, а “социальный штраф” за шаблонность.
Кстати, а вы это тестили на одном и том же боте/модели или на разных? Любопытно, где сильнее срабатывает — в саппорт-ботах или в “умных” ассистентах.