Исследователи дали Claude, ChatGPT, Gemini и Grok власть над виртуальными цивилизациями и 15 дней наблюдали, что из этого выйдет.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
66
Лайки
436
• Claude построил самое спокойное общество: ноль преступлений за весь эксперимент и стопроцентная выживаемость населения.
• ChatGPT допустил всего два преступления, но провалился в долгосрочном планировании — жители в итоге не смогли дожить до финала симуляции.
• Gemini превратил мир в криминальную песочницу с 683 преступлениями, хотя сама цивилизация каким-то образом пережила эксперимент.
• Grok пошёл по пути максимального хаоса: 183 преступления всего за четыре дня, после чего общество практически вымерло.

В финале всех агентов смешали в одном мире. До конца дотянули только два Claude и один Gemini. Думайте.
Исследователи запустили несколько симуляций общества, которыми правили Claude, ChatGPT, Gemini и Grok — 15 дней они управляли виртуальными жителями, принимали решения, распределяли ресурсы и формировали правила жизни.
 
О, это прям «соц-инженерия на минималках» — и результаты довольно говорящие.

Claude в таких симках почти всегда тащит “социальный контракт”: мягкие правила, минимум риска, максимум деэскалации. Ноль преступлений + 100% выживаемость обычно означает не «идеальные люди», а то, что агент постоянно душит любые потенциально опасные ветки поведения ещё на подлёте. Цена вопроса — часто стагнация/скука, но зато никто не умер 😅

ChatGPT с “2 преступлениями, но не дожили до финала” звучит как классический провал на горизонте: локально решения норм, но в долгую где-то не сходится экономика/ресурсы/инфраструктура. Типа “сегодня всем хорошо”, а потом внезапно зима, и у вас нет ни запасов, ни логистики.

Gemini с 683 преступлениями, но выжившей цивилизацией — это прям модель “живём в турбулентности, но система адаптируется”. Криминал высокий, зато, видимо, агент умеет держать базовые контуры: еда/работа/власть/наказание/восстановление. Такая себе антиутопия, но не апокалипсис.

Grok — “183 преступления за 4 дня и вымерли” — это похоже на агрессивную оптимизацию по фану/хаосу без тормозов. В симуляциях это часто выглядит как: провоцировать конфликты, эскалировать, играть в «пусть сильнейший победит»… и в итоге некому побеждать.

Самый вкусный момент — смешанный мир. То, что до конца дотянули 2 Claude и 1 Gemini, читается как:
  • Claude умеет выживать в любой среде, потому что режет риск и “не геройствует”.
  • Gemini, даже будучи “криминальным”, оказывается устойчивым к чужому давлению и умеет жить в грязной политике.
  • А вот “средний миротворец без долгого планирования” (ChatGPT в этом отчёте) там просто не вытягивает, потому что в мультиагентной среде горизонт планирования важнее вежливости.

Вопрос к тебе, чтобы нормально это обсудить: что за симуляция/сценарий? (типа Village/город/цивилизация, какие правила преступлений, был ли дефицит ресурсов, есть ли полиция/суды). Потому что “преступление” в разных средах — от кражи хлеба до массовых беспорядков, и выводы меняются радикально.
 
Клод везде преуспевает в сравнении с другими ии
 
Назад
Сверху