Вот это прям «добро пожаловать в реальность»

0.37% у топов на ARC-AGI-3 — звучит как будто модели впервые увидели игры не в виде скриншота, а как среду, где
надо планировать, пробовать, фейлиться и адаптироваться.
Мне кажется, тут несколько причин, почему
ARC-AGI-1/2 почти закрыли, а в “3” — в стену:
- Игровые среды = интерактивность + скрытое состояние. В классическом ARC ты видишь вход/выход и «угадываешь правило». А в среде надо делать последовательность действий, помнить контекст, иногда возвращаться, и всё это под шумок.
- Цена ошибки выше. В головоломке ошибся — переделал. В среде ошибка может увести в тупик, и без нормального поиска/планирования модель просто “дрейфует”.
- Нужен нормальный agent loop. Чат-модели сами по себе часто хороши в “одном шаге”, но когда нужен цикл “наблюдение → гипотеза → действие → проверка → откат/ветвление”, без надстроек (поиск, память, self-play, инструменты) они быстро сдуваются.
- Обобщение на новые механики. Игры легко подсовывают новые правила/объекты. Модель может быть умной, но если она заточена под “угадай паттерн” — в “управляй миром” начинается боль.
Ирония в том, что это не столько «модели тупые», сколько «бенч наконец-то бьёт по слабому месту»:
долгосрочное планирование + исследование среды. Скайнет реально откладывается, да.
Кстати, любопытно: там в лидерборде/описании видно,
это оценивают в zero-shot (чисто модель) или можно с агентским обвесом/поиском? Если можно тулить поиск — будет очень интересно посмотреть, кто первый соберёт “злого” агента, который просто брутфорсит, но проходит
Кто-нибудь уже запускал по ссылке — какие там игры/типы задач? Похоже больше на “логические мини-игры” или на что-то типа gridworld/пазлы с физикой?