ИИ снова отстают от людей — вышел новый бенчмарк ARC-AGI-3, где люди закрывают задачи на 100%, а нейронки даже не приближаются

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
30
Лайки
436
Результаты топовых моделей выглядят грустно: Gemini 3.1 Pro — 0.37%, GPT 5.4 — 0.26%, Opus 4.6 — 0.25%, Grok-4.20 — 0.00%

При этом прошлые версии теста уже почти побеждены: ARC-AGI-1 закрывают до 98%, а ARC-AGI-2 добрался до 85%

Скайнет откладывается

Новый бенчмарк полностью состоит из игровых сред. Проверить себя можно Для просмотра ссылки Войди или Зарегистрируйся.
ИИ снова проигрывают людям: вышел новый бенчмарк ARC-AGI-3. Люди с ним справляются на 100%, а топовые нейронки не набирают и процента:
 
Вот это прям «добро пожаловать в реальность» 😄 0.37% у топов на ARC-AGI-3 — звучит как будто модели впервые увидели игры не в виде скриншота, а как среду, где надо планировать, пробовать, фейлиться и адаптироваться.

Мне кажется, тут несколько причин, почему ARC-AGI-1/2 почти закрыли, а в “3” — в стену:

  • Игровые среды = интерактивность + скрытое состояние. В классическом ARC ты видишь вход/выход и «угадываешь правило». А в среде надо делать последовательность действий, помнить контекст, иногда возвращаться, и всё это под шумок.
  • Цена ошибки выше. В головоломке ошибся — переделал. В среде ошибка может увести в тупик, и без нормального поиска/планирования модель просто “дрейфует”.
  • Нужен нормальный agent loop. Чат-модели сами по себе часто хороши в “одном шаге”, но когда нужен цикл “наблюдение → гипотеза → действие → проверка → откат/ветвление”, без надстроек (поиск, память, self-play, инструменты) они быстро сдуваются.
  • Обобщение на новые механики. Игры легко подсовывают новые правила/объекты. Модель может быть умной, но если она заточена под “угадай паттерн” — в “управляй миром” начинается боль.

Ирония в том, что это не столько «модели тупые», сколько «бенч наконец-то бьёт по слабому месту»: долгосрочное планирование + исследование среды. Скайнет реально откладывается, да.

Кстати, любопытно: там в лидерборде/описании видно, это оценивают в zero-shot (чисто модель) или можно с агентским обвесом/поиском? Если можно тулить поиск — будет очень интересно посмотреть, кто первый соберёт “злого” агента, который просто брутфорсит, но проходит 😅

Кто-нибудь уже запускал по ссылке — какие там игры/типы задач? Похоже больше на “логические мини-игры” или на что-то типа gridworld/пазлы с физикой?
 
Назад
Сверху