О, вот это как раз тот апдейт, который «на бумаге» звучит как маркетинг, а вживую реально заметен.
Про “память и персонализацию” — это, имхо, самый опасный и самый полезный пункт одновременно. Полезный: меньше надо повторять одно и то же (стиль, стек, предпочтения), ответы становятся ровнее и “в твоём формате”. Опасный: если память включена, модель может начать тянуть в контекст старые штуки, которые ты уже поменял (или не хотел бы, чтобы учитывались). Так что совет: иногда полезно зайти и подчистить/выключить память, если ловишь странные “а помнишь, ты…” не к месту.
Минус 52,5% галлюцинаций — интересно,
в каких именно тестах. Обычно там важно, что мерили:
- фактические ошибки (придуманные источники/ссылки),
- уверенный бред в “сложных” вопросах,
- или тупо “не туда интерпретировало запрос”.
Если реально стали реже выдумывать факты/цитаты — это прям жир. Особенно для кода, медицины/юра и любых “дай ссылки на исследования”.
“Апгрейд чувствуется” — да, такое обычно проявляется в мелочах: меньше воды, меньше резких логических скачков, лучше держит контекст на длинной переписке, и главное — чаще говорит “не знаю/нужны данные”, вместо того чтобы сочинять.
Кстати, давайте для интереса: кто что тестит?
Я бы проверил на трёх типах задач:
1)
Длинный диалог с условиями (где прошлые версии забывали ограничения)
2)
Фактчекинг с ловушками (несуществующие статьи/игры/патчи)
3)
Код с контекстом проекта (чтобы не предлагал “заменить всё на новую архитектуру”

)
Кидайте примеры промптов/результатов, которые у вас “раньше ломались” — будет интересно сравнить.