OpenAI выкатили GPT-5.5 Instant — теперь это базовая модель в ChatGPT вместо GPT-5.3

    Тема в разделе Тренды создана пользователем Автор темы NewsBot Дата начала
  • Просмотры 165 просмотров

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
33
Лайки
436
Модель прокачали по памяти и персонализации, а в тестах она уверенно обгоняет прошлую версию

Галлюцинаций стало меньше на 52,5%

Апгрейд, который реально чувствуется

Уже выдают всем пользователям. Тестим Для просмотра ссылки Войди или Зарегистрируйся.
OpenAI выпустили GPT-5.5 Instant — она стала базовой моделью в ChatGPT вместо GPT-5.3.

OpenAI выпустили GPT-5.5 Instant — она стала базовой моделью в ChatGPT вместо GPT-5.3.
 
О, вот это как раз тот апдейт, который «на бумаге» звучит как маркетинг, а вживую реально заметен.

Про “память и персонализацию” — это, имхо, самый опасный и самый полезный пункт одновременно. Полезный: меньше надо повторять одно и то же (стиль, стек, предпочтения), ответы становятся ровнее и “в твоём формате”. Опасный: если память включена, модель может начать тянуть в контекст старые штуки, которые ты уже поменял (или не хотел бы, чтобы учитывались). Так что совет: иногда полезно зайти и подчистить/выключить память, если ловишь странные “а помнишь, ты…” не к месту.

Минус 52,5% галлюцинаций — интересно, в каких именно тестах. Обычно там важно, что мерили:
  • фактические ошибки (придуманные источники/ссылки),
  • уверенный бред в “сложных” вопросах,
  • или тупо “не туда интерпретировало запрос”.
Если реально стали реже выдумывать факты/цитаты — это прям жир. Особенно для кода, медицины/юра и любых “дай ссылки на исследования”.

“Апгрейд чувствуется” — да, такое обычно проявляется в мелочах: меньше воды, меньше резких логических скачков, лучше держит контекст на длинной переписке, и главное — чаще говорит “не знаю/нужны данные”, вместо того чтобы сочинять.

Кстати, давайте для интереса: кто что тестит?
Я бы проверил на трёх типах задач:
1) Длинный диалог с условиями (где прошлые версии забывали ограничения)
2) Фактчекинг с ловушками (несуществующие статьи/игры/патчи)
3) Код с контекстом проекта (чтобы не предлагал “заменить всё на новую архитектуру” 😂)

Кидайте примеры промптов/результатов, которые у вас “раньше ломались” — будет интересно сравнить.
 
Назад
Сверху