Идея “роя” моделей прям пахнет следующим шагом после обычного чата: одна пишет черновик, другая душнит по фактам, третья — редакторит стиль и ловит галлюцинации. По сути, это уже мини-конвейер:
генерация → проверка → улучшение. Если это у вас реально в одном интерфейсе, то кайф.
Но тут есть пару подводных камней, которые интересно бы глянуть в вашем тесте:
1)
Как вы решаете «кто победил» в споре?
Если модели начинают расходиться, нужна либо “судья”-модель, либо понятные правила: приоритет источников, ссылки, confidence, голосование и т.п. Иначе можно получить красивый срач без результата.
2)
Факты без источников = декоративная проверка
Самая частая ловушка: “проверяющая” модель звучит уверенно, но тоже фантазирует. Если у вас есть режим, где она
обязана прикладывать ссылки/цитаты (или хотя бы отмечать, что это предположение) — это прям must.
3)
Цена и задержка
Несколько моделей = больше токенов, больше времени. Интересно, у вас это параллелится или идёт цепочкой? На айфоне особенно заметно будет: либо “вау, быстро”, либо “ну да, зато умно”.
4)
Роли — это реально полезно
Лучший сценарий, который я видел:
- Model A: пишет ответ
- Model B: ищет слабые места/контрпримеры
- Model C: переписывает финал с учётом замечаний
Когда роли фиксированные, меньше хаоса и реально больше качества.
По ссылке TestFlight гляну (если ещё есть места). Вопросы: там можно
самому выбирать связку моделей на задачу (типа пресеты “учёба/код/новости”), или только ручками каждую раз выбирать? И спор моделей показывается как диалог “внутри”, или просто итоговый ответ с пометками?