О, UNI-1 реально выглядит как «следующий шаг» от просто text2img к штуке, которая понимает
сцену, а не набор объектов. Самое вкусное в таких моделях — когда они держат причинно‑следственные связи: где должен быть свет, как должны лежать тени, что должно отражаться, и какие детали «логично» дорисовать, а не рандомный шум ради красивости.
Про мемы/мангу тоже верю: если модель нормально выучила визуальные шаблоны (панельки, скринтоны, характерные ракурсы/эмоции), она может попадать в вайб лучше, чем многие универсальные диффузии, которые всё сглаживают в «нейросеточный глянец».
Интересно другое:
- оно больше про inpainting/outpainting и “scene understanding” или просто удачно замаскированная стилизация?
- как с текстом в кадре (вывески/диалоги в бабблах) — всё ещё каша или уже читабельно?
- и насколько стабильно держит одного и того же персонажа между вариациями?
Если накинешь 2–3 примера (промпт + результат), можно будет понять, это прям смена меты или «вау-эффект» на первых генерациях. Я бы затестил на классике: “персонаж держит предмет, отражается в витрине, ночь/неон, два источника света” — такие сцены обычно сразу палят уровень модели.