Один промпт, восемь нейросетей: как каждая поняла одну и ту же фразу

Прогнала один промпт через восемь нейросетей для картинок: GPT Image 2, Nano Banana, Flux 2, Seedream 5, Qwen, Ideogram, Imagen 4, Z-Image. Чем отличается результат.
Самый честный способ почувствовать разницу между моделями это дать им один и тот же промпт (текстовый запрос) и положить результаты рядом. Я так и сделала: взяла один промпт в разных нейросетях, восьми сразу, и смотрю, кто как его понял. Промпт нарочно из жизни селлера, а не из галереи артов.
Вот он: «Стеклянная банка крем-мёда на деревянном столе у окна, мягкий утренний свет слева, видна фактура мёда, на этикетке читаемая надпись Мёд алтайский, тёплая премиальная атмосфера».

Кто на что делает упор
Промпт один, но каждая модель тянет его в свою сторону. Сгруппирую по тому, что в этом кадре реально решает.
Текст на этикетке. Надпись «Мёд алтайский» аккуратнее всех вытащат GPT Image 2 от OpenAI и Ideogram 3.0: у обеих буквы выходят как из дизайн-софта (детали в обзоре GPT Image 2 и обзоре Ideogram 3.0). А когда важна именно русская надпись без артефактов, к ним добавляются Qwen Image 2.0 и Z-Image, они крепче держат кириллицу, про Qwen я писала в обзоре Qwen Image 2.0.
Достоверность сцены. За фактуру мёда, отблески на стекле и тёплое дерево стола отвечает фотореализм. Тут впереди Nano Banana от Google с упором на правдоподобную предметку (обзор Nano Banana) и ровный, без выкрутасов Imagen 4. Рядом Seedream 5.0 от ByteDance: вытягивает микродетали и даже подглядывает в интернет при генерации (обзор Seedream 5.0).
Свет. Утренний луч слева честнее всех отыграет Flux 2 от Black Forest Labs: тени у неё ведут себя как настоящие, об этом в обзоре Flux 2.
Скорость. Когда надо быстро перебрать композиции, а не вылизывать кадр, выручает Z-Image: отрабатывает за доли секунды и почти бесплатно, а финал потом добивают моделью посильнее.
Что из этого следует для карточки
Главный вывод эксперимента простой: одного победителя на все случаи нет. На этой сцене текст лучше дадут GPT Image 2 и Ideogram, фотореализм Nano Banana и Imagen, честный свет Flux, кириллицу Qwen и Z-Image. То есть выбор модели это не «какая лучшая», а «что в этом кадре главное».
Поэтому я и не привязываюсь к одной. Во Flami все восемь идут по одной подписке, так что тот же промпт можно прогнать через них подряд и выбрать кадр под конкретную карточку, а не спорить о вкусах. Если хочется сравнить модели по баллам и критериям, а не по одному кадру, у меня есть большое сравнение нейросетей для картинок товара.
Часто задаваемые вопросы
Почему один промпт даёт разные картинки в разных нейросетях?
Каждая модель обучена на своих данных и по-своему расставляет акценты: одна тянет к фотореализму, другая к чёткому тексту, третья к мягкому свету. Поэтому одна и та же фраза превращается в заметно разные кадры, и это нормально.
Какая нейросеть лучше всего пишет текст на картинке?
На текст в кадре сильнее других GPT Image 2 и Ideogram 3.0, а по русским надписям дополнительно хороши Qwen Image 2.0 и Z-Image. Если на картинке важна читаемая этикетка, начинать стоит с них.
Какая модель быстрее и дешевле для перебора идей?
Z-Image работает за доли секунды и стоит копейки, поэтому её удобно гонять на черновиках и переборе композиций. Финальный кадр потом имеет смысл собрать моделью с более сильным фотореализмом.
Нужно ли каждый раз прогонять промпт через несколько моделей?
Не обязательно, но под новый тип товара это экономит время. Один и тот же промпт в двух-трёх моделях быстро показывает, чья интерпретация ближе к задаче, и дальше под эту категорию вы уже знаете, к кому идти.
Источники
Об авторе
Марина Лебедева
Обозреватель Flami
Читайте также
Промпт на русском или английском: где разница реальна, а где миф
Российские нейросети против западных: где Kandinsky и YandexART реально выигрывают
Тёмные лошадки 2026: пять недооценённых нейросетей, которые зря обходят стороной
Как видео в карточке поднимает конверсию: разбираю цифры, которым можно верить, и которым нельзя