Один промпт в восьми нейросетях: что вышло

Прогнала один промпт через восемь нейросетей для картинок: GPT Image 2, Nano Banana, Flux 2, Seedream 5, Qwen, Ideogram, Imagen 4, Z-Image. Чем отличается результат.

Самый честный способ почувствовать разницу между моделями это дать им один и тот же промпт (текстовый запрос) и положить результаты рядом. Я так и сделала: взяла один промпт в разных нейросетях, восьми сразу, и смотрю, кто как его понял. Промпт нарочно из жизни селлера, а не из галереи артов.

Вот он: «Стеклянная банка крем-мёда на деревянном столе у окна, мягкий утренний свет слева, видна фактура мёда, на этикетке читаемая надпись Мёд алтайский, тёплая премиальная атмосфера».

Кто на что делает упор

Промпт один, но каждая модель тянет его в свою сторону. Сгруппирую по тому, что в этом кадре реально решает.

Текст на этикетке. Надпись «Мёд алтайский» аккуратнее всех вытащат GPT Image 2 от OpenAI и Ideogram 3.0: у обеих буквы выходят как из дизайн-софта (детали в обзоре GPT Image 2 и обзоре Ideogram 3.0). А когда важна именно русская надпись без артефактов, к ним добавляются Qwen Image 2.0 и Z-Image, они крепче держат кириллицу, про Qwen я писала в обзоре Qwen Image 2.0.

Достоверность сцены. За фактуру мёда, отблески на стекле и тёплое дерево стола отвечает фотореализм. Тут впереди Nano Banana от Google с упором на правдоподобную предметку (обзор Nano Banana) и ровный, без выкрутасов Imagen 4. Рядом Seedream 5.0 от ByteDance: вытягивает микродетали и даже подглядывает в интернет при генерации (обзор Seedream 5.0).

Свет. Утренний луч слева честнее всех отыграет Flux 2 от Black Forest Labs: тени у неё ведут себя как настоящие, об этом в обзоре Flux 2.

Скорость. Когда надо быстро перебрать композиции, а не вылизывать кадр, выручает Z-Image: отрабатывает за доли секунды и почти бесплатно, а финал потом добивают моделью посильнее.

Что из этого следует для карточки

Главный вывод эксперимента простой: одного победителя на все случаи нет. На этой сцене текст лучше дадут GPT Image 2 и Ideogram, фотореализм Nano Banana и Imagen, честный свет Flux, кириллицу Qwen и Z-Image. То есть выбор модели это не «какая лучшая», а «что в этом кадре главное».

Поэтому я и не привязываюсь к одной. Во Flami все восемь идут по одной подписке, так что тот же промпт можно прогнать через них подряд и выбрать кадр под конкретную карточку, а не спорить о вкусах. Если хочется сравнить модели по баллам и критериям, а не по одному кадру, у меня есть большое сравнение нейросетей для картинок товара.

Часто задаваемые вопросы

Почему один промпт даёт разные картинки в разных нейросетях?

Каждая модель обучена на своих данных и по-своему расставляет акценты: одна тянет к фотореализму, другая к чёткому тексту, третья к мягкому свету. Поэтому одна и та же фраза превращается в заметно разные кадры, и это нормально.

Какая нейросеть лучше всего пишет текст на картинке?

На текст в кадре сильнее других GPT Image 2 и Ideogram 3.0, а по русским надписям дополнительно хороши Qwen Image 2.0 и Z-Image. Если на картинке важна читаемая этикетка, начинать стоит с них.

Какая модель быстрее и дешевле для перебора идей?

Z-Image работает за доли секунды и стоит копейки, поэтому её удобно гонять на черновиках и переборе композиций. Финальный кадр потом имеет смысл собрать моделью с более сильным фотореализмом.

Нужно ли каждый раз прогонять промпт через несколько моделей?

Не обязательно, но под новый тип товара это экономит время. Один и тот же промпт в двух-трёх моделях быстро показывает, чья интерпретация ближе к задаче, и дальше под эту категорию вы уже знаете, к кому идти.

Один промпт, восемь нейросетей: как каждая поняла одну и ту же фразу

Кто на что делает упор

Что из этого следует для карточки

Часто задаваемые вопросы

Источники