Инфографика и текст на картинке товара нейросетью: как собрать карточку без дизайнера

Как сделать инфографику и текст на картинке товара через нейросеть: какие модели держат шрифты, как писать промпт под подписи и иконки. Практика для карточек WB и Ozon.
Инфографика на карточке делает половину продажи: характеристики, выгоды, размеры, всё это покупатель считывает за пару секунд, не читая описание. Раньше её рисовал дизайнер, за деньги и не за пять минут. Я Марина, веду визуал во Flami, и в этом гайде разберу, как собрать нормальную инфографику и текст на картинке товара нейросетью, без макетного софта и без «AI-каши» вместо букв.
Сразу важное: инфографика это тот самый случай, где большинство моделей сыпется. Текст в кадре исторически их слабое место. Поэтому сначала про то, какие модели вообще годятся, а потом как с ними разговаривать, чтобы шрифты не поплыли.
Почему обычная модель не годится для инфографики
Если взять случайный генератор картинок и попросить «инфографику с характеристиками», получите красивый фон и нечитаемую кашу вместо подписей. Текст для большинства моделей это не текст, а узор, похожий на буквы. Для лица модели или фактуры ткани это не страшно, для инфографики смертельно, там весь смысл в читаемости.
Поэтому под инфографику нужны модели из узкой группы, которые специально умеют типографику. Их немного, и вот они.
Три модели, которым можно доверить текст
Ideogram 3.0 для типографики у меня первый выбор, когда картинка существует ради текста. По точности рендера надписей она лучшая на рынке. Плюс функция Layerize превращает текст в редактируемый слой, поправить подпись или поменять цифру можно без перегенерации всей карточки. Для инфографики, где после правок клиента вечно «поменяйте 30 на 40%», это спасение. Подробный разбор Ideogram 3.0 у меня отдельный.
Nano Banana от Google берёт там, где нужен и точный текст, и продуманная композиция вокруг него. Она на движке рассуждений, понимает пространственные отношения и расставляет подписи точно по нужным точкам, а не «куда-нибудь, лишь бы влезло». Иконки, выноски, схема товара с подписями деталей, всё это её сильная сторона. Кириллицу держит, и неплохо. Смотрите обзор Nano Banana.
А Flux 2 для продуктовых сцен я добавляю, когда инфографика идёт поверх фотореалистичного товара и важен точный фирменный цвет. Flux воспроизводит HEX-код пиксель-в-пиксель, поэтому фон и плашки совпадают с брендбуком. Текст он тоже держит аккуратно, хотя по сложным надписям я ему доверяю чуть меньше, чем Ideogram, тут уж как сцена ляжет. Разбор Flux 2 с примерами тоже почитайте.
Это рабочая тройка. Если в инфографике много именно русского текста, добавьте к ним Qwen Image 2.0, она крепка по кириллице, я разбирала это в материале про русский текст.
Как писать промпт под инфографику
Тут логика отличается от обычной генерации. Главное правило: текст, который должен появиться, пишите в промпте дословно и в кавычках. Не «подпись про водостойкость», а прямо «надпись: Водостойкий до 50 метров». Модель отрендерит ровно то, что в кавычках.
Дальше задавайте структуру кадра, где что лежит. Модели типографики понимают пространственные команды: «в левом верхнем углу заголовок, по центру товар, справа три иконки преимуществ с подписями снизу». Чем понятнее раскладка, тем меньше модель импровизирует.
Вот рабочая заготовка для карточки:
«Инфографика карточки товара для маркетплейса, формат 3:4, чистый светлый фон. По центру [товар] крупно. Сверху заголовок: "[Название товара]". Слева три иконки с короткими подписями: "[выгода 1]", "[выгода 2]", "[выгода 3]". Снизу плашка с надписью: "[ключевая характеристика]". Аккуратная сетка, читаемый шрифт без засечек, фирменный цвет фона #[HEX]. Стиль чистый, минималистичный, как премиальная карточка Wildberries».
Подставляете свои значения. Чем конкретнее текст в кавычках и проще раскладка, тем чище результат.
Частые ошибки, на которых каша возвращается
Самая частая, по моему опыту, это когда текста в один кадр напихано слишком много. Чем больше надписей, тем выше шанс, что часть поплывёт. Если характеристик много, разбейте на 2-3 карточки галереи, а не лепите всё в одну. И покупателю так легче считывать.
Дальше мелкий шрифт абзацем. Длинный текст мелким кеглем не держит почти никто. Нужен состав или инструкция целиком, тогда либо берите Wan 2.7 Image с её плотной типографикой и нативным 4K (про неё отдельный обзор), либо оставляйте длинный текст на обычную плашку, а нейросеть пускайте на визуал и крупные подписи.
И ещё ловушка: текст не в кавычках. Напишете в промпте «подпись о гарантии» вместо «надпись: Гарантия 2 года», и модель сама придумает формулировку, нередко с ошибкой. Диктуйте дословно.
И главное, проверяйте глазами каждую готовую инфографику до загрузки. Даже хорошая модель раз в несколько генераций путает букву или цифру, а на карточке это выглядит как брак. Поймать опечатку до публикации дешевле, чем ловить вопросы покупателей потом.
Как собрать это во Flami
Все модели из гайда лежат в одной подписке Flami. Под инфографику я обычно делаю так: основу с товаром и фоном генерю на Flux 2 или Nano Banana, а если текст сложный и его много, финальную версию с подписями собираю на Ideogram 3.0 ради Layerize, чтобы потом было удобно править цифры.
Если возиться с промптами не хочется, а нужна серия однотипных карточек, проще взять режим «Видео из товара» и шаблоны: туда уже зашита раскладка, вы подставляете свой товар. Но для штучной инфографики под конкретный хит ручная сборка даёт больше контроля. Начните с простой раскладки и коротких подписей, усложните потом, это дешевле, чем сразу гнать перегруженный кадр и удивляться каше.
Собрать инфографику для своей карточки → flami.pro
Часто задаваемые вопросы
Какая нейросеть лучше для инфографики и текста на картинке? Ideogram 3.0 (точность текста 90–95% плюс редактируемые слои Layerize), Nano Banana (точный текст и продуманная композиция) и Flux 2 (когда важен фирменный цвет). Для длинного русского текста добавьте Qwen Image 2.0 или Wan 2.7 Image.
Как заставить нейросеть написать точный текст на картинке? Пишите нужный текст в промпте дословно и в кавычках: не «подпись про гарантию», а «надпись: Гарантия 2 года». Модель отрендерит ровно то, что в кавычках. И задавайте раскладку, где какой элемент лежит.
Почему нейросеть пишет кашу вместо букв? Для большинства моделей текст это узор, похожий на буквы, а не настоящий текст. Поэтому под инфографику годятся только модели, специально обученные типографике: Ideogram 3.0, Nano Banana, Flux 2, а для русского ещё Qwen Image 2.0.
Можно ли поправить цифру в готовой инфографике? Да, у Ideogram 3.0 функция Layerize делает текст редактируемым слоем, цифру или слово можно поменять без перегенерации. Это удобно, когда клиент просит «поменяйте 30 на 40%».
Сколько подписей помещать на одну карточку? Чем меньше, тем чище результат и легче считывание. Если характеристик много, разбейте на 2-3 карточки галереи, а не перегружайте одну: иначе и текст поплывёт, и покупатель не разберёт.
Источники
Об авторе
Марина Лебедева
Обозреватель Flami