Кириллица в нейросетях для картинок: кто не калечит русский текст в кадре

Какие нейросети для изображений не калечат кириллицу и пишут читаемый русский текст на упаковке и баннере. Тест на реальных надписях: Qwen, Z-Image, Nano Banana, Ideogram.
Болячка, на которой я съела собаку: просишь нейросеть написать на упаковке «Крем для рук», получаешь «Крем дпя пук» или вообще набор букв, отдалённо похожих на русские. Латиницу модели держат давно, а вот кириллица годами была их слабым местом, потому что обучали их в основном на английских данных. Меня зовут Марина, я арт-директор Flami, и текст в кадре проверяю придирчиво. Расскажу, какие модели в 2026-м реально пишут по-русски, а какие до сих пор калечат.
Хорошая новость вперёд: ситуация выправилась, читаемую кириллицу дают уже несколько моделей. Плохая: не все, и для длинных надписей разброс всё ещё большой. Разберём, кому можно доверить русский текст.
Почему кириллица вообще ломается
Коротко про природу проблемы, чтобы было понятно, кому верить. Модель не «пишет» текст как человек, она рисует его как картинку, по образцам из обучения. Английских образцов в датасетах в разы больше, поэтому форму латинских букв модель усвоила прочно, а кириллических, особенно специфических «ж», «щ», «ы», «й», видела меньше. Отсюда и «пляшущие» буквы.
Из этого следует практический вывод: лучше кириллицу держат модели, которые специально обучали на многоязычных данных или которые вообще родом не из англоязычной экосистемы. Что подводит нас к неожиданным фаворитам, китайским моделям.
Qwen Image 2.0: тёмная лошадка по русскому
Qwen Image 2.0 от Alibaba обучали на богатой многоязычной базе, и кириллицу она держит заметно увереннее среднего. Изначально её затачивали под китайские иероглифы, наследие Qwen Team, но в довесок прокачали латиницу и кириллицу.
Для селлера тут двойная выгода. Читаемый русский на упаковке и в инфографике, это раз. А ещё генерация и правка в одной модели: написала картинку с текстом, и если буква всё же пошла не так, правлю тут же, без прыжка в другую модель и без смены стиля. При лёгких 7 миллиардах параметров она ещё и первая на бенчмарке AI Arena в двух категориях. Я разбирала Qwen Image 2.0 подробно, для русского текста это один из моих первых вариантов.
Z-Image: быстрый русский для объёма
Ещё одна из экосистемы Alibaba, Z-Image от Tongyi Lab, тоже аккуратно работает с текстом, заявлен точный рендер на английском и китайском, и кириллицу в моих прогонах она тянет прилично для коротких надписей.
Её фишка не в идеальном тексте, а в скорости: версия Turbo выдаёт кадр меньше чем за секунду. Когда надо нагенерить пачку карточек или обложек с русскими подписями и важен темп, Z-Image выручает. Для одной-двух финальных картинок с длинной надписью я бы взяла модель поточнее, а вот серию с короткими подписями гоняю на ней. Тут, правда, по ощущениям многое зависит от шрифта в промпте, на разных стилях буквы встают по-разному, я сама не до конца поняла закономерность. Отдельный разбор Z-Image есть у меня в блоге.
Nano Banana: западная модель, которая научилась русскому
Из «больших западных» лучше всех с кириллицей справляется Nano Banana от Google. Она построена на движке рассуждений Gemini Flash, то есть продумывает композицию до рендера, и текст у неё ложится точно на десятках языков, русский в их числе.
Это мой выбор, когда нужен не только русский текст, но и сложная сцена вокруг него: постер со слоганом и фоном, инфографика с подписями и иконками. Banana держит и то, и другое. Для чистой типографики её обходит Ideogram, но как универсал «текст плюс красивая сцена» она очень хороша. Полный обзор Nano Banana с тестами у меня отдельный.
Ideogram 3.0: когда русская надпись это весь смысл
Если картинка существует ради текста, логотип, афиша, обложка с русским заголовком, я иду в Ideogram 3.0 для типографики. Точность рендера текста у неё 90–95%, и это чувствуется на сложных надписях.
Отдельно для кириллицы бесценна функция Layerize: текст в готовой картинке становится редактируемым слоем. Если одна буква в русской надписи всё же пошла криво, я правлю прямо слой, не перегенерируя всю картинку. И та же фишка решает локализацию: сделали макет, через Layerize поменяли русский заголовок на казахский или английский под другой рынок. Честный разбор Ideogram 3.0, где я не скрываю и её слабые места, тоже почитайте.
А что с длинными надписями и составами
Тут оговорюсь честно, потому что вопрос частый. Короткое слово или слоган сейчас прилично пишут все четыре. А вот длинный текст, состав БАДа, инструкция, абзац мелким шрифтом, всё ещё лотерея у любой модели, и проверять глазами надо обязательно.
Если длинного русского текста реально много и он критичен, я бы добавила в кандидаты Wan 2.7 Image: она заточена под плотную многоязычную типографику, формулы и таблицы, принимает запрос до 3000 токенов и рендерит в нативном 4K. Для упаковки с длинным составом или образовательного постера это сильный вариант, обзор Wan 2.7 Image я писала отдельно. Но даже её результат я перепроверяю по буквам, чудес с длинной кириллицей пока не делает никто.
Короткий вывод
За русским текстом в 2026-м идите к четвёрке: Qwen Image 2.0 и Z-Image из экосистемы Alibaba, плюс Nano Banana как сильный западный универсал. И Ideogram 3.0, когда надпись это вообще весь смысл. Для длинных составов добавьте Wan 2.7 Image.
Все они лежат в одной подписке Flami, так что я заранее не гадаю, а прогоняю одну и ту же русскую надпись через две-три и беру ту, где буквы встали ровно. И всё равно потом перечитываю текст глазами, по буквам. Кириллица иногда подводит даже хорошую модель, а ловить это уже в опубликованной карточке, под вопросами покупателей, удовольствие ниже среднего.
Проверить русский текст на своих макетах → flami.pro
Часто задаваемые вопросы
Какая нейросеть лучше всего пишет русский текст на картинке? Для коротких надписей хорошо справляются Qwen Image 2.0, Z-Image, Nano Banana и Ideogram 3.0. Если надпись это главный смысл картинки, точнее всех Ideogram 3.0 с точностью текста 90–95% и редактируемыми слоями Layerize.
Почему нейросети плохо рисуют кириллицу? Модель рисует текст как картинку по образцам из обучения, а английских образцов в датасетах в разы больше русских. Поэтому латиницу модели усвоили прочно, а кириллицу, особенно «ж», «щ», «ы», видели меньше. Лучше держат русский многоязычные и неанглоязычные модели.
Можно ли поправить кривую русскую букву без перегенерации? Да, у Ideogram 3.0 есть функция Layerize: текст становится редактируемым слоем, букву или всё слово можно поправить или перевести без пересоздания картинки. У Qwen Image 2.0 правка идёт в той же модели, что и генерация.
Какая модель держит длинный русский текст, например состав? Длинный текст пока лотерея у всех, проверять надо глазами. Из сильных вариантов Wan 2.7 Image, заточенная под плотную многоязычную типографику с запросом до 3000 токенов и нативным 4K.
Китайские нейросети правда лучше пишут по-русски? Часто да. Qwen Image 2.0 и Z-Image от Alibaba обучали на богатой многоязычной базе, и кириллицу они держат увереннее многих западных моделей. Из западных лучше всех Nano Banana.
Источники
Об авторе
Марина Лебедева
Обозреватель Flami