Qwen Image 2.0 от Alibaba: одна модель и рисует, и правит, и кириллицу держит
Русский разбор материалов Qwen (Alibaba) о Qwen Image 2.0: единая модель генерации и редактирования, сильный текст и кириллица, открытая лицензия Apache 2.0.
Это перевод и разбор материалов Qwen (Alibaba) о модели генерации изображений на русском. Оригинал: Qwen-Image — Crafting with Native Text Rendering. Пересказываем интересное, цифры сверяйте с первоисточником.
Qwen Image делает команда Qwen (Tongyi) внутри Alibaba, та же, что выпускает языковые модели Qwen. Разберу, что заявили сами разработчики, без маркетингового тумана.
Главная идея: текст и правки, а не «покрасивее»
Упор в анонсе с самого начала был не на красивость, а на две вещи: сложный текст в кадре и точное редактирование.
«Qwen-Image... achieves significant advances in complex text rendering and precise image editing.» — Qwen team, анонс Qwen-Image
Двойка довела это до состояния, когда генерация и редактирование живут в одной модели. Нарисовал кадр, тут же поменял фон, убрал лишний предмет, поправил надпись, и всё без потери стиля и освещения.
Что заявлено в материалах Qwen
- Сильный текст и кириллица. Заголовки, состав мелким шрифтом, ценники и слоганы модель пишет ровно, без знаменитого AI-абракадабра-шрифта. Сильнее всего она в китайских иероглифах, наследие Alibaba, но латиница и кириллица у неё тоже аккуратные.
- Единая архитектура. Одна модель и создаёт картинку, и редактирует её. VentureBeat про режим редактирования написал, что он даёт фотошопу прикурить за пару секунд.
- Открытая лицензия. Базовые версии лежат на Hugging Face под Apache 2.0, то есть подходят и для коммерции без юридических плясок.
- Лёгкость и скорость. Двойка ужалась с 20 до 7 миллиардов параметров и при этом подняла качество, кадр готов за десятки секунд.
Честно про слабые места
Не всё гладко. Фотореализм света и материалов у Qwen хороший, но идеальный блик на стекле или строгая физика отражений ей даются хуже, тут она крепкий середняк, а не чемпион. На очень мелком кириллическом тексте модель иногда всё-таки спотыкается, мелкий состав стоит перепроверять глазами. И сложный многослойный сюжет с тонкими смысловыми связями ей пока даётся сложнее, чем рендер текста и правки.
Что это значит на практике
За первой версией модели стоит реальная инженерия, а не только громкие цифры: VentureBeat отмечал, что по публичным бенчмаркам она местами обходит закрытые модели, а на тексте просто рвёт многих. Я разобрала Qwen Image 2.0 руками и описала, где она реально сильна, а где я её обхожу, в обзоре Qwen Image 2.0. Если коротко: её корона это кириллица и редактура одной моделью, а идеальный реализм фактуры я добиваю в других моделях.
Попробовать Qwen Image 2.0 в рублях без VPN можно во Flami.
Источники
- Qwen team: Qwen-Image — Crafting with Native Text Rendering (оригинал, английский)
- Hugging Face: Qwen/Qwen-Image (оригинал, английский)
- VentureBeat: Qwen-Image-Edit gives Photoshop a run for its money (оригинал, английский)
Об авторе
Марина Лебедева
Обозреватель Flami