Qwen Image и бенчмарк DPG-Bench: цифры техотчёта и что поменяло второе поколение
Технический отчёт Qwen-Image: бенчмарк DPG-Bench 88.32 против 83.84 у FLUX.1 Dev, 20B параметров. И что Alibaba поменяла во втором поколении модели.
Это пересказ технического отчёта Qwen-Image с arXiv на русском. Оригинал: arXiv:2508.02324. Цифры из научной статьи зафиксированы, а вот арена живёт своей жизнью, актуальный рейтинг проверяйте сами.
Закрытые модели были впереди, открытым доставались крошки. Примерно так выглядел картиночный рынок 2025 года, пока Alibaba в августе не выложила Qwen-Image вместе с подробным техническим отчётом, а в нём редкий случай: открытая модель обходит главный открытый эталон того времени. Я перечитала отчёт ради таблицы с DPG-Bench, главным для меня бенчмарком (сравнительным тестом) Qwen Image, и заодно сверила, что от тех цифр осталось во втором поколении. Меня зовут Марина, во Flami я отвечаю за картиночные модели.
Что за модель описана в отчёте
Документ arXiv:2508.02324 описывает Qwen-Image: диффузионный трансформер MMDiT на 20 миллиардов параметров. Авторы делают упор на две вещи, отрисовку текста (включая сложный китайский) и точное следование промпту (текстовому запросу к модели). Архитектурные детали пропущу, нам интереснее таблицы.
Бенчмарк Qwen Image на DPG-Bench: 88.32
DPG-Bench проверяет, насколько картинка соответствует длинному детальному промпту. В таблице отчёта Qwen-Image набирает 88.32 overall (общий балл). Ближайший открытый конкурент на тот момент, FLUX.1 [Dev], показывает 83.84, у него Global 74.35 и Entity 88.96.
Четыре с половиной пункта overall это заметный отрыв, особенно по строке Global, где FLUX проседает сильнее всего. Уточню честно: цифры относятся к первому Qwen-Image образца августа 2025, к версии 2.0 их прикладывать нельзя, для неё таких таблиц в открытом доступе я не нашла. Сам FLUX с тех пор тоже ушёл вперёд, второе поколение мы разбирали в исследовании FLUX 2 от Black Forest Labs, а генерировать им можно на странице FLUX 2.
Что изменилось в Qwen-Image 2.0
Второе поколение вышло примерно 10 февраля 2026 и оказалось не «больше и тяжелее», а наоборот. 7 миллиардов параметров вместо 20. При этом нативные 2K (генерация сразу в этом разрешении), единый режим генерации и редактирования и промпты до 1000 токенов (условных единиц текста). Alibaba фактически ужала модель втрое и нарастила функции.
Куда делись 13 миллиардов параметров без потери качества, отчёт по 2.0 пока не объясняет, тут я бы подождала подробностей.
Как второе поколение выглядит на арене
На arena.ai qwen-image-2.0-pro держит 1169 и 15-е место. Открытый qwen-image-2512 под лицензией Apache 2.0 набирает 1128, позиция 31. Не верхушка таблицы, но для модели, которую можно крутить у себя, очень прилично. Кстати, из открытых и лёгких есть ещё Z-Image, мы сравнивали её в разборе Z-Image, генерация на странице Z-Image.
Зачем это селлеру
Сильная сторона линейки тянется из техотчёта: текст в кадре и послушность длинному промпту. Для инфографики с надписями на упаковке это ровно то, что надо. Я гоняю Qwen Image 2 для инфографики, детальные тесты собраны в обзоре Qwen Image 2. Загрузить свой товар по ссылке и проверить можно во Flami.
Часто задаваемые вопросы
Какой результат у Qwen-Image на бенчмарке DPG-Bench? 88.32 overall по таблице технического отчёта. FLUX.1 [Dev] там же показывает 83.84. Цифры относятся к первой версии модели, не к 2.0.
Что проверяет бенчмарк DPG-Bench? Набор из тысячи с лишним плотных промптов, где у каждой сцены много объектов и атрибутов. Оценивает соответствие не голосование людей, а модель-проверяльщик, поэтому результат воспроизводим и не зависит от состава аудитории.
Чем Qwen-Image 2.0 отличается от первой версии? Модель ужалась с 20B до 7B параметров, получила нативные 2K, единый режим генерации и редактирования и промпты до 1000 токенов.
Открыт ли Qwen Image по лицензии? Первый Qwen-Image выложен на Hugging Face, а в линейке 2.0 открыт вариант qwen-image-2512 под Apache 2.0 (на arena.ai у него Elo 1128).
Источники
- arXiv:2508.02324, Qwen-Image Technical Report (оригинал, английский)
- arena.ai: Text-to-Image Leaderboard (оригинал, английский)
- Hugging Face: Qwen/Qwen-Image (оригинал, английский)
Об авторе
Марина Лебедева
Обозреватель Flami