Z-Image Turbo: откуда скорость в 8 шагов

Как Z-Image Turbo генерирует картинку за доли секунды: дистилляция Decoupled-DMD до 8 шагов, запуск на 16 ГБ VRAM и миллион скачиваний за месяц.

Пересказываю по-русски статью Decoupled-DMD и материалы репозитория Z-Image. Оригинал: arXiv 2511.22677. Числа в экосистеме меняются ежедневно, точные значения сверяйте с источником.

Звучит как противоречие: чтобы модель стала быстрее в разы, её не урезали. Не выкинули ни слоя, параметров осталось те же 6 миллиардов. Скорость Z-Image Turbo взялась из другого места, из дистилляции (так называют обучение быстрой сети-ученика повторять результат медленного учителя), и мне как человеку, который этой моделью забивает черновики раскладок, было любопытно дочитать до механики. Общий разбор технического отчёта у нас уже есть в исследовании Z-Image, сейчас только про ускорение и про то, во что выросла экосистема.

Откуда у Z-Image Turbo скорость: 8 шагов вместо привычных десятков

Диффузионная модель рисует картинку итерациями, каждая итерация это прогон всей сети, NFE. Обычно их 20-50. Turbo дистиллирована до 8 NFE: сеть-ученик учится за восемь прогонов выдавать то, что учитель собирает за десятки. Прогонов меньше, считать сети приходится меньше. На серверной H800 это даёт задержку меньше секунды. Сравните с привычным ожиданием в десятки секунд у тяжёлых моделей: на одном кадре разница терпимая, на сотне вариантов раскладки это уже другой режим работы, сидишь и перебираешь как в каталоге.

Decoupled-DMD плюс DMDR

Методов два, работают в связке. Decoupled-DMD разделяет (отсюда «decoupled») составляющие классической distribution matching distillation, которые раньше тянули друг друга вниз, и учит ученика стабильнее. Второй, DMDR, добавляет к дистилляции обучение с подкреплением: модель не просто копирует учителя, а дополнительно получает награду за результат. Упрощаю сильно, в деталях могу где-то ошибаться, за строгими формулировками идите в препринты.

Какое железо нужно

Тут самое приятное для тех, кто без серверов. 6B параметров влезают в 16 ГБ VRAM (видеопамяти) обычной игровой видеокарты, а через stable-diffusion.cpp люди запускают квантованные (сжатые по точности вычислений) версии вплоть до 4 ГБ. Лицензия Apache 2.0, то есть и для коммерческого использования. Восемь шагов на слабом железе это разница между «подождать минуту» и «подождать пару секунд». Когда прогонов мало, даже медленная карта успевает. Поэтому модель так быстро и разошлась по домашним сборкам.

Экосистема в цифрах

Срез страницы на Hugging Face на начало июня:

1 005 608 скачиваний за месяц, 4730 лайков;
703 адаптера, 110 дообученных версий, 51 квантизация;
поддержка в diffusers принята в основную ветку, у репозитория на GitHub около 10,6 тыс. звёзд.

Миллион скачиваний в месяц у модели для картинок: сообщество поставило её в ежедневную работу и обвешивает LoRA-надстройками под каждую нишу.

А что с рейтингами

С датой, как положено: 8 декабря 2025 года Turbo стояла восьмой в общем зачёте на Artificial Analysis и первой среди открытых моделей. С тех пор лидер среди открытых сменился, гонка там живая. По чистому качеству её обходит и Flux 2 для фактуры товара, который я разбирала в исследовании Flux 2 от BFL, и старшая модель той же алибабовской экосистемы Qwen Image 2, про неё есть обзор Qwen Image 2. Зато по цене одного варианта с обеими спорить бессмысленно.

Z-Image для быстрых картинок подключена во Flami, наберите ей черновиков и посмотрите сами.

Часто задаваемые вопросы

За счёт чего у Z-Image Turbo такая скорость?

Дистилляция методами Decoupled-DMD и DMDR сократила число прогонов сети с обычных 20-50 до 8 NFE. На GPU H800 генерация занимает меньше секунды.

На какой видеокарте запускается Z-Image Turbo?

Базово хватает 16 ГБ VRAM обычной игровой видеокарты. Через stable-diffusion.cpp квантованные сборки запускаются даже на 4 ГБ.

Можно ли использовать Z-Image Turbo в коммерческих проектах?

Да, веса открыты под лицензией Apache 2.0, она разрешает коммерческое использование без отчислений.

Что такое дистилляция диффузионных моделей?

Это приём, при котором сеть-ученик учится повторять результат сети-учителя за меньшее число прогонов. Архитектуру при этом не трогают: у Z-Image Turbo сохранились все 6 миллиардов параметров базовой модели.

Чем Decoupled-DMD отличается от обычной DMD?

В обычной DMD куски обучения мешают друг другу. Decoupled-DMD их разводит, и ученик идёт стабильнее. Рядом работает DMDR, он доплачивает модели наградой за хороший результат.

Источники

arXiv: Decoupled-DMD (2511.22677) (оригинал, английский)
arXiv: DMDR (2511.13649) (оригинал, английский)
Hugging Face: Tongyi-MAI/Z-Image-Turbo (оригинал, английский)
GitHub: Tongyi-MAI/Z-Image (оригинал, английский)

Z-Image Turbo: скорость из дистилляции, 8 шагов вместо пятидесяти