HappyHorse 1.0: разбор лидера бенчмарков

Русский разбор материалов о HappyHorse 1.0 от Alibaba ATH: первое место в text-to-video без звука, сильная детализация предметки и честно про закрытые веса.

Это перевод и разбор материалов о HappyHorse 1.0 (Alibaba ATH) на русском. Оригинал: CNBC: Alibaba revealed as creator of HappyHorse-1.0. Пересказываем интересное, цифры сверяйте с первоисточником.

В начале апреля 2026 года в видеоарене появилась модель с несерьёзным именем HappyHorse-1.0, без указания автора, и сразу села на первую строчку лидерборда. Через несколько дней Alibaba призналась, что это её разработка. Разберём, что про неё известно, без лишнего восторга.

Кто за этим стоит

Седьмого апреля HappyHorse-1.0 обошла прошлого чемпиона, Seedance 2.0, оставаясь анонимной. Десятого апреля Alibaba подтвердила, что это проект подразделения ATH внутри Taotian Group и модель ещё в разработке. Команду возглавляет Чжан Ди, бывший вице-президент Kuaishou и человек, стоявший за Kling. Так что за моделью стоят люди, которые уже однажды сделали топовую видеомодель, а не дебютанты.

По заявленным характеристикам это единый трансформер на 15 миллиардов параметров, который генерирует видео и звук за один проход, без отдельных стадий постобработки. Поддержка семи языков с губной синхронизацией, скорость порядка 38 секунд на ролик в 1080p на одной H100.

Что говорят цифры лидерборда

Тут важен нюанс, который маркетинг любит сглаживать. В категории text-to-video без звука HappyHorse держит первую строчку с заметным отрывом от Seedance 2.0. В image-to-video без звука картина та же. А вот как только включаешь звук, разрыв исчезает: со звуком HappyHorse и Seedance 2.0 идут вровень, разница в пределах статистического шума, а местами Seedance даже впереди.

«Лидер бенчмарков» это правда, но с оговоркой. По картинке без звука HappyHorse уходит вперёд безоговорочно. Включаешь звук, и это уже паритет с Seedance, никакого разгрома. Подробную раскладку по строчкам мы собрали в нашем разборе Artificial Analysis.

Где модель реально сильна

Главный конёк HappyHorse, простите за каламбур, это детализация предметки и стабильность на движении. Отражения в зеркалах, хроме и воде движутся синхронно с предметом и сохраняют пропорции, а не мажут пятном. Жидкости и текстуры (кофейная пенка, капли, дым) подчиняются физике поверхности и не дёргаются покадрово. Для fashion и премиум-продуктов, где половина кадра это блеск поверхности, это серьёзный плюс.

Отдельная фишка: режим создания по источникам, где можно подать до девяти картинок-образцов и использовать их как разных персонажей в одной сцене, удерживая внешность каждого.

Честно про слабые места

Главное: модель формально заявлена как открытая, но веса публично пока не выложены, ссылки на GitHub и Model Hub висели в статусе «скоро». Сама Alibaba говорит, что проект ещё в разработке, так что относиться к ней как к финальному стабильному продукту рано.

Дальше по мелочи. На длинных роликах к концу клипа проседает непрерывность сцены. Цветовое пространство сжатое, что бьёт по запасу на цветокоррекции. И звук, как уже сказано, рабочий, но не выше Seedance.

«Alibaba's HappyHorse-1.0 video model topped a closely watched leaderboard before the company revealed it was behind the anonymous entry.» — CNBC

Что это значит на практике

Рынок HappyHorse не разворачивает. Но в узкой нише это очень сильный игрок: когда в кадре товар и важно, чтобы геометрия и поверхности не разваливались на движении. Я гонял её руками и описал, где она вывозит, а где сыпется, подробно в обзоре HappyHorse 1.0.

Попробовать HappyHorse 1.0 в рублях без VPN можно во Flami.

Источники

CNBC: Alibaba revealed as creator of AI video generation model HappyHorse-1.0 (оригинал, английский)
South China Morning Post: Alibaba's HappyHorse tops Seedance (оригинал, английский)

HappyHorse 1.0 от Alibaba ATH: тёмная лошадка, что возглавила бенчмарки видео