Image to video лидерборд Artificial Analysis: кто лучше оживляет фото в 2026
Разбираю image to video лидерборд Artificial Analysis: Seedance 2.0, Grok Imagine, HappyHorse и Veo 3.1 в оживлении фото, Elo и цены за минуту.
Это разбор данных отдельного image-to-video лидерборда (рейтинговой таблицы) Artificial Analysis на русском. Оригинал: Artificial Analysis: Image to Video Leaderboard. Рейтинг живой, строчки съезжают каждую неделю, за свежими цифрами идите в первоисточник.
Весной я разбирал общий видеорейтинг Artificial Analysis, и с тех пор таблица успела заметно перетасоваться. На этот раз сел за отдельный image to video лидерборд: AA меряет режим «картинка на входе, ролик на выходе» в собственном зачёте, и для селлера этот срез полезнее общего. Срез ниже снят 11 июня 2026.
Почему я смотрю именно этот срез
Для карточки товара i2v главный режим работы. Вы не описываете кроссовок словами, вы грузите его фото, и модель обязана сохранить именно ваш товар: цвет, шнурки, логотип. Text-to-video такой проверки не проходит вовсе. Как выстроить процесс, мы писали в руководстве как оживить фото товара через image to video, здесь же только про рейтинг.
Image to video лидерборд со звуком: пятёрка верхних
| Место | Модель | Elo | Цена за минуту | |---|---|---|---| | 1 | Seedance 2.0 720p | 1195 | $9.07 | | 2 | grok-imagine-video-1.5-preview | 1110 | $8.40 | | 3 | HappyHorse-1.0 | 1093 | $13.20 | | 4 | Veo 3.1 | 1089 | $24.00 | | 5 | grok-imagine-video | 1080 | $4.20 |
У лидера 7369 образцов в зачёте, выборка приличная. Отрыв Seedance 2.0 в image to video от второго места 85 пунктов Elo, это много: остальная четвёрка уместилась в 30 пунктов. Подробно модель мы разбирали в исследовании Seedance 2.0. Kling 3.0 1080p Pro, кстати, в этом зачёте только девятый с 1075.
Без звука картина плотнее
Тот же Seedance 2.0 720p впереди с 1343, но дальше толкучка: grok-imagine-video 1327, grok 1.5-preview и PixVerse V6 по 1325, HappyHorse 1.0 в режиме оживления фото с 1294. Разница в пару пунктов между вторым и четвёртым местом статистически почти ничто, тут я бы вообще не делал выводов о превосходстве. Про сильные стороны модели Alibaba есть отдельный разбор HappyHorse 1.0.
Из открытых весов лучший результат у Cosmos3-Super-Image2Video, 1251 без звука. До коммерческой верхушки не дотягивает, но для модели, которую можно крутить на своём железе, цифра серьёзная.
Цена скачет почти в шесть раз
AA считает, во сколько обходится минута ролика в 1080p, если платить поставщику модели напрямую. И вот что забавно: Veo 3.1 просит $24 за минуту при четвёртом месте, а Grok Imagine для недорогих видео из фото держит пятое за $4.20. Без звука grok-imagine-video вообще второй. Получается, самая дешёвая модель верхушки почти не уступает самым дорогим, я сам не ожидал такого расклада. Что у неё с реальными товарными роликами, смотрите в обзоре Grok Imagine.
Как я этим пользуюсь
Модель я выбираю под исходник. Простой предметке на белом фоне хватает любой строчки из пятёрки, разницу там заметит только дотошный глаз. Одежде с мелкой фактурой, глянцу и стеклу нужен лидер: на швах и бликах отрыв в 85 пунктов Elo виден без лупы. А когда роликов нужны десятки в неделю, на первый план выходит цена за минуту, эту арифметику я разложил в разборе экономики видеогенерации. Во Flami все модели из таблицы доступны в одной подписке, так что проверить связку на своём товаре быстрее, чем спорить о рейтингах.
Часто задаваемые вопросы
Что такое image to video лидерборд Artificial Analysis?
Отдельный зачёт бенчмарка (сравнительного теста), где сравниваются только генерации из картинки. Как устроена сама арена попарных сравнений и откуда берётся Elo, мы разбирали в материале про бенчмарк видеомоделей.
Какая нейросеть лучше всего оживляет фото товара в 2026?
По срезу на 11 июня впереди Seedance 2.0 720p: 1195 Elo со звуком и 1343 без звука. Но для конкретной категории товара я бы прогнал тест ещё на двух-трёх моделях из пятёрки.
Чем image to video рейтинг отличается от общего видеорейтинга?
В общий зачёт попадают и генерации по текстовому описанию, без исходного кадра, поэтому места моделей в двух таблицах не совпадают. Селлеру показателен именно срез i2v: он проверяет, насколько бережно модель обращается с загруженным фото.
Какое фото загружать, чтобы оживить его нейросетью без потери деталей?
Резкий кадр при ровном свете, без водяных знаков, от 1024 пикселей по короткой стороне. Хуже всего модели переживают мелкий текст на упаковке и блики на глянце, такие исходники стоит тестировать в первую очередь.
Сколько стоит минута image to video?
По ценам API самих поставщиков от $4.20 за минуту 1080p у grok-imagine-video до $24 у Veo 3.1. Между ними Seedance 2.0 ($9.07) и HappyHorse-1.0 ($13.20).
Источники
- Artificial Analysis: Image to Video Leaderboard (оригинал, английский)
- Artificial Analysis: Video Arena (оригинал, английский)
- ByteDance Seed: Official Launch of Seedance 2.0 (оригинал, английский)
Об авторе
Артём Соколов
Обозреватель Flami