Image-to-video: как оживить фото товара, не превратив его в желе

Какие модели лучше для image-to-video, как подготовить фото, какие промпты под движение и какие ошибки превращают товар в кашу. Практика на карточках WB и Ozon.
«У меня есть нормальное фото товара, как из него сделать видео». Вот что спрашивают чаще всего. Логично же. Снимать заново лень, фотки уже отретушированы, пусть просто задвигаются. Это и называется image-to-video, или I2V: модель берёт вашу картинку как первый кадр и достраивает движение. Меня зовут Денис, я в Flami за контент отвечаю.
Звучит как магия. На практике у половины получается товар, который дышит, плавится и плывёт, будто его засняли под водой. Расскажу, как этого избегать, потому что сам прошёл через все эти грабли.
Чем I2V отличается от генерации с нуля
Когда вы пишете промпт без картинки, модель сама придумывает, как выглядит товар. И часто придумывает не то: другой оттенок, лишняя кнопка, кривой логотип. Для реального товара это беда, покупатель ждёт ровно то, что в карточке.
I2V решает эту проблему. Вы даёте точное фото своего товара, и модель не выдумывает его внешность, она его оживляет. Цвет, форма, этикетка остаются вашими, модель трогает только движение. Поэтому для товарки I2V почти всегда честнее, чем чистая генерация по тексту.
Но есть цена. Чем сложнее движение вы просите, тем выше шанс, что модель «поедет» и начнёт деформировать товар. Тут вечный баланс между «живенько» и «узнаваемо».
Какое фото подойдёт, а какое нет
Половина успеха решается ещё до нейросети, на этапе выбора картинки. Я для себя вывел простые правила.
Фото должно быть чётким и в нормальном разрешении. Если исходник мыльный, модель домыслит детали по-своему, и товар поплывёт. Берите тот же кадр, что стоит у вас главным в карточке, обычно он самый чистый.
Товар лучше брать на простом или слегка размытом фоне. Когда вокруг визуальный шум, модель не понимает, где заканчивается товар и начинается окружение, и анимирует всё вместе. Получается, что фон тянет товар за собой.
Композиция с воздухом вокруг товара. Если объект упирается краями в границы кадра, модели некуда его двигать, и она начинает его мять. Оставьте поля.
И момент, который не сразу очевиден: фото с уже пойманным «началом движения» оживает лучше. Кофе, который вот-вот польётся. Модель, чуть отвернувшаяся, будто сейчас повернётся. Статичная симметричная выкладка оживает скучно.
Какие модели я беру под I2V
Не все одинаково хороши в оживлении фото. По моим прогонам расклад такой.
Kling 3.0 у меня рабочая лошадка для I2V. Она аккуратно держит исходник и при этом даёт живое движение, особенно если в кадре ткань, волосы, что-то, что естественно колышется. Текст на упаковке тоже держит, не плывёт. Полный разбор Kling тут.
Hailuo беру, когда на фото лицо. Если оживляете кадр с моделью, она делает лучшую мимику из доступного: лёгкая улыбка, поворот головы, взгляд. Для «отзыва человека» или бьюти это первый выбор. Про Hailuo писал отдельно.
Wan 2.7 когда товар должен убедительно работать. Механика, физика, что-то крутится или льётся. Она лучше понимает, как ведут себя предметы, и реже ломает форму. Разбор Wan здесь.
Seedance 2.0 под UGC-эффект, когда нужно «как будто человек снял на телефон». Чуть более живая, бытовая картинка. Про Seedance.
А Runway это уже про доводку: если из I2V вышло почти хорошо, но мешает объект на фоне или свет не тот, его Aleph поправит готовый ролик текстом. Что умеет Aleph.
Я обычно не угадываю с первого раза. Прогоняю одно фото через две-три модели и смотрю, кто понял мой товар. Благо во Flami они все под одной подпиской, перепрыгивать между сервисами не надо.
Как писать промпт для оживления
Тут логика другая, чем при генерации с нуля. Товар уже задан картинкой, описывать его внешность не нужно. Нужно описать только движение.
Хорошо: «камера медленно наезжает, лёгкий поворот товара, мягкое движение света по поверхности». Коротко, про динамику.
Плохо: заново описывать, что это красный чайник из нержавейки. Модель и так это видит на фото. Если начнёте переописывать внешность, рискуете, что она решит «переделать» товар под ваши слова и уведёт его от исходника.
Главный приём: просите минимальное осмысленное движение. Не «бешеный облёт с разворотом на 720», а «спокойный наезд и лёгкое покачивание». Чем сдержаннее движение, тем выше шанс, что товар останется собой. Эффектный размах почти всегда ценой деформации.
Хотя «коротко про движение» не значит «небрежно». Распишите динамику по секундам, так же подробно, как при генерации с нуля, просто про движение, а не про внешность. Вот рабочий пример для фото флакона духов:
«Оживить фото: флакон духов на столе. 0–2 сек: камера медленно наезжает от среднего плана к крупному, флакон неподвижен. 2–4 сек: луч света мягко скользит по стеклу слева направо, в гранях вспыхивает блик. 4–6 сек: едва заметное покачивание отражения, лёгкая дымка проявляется в воздухе за флаконом и тает. Камера почти статична, движение минимальное и плавное. Товар сохраняет форму, цвет и этикетку без изменений».
Видно, что детализация есть, но вся она про свет, камеру и микродвижение, а не про то, как выглядит сам флакон, это уже на фото.
Если поддерживается негативный промпт, отрезаю «деформация, искажение формы, плавление, искажённый текст». Помогает не всегда, но лишним не бывает.
И то же про английский, о чём я писал в гайде по промптам: перед запуском описание движения удобно перевести на английский. На I2V это особенно заметно, английская формулировка реже провоцирует модель «доделывать» товар.
Типичные ошибки, на которых товар превращается в кашу
Слишком резвое движение. Самая частая. Хочется вау-эффекта, просите быстрый облёт, и модель не успевает удержать форму. Товар на глазах меняет пропорции. Лечится просто: сбавьте динамику.
Сложный фон. Я уже говорил, повторю, потому что важно. Шумный фон тянет товар за собой при анимации. Если есть возможность, берите фото на чистом фоне или подготовьте его заранее.
Мелкий текст на этикетке. Многие модели плохо держат мелкие надписи при движении, они начинают дрожать и расползаться. Если для вас критичен читаемый состав или название, либо берите модель, которая хорошо держит текст (Kling, Wan), либо не двигайте этот участок активно.
Лица людей крупным планом не на той модели. Если оживляете портрет на модели, не заточенной под лица, получите тот самый «зловещий» эффект, когда мимика чуть неестественная. Берите Hailuo.
И ещё одно наблюдение, в котором я не до конца уверен, но по ощущениям так: вертикальные фото оживают чуть стабильнее горизонтальных под маркетплейс. Возможно потому, что модели больше тренированы на вертикальном контенте под соцсети. Может, просто совпадение в моих тестах.
Когда I2V, а когда снимать заново
I2V не волшебство и не замена всему. Я для себя так делю.
Оживление фото отлично работает, когда у вас уже есть хорошая статика и нужна динамика для второго кадра галереи или для обложки. Быстро, дёшево, товар узнаваемый.
А вот если нужен полноценный сюжетный ролик с несколькими сценами, человеком, демонстрацией работы по шагам, то одного фото мало. Тут уже либо генерация с нуля по промпту, либо съёмка. Из одной картинки полноценную историю не вытащить, как ни старайся.
Так что I2V это про «оживить». А когда нужна история с сюжетом и сменой сцен, это уже не сюда, тут либо генерить с нуля, либо снимать.
Как попробовать
Во Flami загружаете своё фото, выбираете модель под задачу и пишете короткий промпт про движение. Или, если товаров много, в режиме «Видео из товара» вставляете ссылку на карточку, и сервис сам берёт ваши фото из неё и оживляет по выбранному шаблону. Второй вариант для серии, первый для штучной работы.
Совет напоследок: начните с самого чистого фото и самого спокойного движения. Получится, добавите динамики. Это дешевле, чем сразу гнать сложное и удивляться, почему товар поплыл.
Оживить своё фото → flami.pro
Часто задаваемые вопросы
Что такое image-to-video? Это режим, когда нейросеть берёт вашу фотографию как первый кадр и достраивает движение, превращая статичное фото в короткое видео. Товар остаётся узнаваемым, меняется только динамика.
Какая модель лучше для оживления фото товара? Зависит от задачи. Kling 3.0 универсальна и хорошо держит исходник, Wan 2.7 для работающей техники и физики, Hailuo для лиц и эмоций, Seedance для UGC-эффекта. Я обычно прогоняю фото через две-три и выбираю.
Почему товар деформируется при оживлении? Чаще всего из-за слишком резкого движения, шумного фона или того, что объект упирается в края кадра. Сбавьте динамику, возьмите фото на чистом фоне с воздухом вокруг товара.
Можно ли оживить мыльное фото? Лучше не стоит. Если исходник нечёткий, модель домыслит детали по-своему и товар поплывёт. Берите самый чистый кадр, обычно это главное фото карточки.
Нужно ли описывать товар в промпте при I2V? Нет. Внешность уже задана фотографией. Описывайте только движение: наезд камеры, лёгкий поворот, ход света. Переописание внешности может увести товар от исходника.
Источники
Об авторе
Денис Корнев
Контент-лид Flami