Как написать промпт для AI-видео: структура и примеры

Разбираем структуру промпта для нейросети: кадр, движение камеры, свет, звук. 10 шаблонов под товарные ролики и примеры до/после на реальных задачах.

Привет, это Денис, контент-лид Flami. Я за прошлый год написал, наверное, тысячи промптов, и большую часть из них в мусорку. Поэтому статья не про «магические слова, которые заставят нейросеть слушаться». Таких нет. Она про то, как я перестал жечь кредиты впустую и начал получать рабочий ролик за одну-две попытки.

Сразу главная мысль, ради которой можно дальше не читать. Нейросеть не угадывает, что у вас в голове. Она достраивает то, что вы недосказали. И достраивает усреднённо: серый фон, ровный свет, вялое движение. Чем больше вы оставили на её усмотрение, тем скучнее результат. Промпт это не заклинание, это бриф для оператора, который понимает буквально.

С чего вообще начинать

Не с текста. С картинки в голове.

Перед тем как открыть поле ввода, я проговариваю себе один кадр. Что в центре, что вокруг, откуда свет, что движется. Если я сам не могу описать сцену словами вслух, нейросеть тем более её не соберёт. Очевидная вроде штука, но именно тут валится большинство. Человек пишет «красивое видео кофеварки» и ждёт чуда.

Кофеварка стоит где? На кухне, в студии, на белом фоне? Свет утренний из окна или студийный? Она просто стоит или варит кофе, и в чашку льётся струйка? Камера статична или едет вокруг? Вот из этих ответов и собирается промпт.

Шесть кирпичей, из которых я складываю любой промпт

Я держу в голове шесть блоков. Не обязательно все шесть в каждом ролике, но если чего-то не хватает, обычно именно поэтому результат разваливается.

Первое, субъект. Что или кто в кадре. Не «товар», а «зимняя куртка-пуховик цвета хаки, объёмный капюшон с мехом».

Дальше окружение и фон. Где это происходит. Заснеженная улица, минималистичная студия, деревянный стол у окна.

Третье, свет. Это половина успеха, и про это почти все забывают. Мягкий рассеянный, жёсткий контровой, тёплый закатный, холодный неон. Свет решает, будет картинка дешёвой или дорогой.

Движение камеры. Медленный наезд, облёт на 360, проезд сбоку, статичный штатив. Если не указать, камера часто стоит как вкопанная, и ролик выглядит как ожившее фото.

Действие. Что происходит за эти секунды. Тут люди чаще всего недодают. «Модель стоит» против «модель поправляет капюшон, поворачивается вполоборота, смотрит в камеру». Второе живое.

И последнее, настроение и стиль. Кинематографично, по-домашнему уютно, динамично-рекламно, документально. Это задаёт общий тон.

Если совсем грубо: кто в кадре, где он стоит, как освещён. Дальше камера и действие. Настроение я обычно дописываю последним, когда остальное уже сложилось. Порядок слов не важен, важно чтобы ни один из этих вопросов не остался без ответа. Где оставите дырку, там модель и налажает.

Промпт до и после

Покажу на живом примере из своих тестов. Товар, кожаный рюкзак.

❌ Было: «видео кожаного рюкзака для рекламы».

Что выдала модель: рюкзак висит в воздухе на сером фоне, чуть покачивается, свет плоский. Технически видео, а по делу мусор.

✅ Стало: «Коричневый кожаный рюкзак стоит на деревянном столе у окна, мягкий утренний свет слева, видны фактура кожи и строчка. Камера медленно едет вокруг, крупный план на молнию и металлическую фурнитуру. Тёплая, дорогая атмосфера, как в рекламе премиального бренда».

Кредитов потратили одинаково. А результат как небо и земля. Второй ролик можно ставить в карточку, первый только удалить. И это ещё не предел детализации, дальше покажу, до какого уровня имеет смысл доходить.

Длинный промпт это не плохо, это хорошо

Тут я сам долго заблуждался и хочу честно поправиться, потому что встречал этот миф много где. Ходит мнение, что промпт надо держать коротким, иначе модель запутается. По моему опыту всё наоборот: чем подробнее и конкретнее вы расписали сцену, тем ближе результат к задумке и тем меньше модель додумывает за вас отсебятину.

Короткий промпт это не «чисто и лаконично», это «много пустых мест, которые модель заполнит усреднённо». А усреднённое и даёт ту самую скучную серую картинку. Подробный промпт на полтораста-двести слов с раскадровкой по секундам у меня стабильно бьёт короткий.

Вот живой пример уровня, к которому стоит стремиться. Промпт на UGC-ролик с блендером, по секундам, с репликами героини:

«Вертикальный UGC-ролик 15 секунд, эстетика съёмки на айфон. Девушка делает обзор и демонстрирует блендер, не учит рецепту, а восторгается самим продуктом.
0–2 сек, хук: девушка держит тёмно-графитовую базу блендера близко к камере двумя руками, глаза широко, говорит прямо в объектив: "Этот блендер изменил моё утро".
2–5 сек: проводит пальцем по матовому корпусу, нажимает на единственную круглую ручку-регулятор, медленно проворачивает её, вокруг загораются медные LED-точки. Склоняет голову с восхищением: "Одна ручка. Это всё, что нужно".
5–8 сек: поднимает прозрачную стеклянную чашу, стучит по ней костяшкой, плотный звук, показывает ножи снизу: "Стекло, не пластик. Видно всё, что внутри".
8–11 сек: со щелчком фиксирует чашу на базе, загружает фрукты, жмёт ручку, блендер запускается мгновенно. Отступает, жестом показывает на него: "Слышите, как тихо?"
11–13 сек: наливает смузи, поднимает стакан к свету, насыщенный цвет, гладкая текстура: "С первого раза. Без комков".
13–15 сек: делает глоток, смотрит на блендер, потом в камеру, кивает: "Да. Стоит того".
Стиль: сырой UGC-обзор, вертикаль 9:16, тёплый естественный свет, чистая кухонная столешница, блендер всегда в кадре, лёгкая тряска камеры с рук, без текстовых плашек».

Это двести с лишним слов, и каждое работает. Видно героиню, видно её действия по таймкодам, прописаны реплики, фактура, свет, поведение камеры. Модель тут почти ничего не достраивает сама, вы ей всё показали. Такой ролик выходит живым с первого-второго раза, а не с двадцатого.

Не каждый ролик надо расписывать так подробно, для простого облёта товара хватит и трёх строк. Но когда нужен именно вау-результат, вот ориентир по детализации.

Маленький приём: пишите на русском, генерите на английском

Ещё одна штука, которую я выучил не сразу. Модели обучены в основном на английских данных, и английский они понимают чуть точнее. Русский они тоже держат нормально, но на сложных кинематографичных сценах английский нет-нет да выжмет деталь получше.

Поэтому удобный рабочий цикл такой: расписываете идею подробно по-русски, как вам удобнее думать, а перед генерацией прогоняете промпт через переводчик на английский и подаёте модели уже английскую версию. Тот же блендер выше изначально жил на английском, и не случайно. Лишних пять секунд работы, а попаданий с первого раза заметно больше. Если возиться с переводом лень, пишите на русском, это рабочий вариант, просто на пике качества английский чуть впереди.

Негативный промпт: что отрезать

Не все модели его поддерживают, но где есть, штука полезная. Это список того, чего в кадре быть не должно.

Я почти всегда отрезаю: лишние руки и пальцы, искажённый текст на упаковке, мерцание, размытость, водяные знаки, «пластиковую» кожу у людей. Для товарки добавляю «без посторонних логотипов», потому что нейросеть любит подрисовать на футболку модели чужой бренд, а это отклонение на модерации маркетплейса.

Тут оговорюсь: негативный промпт не панацея. Если в основном промпте бардак, отрицаниями его не вылечишь. Сначала чините позитивную часть.

Под каждую модель промпт немного свой

Это я понял не сразу, и долго писал всем одинаково. Зря.

Veo 3.1 от Google хорошо понимает кинематографичный язык. Ей можно писать как режиссёрский сценарий: «контровой свет», «неглубокая глубина резкости», «съёмка на 50 мм». Она ещё и звук генерирует нативно, так что в промпт имеет смысл закладывать аудио: «слышно, как шуршит ткань», «на фоне тихий городской гул». Подробнее, на что она способна, я разбирал в обзоре.

Kling 3.0 сильна в движении и в тексте на упаковке. Ей полезно явно прописывать смену планов: «крупный план, затем средний, затем общий». Она умеет до шести кадров в одной генерации, грех не пользоваться. Разбор Kling тут.

Hailuo берут, когда в кадре лицо, которое должно играть. Ей пишут про эмоцию: «лёгкая улыбка, потом удивление». Wan 2.7 лучше всех с физикой: если товар должен убедительно работать, блендер крутится, шуруповёрт вкручивает, пишите механику подробно.

Runway это вообще другая история, она больше про редактирование готового. Туда промпт это инструкция «что поменять»: убери объект, смени фон, поставь закатный свет. Про Aleph я писал отдельно.

Не запоминайте это наизусть. Просто держите в уме, что одна и та же фраза в разных моделях звучит по-разному, и если результат не идёт, иногда дело не в промпте, а в том, что вы взяли не ту модель под задачу.

10 шаблонов, которые я гоняю чаще всего

Это рыба. Подставляете свой товар и крутите. Я их собрал по категориям, которые чаще всего встречаются у селлеров.

1. Облёт товара (универсальный). «[Товар] на [поверхность/фон], [тип света]. Камера плавно облетает на 360 градусов, крупные планы деталей. Чистая студийная подача».

2. Демонстрация работы (техника, инструмент). «[Товар] работает: [конкретное действие]. Камера фиксирует процесс крупным планом, видно результат. Динамичная подача, чёткий фокус на функции».

3. Lifestyle (одежда, косметика, аксессуары). «Человек использует [товар] в [бытовая сцена], естественный свет, живые движения. Тёплая атмосфера повседневности, камера слегка следует за действием».

4. Распаковка (электроника, наборы). «Руки открывают коробку [товара], достают содержимое, показывают комплектацию. Вид сверху и крупные планы. Чистый фон, мягкий свет».

5. Текстура крупным планом (ткань, еда, материалы). «Сверхкрупный план [товар], видна фактура и детали. Медленное движение камеры, мягкий боковой свет подчёркивает рельеф».

6. Было-стало (косметика, бытовая химия, уход). «[Товар] применяется к [поверхность/кожа], показан результат до и после. Чистый кадр, ровный свет, акцент на изменении».

7. Модельный показ (одежда, обувь). «Модель в [одежда] поворачивается, демонстрирует посадку, крупные планы деталей. Студийный или уличный свет, уверенные движения».

8. Аппетитный кадр (еда, напитки). «[Блюдо/напиток], аппетитная подача, [пар/капли/брызги], тёплый свет. Медленное движение камеры, сочные насыщенные цвета».

9. Интерьерная сцена (товары для дома, декор). «[Товар] в реалистичном интерьере [комната], естественный свет из окна. Камера медленно проезжает, уютная атмосфера».

10. Динамичный рекламный (спорт, гаджеты, авто-товары). «[Товар] в действии, быстрая смена ракурсов, энергичное движение. Контрастный свет, ощущение скорости и драйва».

Каждый из них я по двадцать раз переписывал под себя. Берите как старт, не как догму.

Частые ошибки, которые жгут кредиты

Не длина, а каша. Раньше я думал, что вредит длинный промпт. Оказалось, вредит не длина, а бардак внутри. Двести осмысленных слов про одну сцену это отлично. А вот когда вы в один промпт пытаетесь впихнуть три не связанные сцены, пять разных настроений и смену локаций, модель захлёбывается. Подробно описывайте одну сцену, не лепите в один ролик целый сериал.

Противоречия внутри промпта. «Статичная камера» и тут же «динамичный облёт». Модель выберет что-то одно или сделает кашу. Перечитайте, нет ли конфликтов.

Абстракции вместо картинки. «Премиальность», «качество», «эмоция» нейросети ничего не говорят. Их надо разворачивать в визуал: премиальность это мягкий свет, дорогая фактура, неспешная камера.

Ну и главное, чего я сам долго не делал: не бросайте после первой неудачи. Промпт это итерации. Сгенерировали, посмотрели что не так, поменяли один параметр, перегенерировали. Не переписывайте всё сразу, иначе не поймёте, что именно сработало.

Где это пробовать

Все модели, про которые я тут писал, собраны во Flami под одной подпиской. Удобно тем, что можно прогнать один и тот же промпт через Veo, Kling и Wan и вживую увидеть, кто как понимает ваши слова. Я сам так подбираю модель под новый тип товара.

А если возиться с промптами совсем не хочется, в режиме «Видео из товара» можно просто вставить ссылку на карточку Wildberries или Ozon и выбрать готовый шаблон. Промпт там уже написан и проверен, вы просто получаете ролик. Но если хочется контроля и своей идеи, тогда да, садитесь и пишите. Оно того стоит.

Попробовать → flami.pro

Часто задаваемые вопросы

Что такое промпт для видео? Это текстовое описание ролика, который вы хотите получить от нейросети: что в кадре, какой свет, как движется камера, что происходит. Короче, бриф для модели.

Какой длины должен быть промпт? Чем подробнее, тем лучше. Короткий промпт модель достроит усреднённо и скучно. Для вау-результата нормально расписать сцену на 150-200 слов с раскадровкой по секундам, репликами и деталями. Бойтесь не длины, а попытки впихнуть несколько разных сцен в один ролик.

Нужно ли писать промпт на английском? Модели понимают английский чуть точнее, они в основном на нём и обучены. Удобный приём: расписать идею подробно по-русски, а перед генерацией перевести промпт на английский и подать модели его. Русский тоже работает нормально, но на пике качества английский немного впереди.

Почему нейросеть не делает то, что я прошу? Три частые причины: промпт слишком абстрактный, в нём есть противоречия, или вы взяли не ту модель под задачу. Начните с того, чтобы развернуть абстракции в конкретную картинку.

Что такое негативный промпт? Список того, чего в кадре быть не должно: лишние пальцы, искажённый текст, чужие логотипы, мерцание. Поддерживается не всеми моделями, но где есть, помогает чистить результат.

Как написать промпт для AI-видео, чтобы получить ролик с первого-второго раза, а не с двадцатого