Veo 3.1 от Google: обзор модели генерации видео 2026

Что нового в Veo 3.1: нативный звук, Extend для длинных роликов, один герой через сцены. Тесты, ограничения, где брать и сколько стоит.

Привет, это Артём, обозреватель Flami. В команде я тот, кто гоняет видеомодели руками и потом считает, где они врут. Veo 3.1 я гонял две недели подряд: сначала на личных задачах, потом на партии товарных роликов для теста. Расскажу, что реально умеет, где она по-прежнему лажает и зачем её брать, если у вас уже есть Kling или Runway.

Сразу пара примеров из того теста, чтобы было от чего отталкиваться.

Видео

Что вообще такое Veo 3.1

Если коротко: это модель генерации видео от Google DeepMind. Релиз версии 3.1 был 15 октября 2025-го, Google официально объявили её через блог разработчиков. На сегодня это один из двух явных лидеров среди закрытых моделей вместе с Sora 2 и Kling 3.0.

По характеристикам коротко: 8 секунд за генерацию, 720p / 1080p, фиксированные 24 fps, форматы 16:9 и 9:16. Это базовый ролик, и для большинства задач больше и не надо. Если нужно дольше, есть отдельная функция Extend, про неё ниже.

«Veo 3.1 превращает короткий текстовый промпт (или статичный кадр) в 8-секундный клип с синхронизированным звуком: диалог, музыка, эмбиент, за одну генерацию.» — Google Developers Blog, 15 октября 2025

Главных фишек у новой версии четыре. Дальше про каждую, по порядку: что обещано, что подтвердилось на тестах.

Нативный звук, самая громкая обновка

Раньше нужно было делать видео отдельно, потом писать или генерить звук, потом сводить. Veo 3.1 умеет всё это за одну генерацию.

Звук синхронизированный. Не просто «накинули фоновую музыку», а реально привязанный к сцене: если в кадре льётся вода, слышно журчание, если кто-то говорит, есть липсинк. Я тестил на русском, тут есть нюанс: модель понимает русские промпты, но качество липсинка на русском хуже, чем на английском. Если ролик важный, лучше написать диалог на английском, либо обойтись эмбиент-звуком без речи.

Эмбиент работает почти безупречно. Шум кафе, шаги по асфальту, звук кофемашины, шорох ткани. Всё это модель добавляет сама, по контексту сцены. Это меняет workflow: теперь не нужен звукорежиссёр для простых роликов до 8 секунд.

Что не подтвердилось из обещаний. Обещали стереозвук с пространственной картинкой. На моих тестах звук получается моно или фейк-стерео. Может это режим Quality исправляет, я в основном Fast гонял.

Extend: длинные ролики без склеек

Это новая фича, и она реально решает старую проблему 8-секундного лимита.

Раньше для рекламного ролика на 20-30 секунд нужно было сгенерировать несколько кусков, потом сводить в монтажке. Между склейками всегда заметна разница в свете, в позе персонажа, иногда меняется тон кожи. Зритель цепляется глазом за такие переходы.

Extend позволяет продолжить уже готовый ролик так, чтобы следующие 8 секунд начались ровно с того кадра, где закончилось предыдущее. Сохраняется освещение, ракурс, поза, цвет.

На практике у меня получалось склеить 3-4 куска, итого до 32 секунд связного видео. Дальше начинаются артефакты: модель потихоньку теряет лицо персонажа, костюм меняется в деталях. Но 16-24 секунды это надёжный диапазон.

Beginners in AI пишут, что Extend работает в Flow и Gemini API. У нас в Flami Veo 3.1 Extend тоже доступен из интерфейса, отдельным шагом после генерации основного ролика.

Один герой через несколько сцен

Тут сильное обновление по сравнению с Veo 3. Раньше при image-to-video можно было показать модели одну исходную картинку. Теперь можно загрузить несколько и сказать: «вот этот человек, вот в такой одежде, вот с таким стилем».

Модель держит внешность, одежду, манеру движения через всю сцену. Если делаете несколько роликов с одним героем (для рекламной кампании, например, или сериального контента), это критично.

По моим тестам, на близких ракурсах работает отлично. На общих планах персонаж иногда меняется в деталях, особенно если в исходных картинках были разные ракурсы. Так что советую: загружайте картинки одного типа (или все портреты, или все в полный рост), не мешайте.

Narrative control, чем это отличается от обычного промпта

Это тонкий момент, но важный. Google в анонсе называет это «narrative control»: возможность задать конкретные события внутри 8 секунд.

Раньше промпт описывал «общую идею ролика»: что происходит, в каком стиле, какое настроение. Теперь можно сказать прямо: «на 2-й секунде герой поворачивает голову, на 4-й секунде в кадр входит второй персонаж, на 6-й секунде они обмениваются взглядом». Модель эти ивенты соблюдает.

Я не сразу это понял, и первые попытки использовать narrative control были как обычный длинный промпт. Не работает. Нужно явно расписывать тайминги, тогда оно слушается. Грубо: вместо «бариста делает кофе и улыбается клиенту» пишем «секунда 1-3: бариста засыпает зерна в кофемолку. Секунда 4-6: наливает молоко. Секунда 7-8: улыбается».

Где Veo 3.1 проседает

Не хочу делать вид, что она идеальна. Минусы тоже есть.

Сложные действия рук, слабое место. Если человек что-то делает руками (раскладывает, нажимает, печатает), детализация пальцев иногда плывёт. У Kling 3.0 с этим, честно говоря, лучше.

Текст в кадре тоже плохо. Если надо, чтобы на бутылке был читаемый шильдик с названием, не получится. Veo генерирует псевдо-буквы. Для этого нужны Ideogram или GPT Image, а потом уже подкладывать как референс.

Цена. Veo 3.1 дороже большинства конкурентов. Один ролик в режиме Quality по нашим тарифам стоит 50-100 рублей в зависимости от длительности и качества, тогда как Kling берёт 25-40. Если у вас задача на 200 SKU и нужна серия, я бы делал её на Kling, а Veo берёг под топовые карточки, где премиум-картинка важна.

Скорость. Fast делает за 1-2 минуты, Quality за 3-5. В нашем кабинете это в среднем 2-4 минуты на ролик. Когда нужно 50 штук за раз, это уже два часа.

Сценарии, под которые я бы её брал

После двух недель тестов я для себя разделил так.

Premium-карточки. Когда у вас 5-10 топовых SKU и за каждую цепляется бюджет, Veo тянет лучше всех. Картинка кино-качества, естественный свет, реалистичные текстуры.

Lifestyle и реклама атмосферных категорий. Парфюм, премиум-косметика, дорогая одежда. Здесь важна эмоция и среда, а не действие, и Veo с этим справляется.

Документальные и образовательные форматы. Если делаете обучающий контент, бренд-журналистику или видео для YouTube, Veo даёт ощущение «снято на нормальную камеру», без AI-плавающих движений.

Что НЕ стал бы делать на Veo: серийные ролики на маркетплейс. Дорого, медленно, переусложнено. Под это есть Kling и Hailuo, разница в цене 2-3x в Kling в плюс.

Как использовать через Flami

У нас Veo 3.1 доступна сразу из общей подписки, регистрироваться отдельно в Google или подключать Google Cloud не нужно. Это, кстати, не такая мелочь, как кажется: Veo напрямую через Google требует Gemini API key и оплату с зарубежной карты, что для русских пользователей сейчас не самый простой путь.

Два режима, Fast и Quality. Я гонял оба. Fast подходит для черновиков, тестов промптов, превью. Quality берите, когда уже понятно, что хочется, и нужен финальный результат.

Промпты можно писать на русском, модель понимает. Но для сложных сцен с диалогами лучше английский, повторюсь.

Сколько стоит и за что платим

Точные цены меняются, актуальные смотрите в тарифах Flami. Грубая оценка на май 2026-го: 30-100 рублей за один ролик в зависимости от качества и длительности. Один Extend стоит как ещё одна генерация.

Если сравнивать с альтернативами: напрямую через Google Vertex AI Veo стоит дешевле в долларах, но требует корпоративного аккаунта Google Cloud, привязки карты и работы через API. Через Flow от Google проще, но из РФ нужен VPN и зарубежная карта.

В Flami эти проблемы закрыты: плата в рублях, без VPN, без отдельной регистрации у Google.

Чек-лист: подходит ли Veo 3.1 именно вам

✓ Нужна премиум-картинка кино-качества
✓ Важен синхронный звук в ролике
✓ Делаете рекламу под luxury / lifestyle / косметику / парфюм
✓ Нужны длинные ролики (15-30 сек) с одним героем
✗ Делаете серию из 50+ SKU, дороговато, берите Kling
✗ Нужен читаемый текст в кадре, Veo не умеет, нужна другая модель
✗ Главное в ролике: действия рук с предметами, лучше Kling или Wan

Что дальше

Сейчас у нас в очереди разборы Kling 3.0 и Runway Aleph. По ним выйдут отдельные статьи в этом же блоге.

Если хотите попробовать Veo 3.1 без подписок и VPN, заходите в Flami, регистрируйтесь и пробуйте бесплатно на стартовом пакете.

FAQ

Что такое Veo 3.1? Модель генерации видео от Google DeepMind, релиз 15 октября 2025. Делает реалистичные ролики со звуком, держит героя через сцены, умеет продолжать ролик через Extend.

Чем Veo 3.1 отличается от Veo 3? Добавлены три вещи: контроль первого/последнего кадра, поддержка нескольких картинок-источников и Extend для роликов длиннее 8 секунд.

Veo 3.1 vs Sora 2, кто лучше? По реализму картинки и точности следования промпту Veo чуть впереди. По креативной непредсказуемости: Sora 2. Подробное сравнение готовлю в отдельной статье.

Можно ли использовать на русском? Да, промпты модель понимает. Но синхронный звук с речью лучше на английском, для русского липсинк слабее.

Сколько секунд за раз генерирует? 8 секунд базово, до 32 секунд через Extend без потери связности.

Сколько стоит? Зависит от тарифа. В Flami от 30 рублей за Fast-генерацию до 100 рублей за Quality-вариант.

Можно ли загружать свои фото? Да. До нескольких картинок-источников в одном запросе. Это нужно для сохранения героя или стиля.

Какое разрешение поддерживает? 720p и 1080p нативно, 4K через апскейл.

Veo 3.1 от Google: полный обзор, на что способна и где имеет смысл использовать в 2026