Veo 3.1: разбор анонса Google DeepMind

Русский разбор официального анонса Veo 3.1 от Google: нативный звук, Extend для длинных роликов, narrative control и один герой через сцены.

Это перевод и разбор официального анонса Veo 3.1 (Google DeepMind) на русском. Оригинал: Introducing Veo 3.1 and new creative capabilities in the Gemini API. Пересказываем интересное, точные цифры сверяйте с первоисточником.

15 октября 2025 года Google официально объявила Veo 3.1, новую версию своей видеомодели. Анонс прошёл через блог разработчиков и блог про Flow. Что именно заявили сами разработчики, без приукрашивания.

Что за модель

Veo 3.1 это видеомодель от Google DeepMind. Базовый ролик: 8 секунд за генерацию, разрешение 720p или 1080p, 24 кадра в секунду, форматы 16:9 и 9:16. На вход принимает текстовый промпт или статичную картинку, на выходе сразу клип со звуком.

Главных обновок в анонсе четыре: нативный звук, функция Extend, narrative control и удержание одного героя через несколько сцен. Ниже по каждой.

Нативный звук в одной генерации

Главная заявленная фишка: звук генерируется вместе с видео за один проход, а не клеится отдельно после.

«Veo 3.1 превращает короткий текстовый промпт (или статичный кадр) в 8-секундный клип с синхронизированным звуком: диалог, музыка, эмбиент, за одну генерацию.» — Google Developers Blog, 15 октября 2025

По описанию, звук привязан к сцене: льётся вода, слышно журчание, кто-то говорит, есть липсинк. Это убирает из workflow отдельный шаг сведения звука для коротких роликов.

Extend: ролики длиннее 8 секунд

Extend снимает старое ограничение в 8 секунд. По описанию Google, она позволяет продолжить уже готовый ролик так, чтобы новый отрезок начался ровно с того кадра, где закончился предыдущий, с сохранением света, ракурса и позы. Работает в Flow и через Gemini API.

Narrative control: события по таймингу

Ещё одно заявленное обновление, narrative control. Google в анонсе про Flow описывает это как возможность задавать конкретные события внутри ролика, а не только общую идею кадра. То есть можно расписать, что происходит на 2-й, 4-й и 6-й секунде, и модель соблюдает эти ивенты.

Один герой через несколько сцен

В отличие от Veo 3, новая версия принимает несколько картинок-источников в одном запросе. По описанию это нужно, чтобы удержать внешность, одежду и стиль персонажа через серию кадров, полезно для рекламных кампаний и сериального контента с одним героем.

Что это значит на практике

Анонс звучит сильно, но интереснее проверить руками. Подробно гонял руками в обзоре Veo 3.1: там про то, где нативный звук и Extend реально выручают, а где модель проседает (текст в кадре, сложные действия рук).

Попробовать без VPN можно во Flami.

Источники

Google Developers Blog: Introducing Veo 3.1 and new creative capabilities in the Gemini API (оригинал, английский)
Google Blog: Veo updates in Flow (оригинал, английский)
Google DeepMind: Veo 3.1 model page (оригинал, английский)

Veo 3.1 от Google DeepMind: что заявили на официальном анонсе