GPT Image 2 от OpenAI: что заявили на официальном анонсе
Русский разбор анонса GPT Image 2 (ChatGPT Images 2.0) от OpenAI: режим мышления, онлайн-поиск фактов, точный текст и мультиязычность до 2K.
Это перевод и разбор официального анонса GPT Image 2 (OpenAI) на русском. Оригинал: Introducing ChatGPT Images 2.0. Пересказываем интересное, цифры сверяйте с первоисточником.
21 апреля 2026 года OpenAI представила GPT Image 2, она же ChatGPT Images 2.0, она же gpt-image-2 в API. Это уже третий заход компании в генерацию изображений после gpt-image-1 и промежуточной 1.5. Разберу, что именно заявили сами разработчики, без маркетингового тумана.
Главное обещание: модель думает до рендера
Фишка анонса не в очередном приросте реализма. Главное в том, что перед отрисовкой модель сначала планирует кадр. По описанию, в неё встроили те же механизмы рассуждения, что у текстовых O-моделей: GPT Image 2 разбирает запрос, продумывает структуру сцены, при необходимости лезет в интернет за фактами и только потом рисует.
«Images 2.0 brings an unprecedented level of specificity and fidelity to image creation... able to follow instructions, preserve requested details, and render the fine-grained elements that often break image models: small text, iconography, UI elements, dense compositions.» — OpenAI, пресс-релиз через TechCrunch
По заявлению, такой подход даёт точность на сложных многослойных макетах: инфографика, постеры, плотные композиции с иконками и подписями.
Онлайн-поиск фактов
Отдельная заявленная способность: если в кадре нужны реальные вещи, конкретный продукт или узнаваемое место, модель может обратиться к поиску в интернете, подтянуть факты и учесть их при рендере. Оговорка от самой OpenAI: собственные знания модели обрезаны декабрём 2025-го, так что совсем свежие темы без поиска она может переврать.
Текст в кадре и сложная композиция
Это центральная часть анонса. Старые диффузионки реконструируют картинку из шума, и текст для них просто горстка пикселей, которую легко смазать. GPT Image 2 работает ближе к языковой логике, поэтому буквы перестают разваливаться. TechCrunch отдельно протестировал её на меню ресторана, и результат можно было сразу нести в печать, без выдуманных слов, которыми грешили старые модели.
Поддержка языков широкая: латиница, кириллица, плюс серьёзный прогресс по японскому, корейскому, хинди и бенгали. Для международных кампаний удобно: одно описание раскатываешь на разные локали.
Разрешение и скорость
Базово до 2K по официальным данным OpenAI. Тут оговорюсь честно: часть сторонних площадок пишет про 4K, но я держусь именно официальной цифры из пресс-релиза. Форматы стандартные: 16:9, 9:16, 1:1, 4:3, 3:4 и другие. За один заход можно собрать до восьми связанных изображений.
Честно про слабые места
Идеальной модель не назвать, и об этом стоит сказать прямо. Генерация не молниеносная: часть времени уходит на этап мышления и поиска, а сложный многослойный комикс может думать пару минут. Чистый студийный фотореализм, кожа, ткань, отражения на металле, удаётся ей слабее, чем специализированным моделям. Свежие события без поиска она может переврать. И архитектура закрыта: что под капотом, OpenAI в брифинге назвать отказалась, локально модель не покрутишь, только через сервис.
Что это значит на практике
Я разобрала GPT Image 2 руками и описала, где она реально вывозит, а где я к ней не пойду. Подробно в обзоре GPT Image 2. Если коротко: её сила это интеллект и контроль над сложной сценой плюс точный текст, в том числе кириллицей.
Попробовать GPT Image 2 в рублях без VPN можно во Flami.
Источники
- OpenAI: Introducing ChatGPT Images 2.0 (оригинал, английский)
- TechCrunch: ChatGPT's new Images 2.0 model is surprisingly good at generating text (оригинал, английский)
- VentureBeat: OpenAI's ChatGPT Images 2.0 is here and it does multilingual text, infographics, slides, maps (оригинал, английский)
Об авторе
Марина Лебедева
Обозреватель Flami