GPT Image 2 лидерборд: №1 на двух аренах

GPT Image 2 возглавила лидерборды Artificial Analysis и arena.ai: Elo 1340 и 1385, отрыв от второго места до 100 пунктов. Разбираю цифры обеих арен.

Это разбор двух независимых лидербордов (рейтинговых таблиц) текст-в-картинку, Artificial Analysis и arena.ai, на русском. Оригиналы: Text-to-Image Leaderboard от Artificial Analysis и лидерборд arena.ai. Рейтинги пересчитываются после каждого голосования, свежие цифры смотрите у первоисточников.

10 736 парных сравнений. Столько набрала GPT Image 2 (high) на Text-to-Image Arena у Artificial Analysis, и по итогам она первая с Elo 1340. Лидерборд GPT Image 2 возглавила не один: на arena.ai та же модель тоже на верхней строчке. Про анонс этой модели мы уже писали отдельно. Здесь другая история: две арены, которые друг с другом никак не связаны, сошлись в одном победителе. Так бывает редко.

Почему я смотрю сразу на две арены

Одна арена может ошибаться. Состав голосующих, набор текстовых запросов, какие модели чаще попадают в пары, всё это сдвигает рейтинг. Когда лидерборда два и методики у них разные, совпадение верхней строчки значит куда больше.

Обе площадки работают на слепых парных сравнениях, механику мы подробно разобрали в разборе рейтинга arena.ai. На arena.ai (бывшая LMArena) голосов накопилось за пять миллионов, моделей семь десятков. Масштаб, в общем, достаточный, чтобы случайность отпала.

Лидерборд Artificial Analysis: GPT Image 2 с отрывом 74 пункта

Цифры такие. GPT Image 2 (high) держит Elo 1340. Вторая строчка у GPT Image 1.5 с 1266, дальше Nano Banana 2 с 1261, Cosmos3-Super с 1239 (лучшая среди моделей с открытыми весами) и Nano Banana Pro с 1218.

Отрыв лидера от второго места 74 пункта. Чтобы было понятно, насколько это много: вторую и пятую строчку разделяют всего 48. То есть дистанция между первым и вторым местом больше, чем между вторым и пятым. OpenAI обогнала собственную прошлую модель, и обогнала с запасом.

arena.ai: 1385 и пометка Preliminary

На arena.ai gpt-image-2 (medium) показывает 1385 плюс-минус 6 при 45 100 голосах. У второго места, reve-2.0, рейтинг 1273. Разрыв за сотню пунктов, такого на картиночной арене я не припомню.

Одна оговорка. Рядом с моделью стоит пометка Preliminary: голосов пока меньше, чем у старожилов, и рейтинг может сползти по мере накопления. Насколько сильно, покажут следующие недели голосования. Даже если уйдёт пунктов тридцать, первое место останется за ней.

Где в этих списках остальные

Интересно глянуть и вниз таблицы. Seedream 5.0 Lite на arena.ai стоит на 28-й позиции с 1131, подробнее про эту линейку в обзоре Seedream 5, а попробовать её под товарные фото можно на странице Seedream 5. Z-Image Turbo ещё ниже, 46-е место и 1081. Зато она открытая и лёгкая, гоняется на своём железе, мы разбирали это в исследовании Z-Image. Сам инструмент живёт на странице Z-Image для генерации картинок.

Низкое место на арене не приговор. Арена меряет среднюю красоту по больнице, а не вашу конкретную задачу.

Что это меняет в работе с карточками

Для меня вывод простой: когда нужна одна картинка максимального качества под главное фото, беру GPT Image 2 для генерации карточек, статистика двух арен на её стороне. Где модель спотыкается и сколько стоит генерация, расписано в обзоре GPT Image 2. А прогнать свой товар по ссылке с WB или Ozon можно прямо во Flami.

Часто задаваемые вопросы

Какое место занимает GPT Image 2 в лидербордах нейросетей? Первое на обеих крупных аренах. У Artificial Analysis результат набран на 10 736 парных сравнениях, и отрыв от второго места там больше, чем дистанция от второй строчки до пятой.

Что значит пометка Preliminary на arena.ai? Модель ещё набирает голоса, рейтинг предварительный. У gpt-image-2 уже 45 100 голосов, но цифра может скорректироваться.

Что означает разница в Elo на text-to-image арене? Шкала Elo пришла из шахмат: разрыв в 100 пунктов означает, что лидер выигрывает примерно 64 пары из 100. Так что отрыв GPT Image 2 на arena.ai заметен не только в таблице, но и в реальной доле выигранных голосований.

Какая открытая модель сейчас выше всех в лидерборде text-to-image? На Artificial Analysis это Cosmos3-Super с Elo 1239, лидер среди моделей с открытыми весами. Из лёгких открытых вариантов есть Z-Image Turbo, она ниже в таблице, зато бесплатна для своего железа.

Источники

Artificial Analysis: Text-to-Image Arena Leaderboard (оригинал, английский)
arena.ai: Text-to-Image Leaderboard (оригинал, английский)
Hugging Face: Artificial Analysis Text-to-Image Leaderboard (зеркало лидерборда, английский)

GPT Image 2 взяла лидерборды двух арен сразу: разбор цифр