Seedream 5.0 тесты: арены против ByteDance

Seedream 5.0 тесты расходятся: на своей MagicArena ByteDance ставит модель выше 4.5, независимая arena.ai даёт ниже. Объясняю, откуда разрыв.

Это сопоставление официальных материалов ByteDance Seed и данных независимой арены arena.ai, переведённое и разобранное на русском. Оригиналы: анонс Seedream 5.0 Lite и лидерборд (рейтинговая таблица) arena.ai. Таблицы обновляются постоянно, перепроверяйте.

На внутренней арене ByteDance Seedream 5.0 Lite обходит предшественницу, а на независимой arena.ai стоит на три строчки ниже неё. Две таблицы, месяц один и тот же, а выводы прямо противоположные. Бенчмаркам (сравнительным тестам) от самих разработчиков я не доверяю по умолчанию: не потому что разработчики врут, а потому что они меряют то, что им выгодно мерить. Свежие независимые тесты Seedream 5.0 рядом с внутренними замерами ByteDance дали идеальный случай проверить этот скепсис цифрами.

Версия ByteDance: лучше предшественника

В анонсе компания опирается на собственную платформу MagicArena: двойные слепые сравнения, по описанию «десятки тысяч раундов». Методология звучит прилично, это честный формат попарных сравнений, не синтетика. И по этим замерам Elo у 5.0 Lite выше, чем у Seedream 4.5. Логичный результат для новой версии, кто бы спорил.

Тесты Seedream 5.0 на arena.ai: ниже предшественника

А теперь независимая arena.ai, которая к июню накопила больше пяти миллионов пользовательских голосов по семи десяткам моделей. Там seedream-5.0-lite стоит на 28-м месте с 1131±4, а seedream-4.5 на 25-м с 1145. Новая модель проигрывает старой 14 пунктов. Не разгром, интервалы ошибок почти соприкасаются, но направление противоположное внутренним замерам. До вершины при этом далеко обеим: первое место держит GPT Image 2 в генерации картинок с 1385, почему он так высоко, разбирали в обзоре GPT Image 2.

Почему два честных замера дают разные ответы

Никакого заговора, по-моему, тут нет, просто три скучные причины. Промпты (текстовые запросы к модели) разные: ByteDance тестирует на сценариях, под которые модель и точилась, у арены поток случайных пользовательских запросов. Отличается и состав судей, аудитория публичной арены голосует за «красиво в целом», тогда как внутренние асессоры смотрят по инструкциям. И прицел у разработчика свой: если модель учили глубже разбирать запрос, внутренние тесты наверняка взвешены в сторону сложных сцен, где она и блистает. На простом промпте «девушка с кофе» это преимущество не светится никак.

Возможно, я что-то упускаю и расхождение частично связано с настройками вывода на аренах. Проверить это снаружи нельзя, и это тоже аргумент против слепой веры любой таблице.

Где модель сильна независимо от рейтингов

Сложные сцены как раз её поле: по материалам ByteDance модель корректно держит до девяти объектов со сложными атрибутами в одном кадре. Для коллажа карточки, где флакон, коробка, три плашки и ленточка, это важнее места в общем зачёте. Доступна она в Dreamina и Volcano Ark, а у нас на странице Seedream 5.0 для генерации изображений и в практическом обзоре Seedream 5.0 расписано, на каких задачах я её беру. Из соседей по таблице на многообъектных сценах хорош ещё Qwen Image 2 для сложных композиций, сравнение есть в обзоре Qwen Image 2.

Мой скепсис в итоге никуда не делся, он просто стал точнее. «Лучше» от самого разработчика теперь нуждается в независимом подтверждении, прежде чем я его приму. А если независимая таблица ставит «хуже», последнее слово всё равно за проверкой на своей задаче. Прогнать Seedream 5.0 на своём товаре можно во Flami, вечер на своих картинках расскажет больше, чем чужие рейтинги.

Часто задаваемые вопросы

Что показывают независимые тесты Seedream 5.0?

На arena.ai модель seedream-5.0-lite набирает 1131±4 и занимает 28-е место, на три позиции ниже Seedream 4.5. Внутренние замеры ByteDance на MagicArena дают обратную картину.

Можно ли доверять MagicArena от ByteDance?

Формат там честный, двойные слепые сравнения на десятках тысяч раундов. Но промпты и судей выбирает сам разработчик, так что результаты показывают сильные стороны модели, а не усреднённое качество.

Чем Seedream 5.0 Lite отличается от полной версии?

Lite это облегчённый вариант линейки, рассчитанный на быстрый отклик и меньшую цену генерации. Характеристики и примеры ByteDance публикует на официальной странице модели.

Где попробовать Seedream 5.0 Lite?

Официально модель доступна в Dreamina и Volcano Ark. В России проще через Flami: оплата в рублях и рядом конкуренты для сравнения на одном промпте.

Источники

ByteDance Seed: Deeper Thinking, More Accurate Generation — Introducing Seedream 5.0 Lite (оригинал, английский)
Arena.ai: Text-to-Image Leaderboard (оригинал, английский)
ByteDance Seed: Seedream 5.0 Lite (страница модели, оригинал, английский)

Seedream 5.0: тесты на независимых аренах против внутренних замеров ByteDance