Наглядная страница по batch-бенчам: сколько одновременных запросов держит каждая модель, где ломается TTFT, что происходит со скоростью на один запрос, и какие серверные метрики это объясняют.
Не максимальная красивая цифра, а полезная сводка: SLA capacity, speed avg/max, total output speed avg/max и главная проблема.
Максимальная пачка, которая проходит выбранный SLA. Это ближе к “сколько можно продавать”, чем просто raw throughput.
Полосы показывают диапазон speed avg от легкой точки к максимальной протестированной пачке: скорость падает, TTFT растет.
Выбери профиль и смотри четыре ключевых графика без лишнего шума.
Эта часть отвечает “почему”: очередь, running requests, prefix cache, GPU/KV.
Только самые нужные колонки, чтобы быстро сверить конкретную точку.
Это старый подробный CSV: screening, thoughtful runs, chat, long-context, mixed, noisy-neighbor и agentic. Он не заменяет batch capacity, а показывает историю нагрузочных точек и стабильность по RPS.
speed avg / max = скорость одного запроса;
total output speed avg / max = суммарная output-скорость всей нагрузки.
Графики агрегируют повторные historical runs в одну точку на модель и нагрузку, чтобы не перегружать chat_short; все сырые строки остаются в таблице ниже.
На графиках линия показывает avg, а max видно в tooltip и таблицах.
Сводка по выбранному профилю: максимум total output speed, лучшая speed avg и максимальный стабильный RPS.
Нормализованные поля из results/all_benchmarks_full.csv.
Сначала показан честный overlap нового qwen35-122b-a10b-nvfp4 на 2xPRO6000 с сохраненными B200 fullrebench-точками: одинаковые workload и target RPS. Ниже остаются reference-данные A100/H200/B200 из старого hardware-pack и approximate PRO6000 overlay.
Это главный честный участок отчета: для B200 и PRO6000 совпадают workload и target RPS. H200 здесь не показан, потому что таких же локальных fullrebench-строк по нему не найдено.
У PRO6000 fixed-seq матрица шире. У B200 найден compact fixed-seq, поэтому точное пересечение сейчас только `1k/1k c1`, `1k/1k c8`, `8k/1k c1`, `8k/1k c8`.
Ниже идут оставшиеся данные: старый A100/H200/B200 common-step pack и reference-only PRO6000 overlay. Это полезно для контекста, но не главный apples-to-apples блок.
Short/medium/complex сравнение только для A100/H200/B200 common steps; это самый честный участок старого pack.
Это приблизительное сопоставление по похожему размеру ответа. Оно помогает ориентироваться, но не заменяет основной блок PRO6000 vs B200 выше.
Эти точки показывают поведение нового endpoint по chat/long/fixed/speed-output, но это другой harness, не common-step pack.
Числа из сохраненных CSV/JSON. Ссылки на исходные файлы лежат рядом в snapshot-папке.