RegCloud benchmark report

Inference capacity, latency and server signals

Наглядная страница по batch-бенчам: сколько одновременных запросов держит каждая модель, где ломается TTFT, что происходит со скоростью на один запрос, и какие серверные метрики это объясняют.

Executive summary

Модели в одном взгляде

Не максимальная красивая цифра, а полезная сводка: SLA capacity, speed avg/max, total output speed avg/max и главная проблема.

Capacity planning

Capacity by use case

Максимальная пачка, которая проходит выбранный SLA. Это ближе к “сколько можно продавать”, чем просто raw throughput.

Visual analysis

Performance ranges

Полосы показывают диапазон speed avg от легкой точки к максимальной протестированной пачке: скорость падает, TTFT растет.

Performance

Profile deep dive

Выбери профиль и смотри четыре ключевых графика без лишнего шума.

Technical analysis

vLLM/GPU signals

Эта часть отвечает “почему”: очередь, running requests, prefix cache, GPU/KV.

Data

Readable rows

Только самые нужные колонки, чтобы быстро сверить конкретную точку.

Qwen3.5 122B hardware compare

2xPRO6000 NVFP4 vs B200 first

Сначала показан честный overlap нового qwen35-122b-a10b-nvfp4 на 2xPRO6000 с сохраненными B200 fullrebench-точками: одинаковые workload и target RPS. Ниже остаются reference-данные A100/H200/B200 из старого hardware-pack и approximate PRO6000 overlay.

PRO6000 vs B200

Same-harness comparison first

Это главный честный участок отчета: для B200 и PRO6000 совпадают workload и target RPS. H200 здесь не показан, потому что таких же локальных fullrebench-строк по нему не найдено.

PRO6000 vs B200

Fixed-sequence overlap

У PRO6000 fixed-seq матрица шире. У B200 найден compact fixed-seq, поэтому точное пересечение сейчас только `1k/1k c1`, `1k/1k c8`, `8k/1k c1`, `8k/1k c8`.

Remaining reference data

Old hardware-pack aggregate

Ниже идут оставшиеся данные: старый A100/H200/B200 common-step pack и reference-only PRO6000 overlay. Это полезно для контекста, но не главный apples-to-apples блок.

Dataset breakdown

Old pack by task class

Short/medium/complex сравнение только для A100/H200/B200 common steps; это самый честный участок старого pack.

Reference-only overlay

PRO6000 near old pack shapes

Это приблизительное сопоставление по похожему размеру ответа. Оно помогает ориентироваться, но не заменяет основной блок PRO6000 vs B200 выше.

2xPRO6000 detail

Current qwen35 NVFP4 rebench points

Эти точки показывают поведение нового endpoint по chat/long/fixed/speed-output, но это другой harness, не common-step pack.

Tables

Readable comparison rows

Числа из сохраненных CSV/JSON. Ссылки на исходные файлы лежат рядом в snapshot-папке.