RegCloud benchmark report

Inference capacity, latency and server signals

Наглядная страница по batch-бенчам: сколько одновременных запросов держит каждая модель, где ломается TTFT, что происходит со скоростью на один запрос, и какие серверные метрики это объясняют.

Executive summary

Модели в одном взгляде

Не максимальная красивая цифра, а полезная сводка: SLA capacity, speed avg/max, total output speed avg/max и главная проблема.

Capacity planning

Capacity by use case

Максимальная пачка, которая проходит выбранный SLA. Это ближе к “сколько можно продавать”, чем просто raw throughput.

Visual analysis

Performance ranges

Полосы показывают диапазон speed avg от легкой точки к максимальной протестированной пачке: скорость падает, TTFT растет.

Performance

Profile deep dive

Выбери профиль и смотри четыре ключевых графика без лишнего шума.

Technical analysis

vLLM/GPU signals

Эта часть отвечает “почему”: очередь, running requests, prefix cache, GPU/KV.

Data

Readable rows

Только самые нужные колонки, чтобы быстро сверить конкретную точку.