
⚡️ Почему GPU-нагрузки плохо масштабировать по CPUДля vLLM, Triton, batch-инференса и обучения моделей стандартных метрик CPU и памяти часто недостаточно.Основная нагрузка уходит в GPU, поэтому масштабирование лучше строить по сигналам ускорителя:• утилизация GPU• использование VRAM• температура• энергопотреблениеДля этого KEDA нужно передать метрики, которых у нее нет из коробки. В статье разобрали, как добавить их через внешний скейлер.🔧 Как это работает:• на GPU-нодах запускается DaemonSet• он читает локальные метрики через NVML• передает их в KEDA по gRPC через ExternalScaler• KEDA управляет масштабированием нагрузки через HPAДля типовых сценариев есть готовые профили: vllm-inference, triton-inference, training и batch.Например, vLLM deployment можно масштабировать по использованию памяти GPU и уводить в scale-to-zero при простое.➜ Читайте на Хабре, как собрать внешний GPU-скейлер для KEDA и настроить автоскейлинг GPU-нагрузок в Kubernetes🔗 Мы в MAX









