大语言模型管理

监控主题:
当前运行模型 Qwen-7B 运行中 (Healthy)
显存占用 (VRAM) 14.2 GB Total: 20 GB
平均推理速度 42 t/s High Speed
今日调用次数 1,248 +15%

本地部署模型列表

Qwen 集群已就绪
模型名称 版本 量化级别 状态 后端 操作
Qwen-7B-Chat v1.5 4-bit (AWQ) Ready vLLM / CUDA 12.1
Whisper-Medium v3 float16 Ready Faster-Whisper
Qwen-14B v1.5 8-bit Stopped -

模型资源占用曲线

过去 12 小时显存负载波动率