大语言模型管理
当前运行模型
Qwen-7B
运行中 (Healthy)
显存占用 (VRAM)
14.2 GB
Total: 20 GB
平均推理速度
42 t/s
High Speed
今日调用次数
1,248
+15%
本地部署模型列表
Qwen 集群已就绪
| 模型名称 | 版本 | 量化级别 | 状态 | 后端 | 操作 |
|---|---|---|---|---|---|
| Qwen-7B-Chat | v1.5 | 4-bit (AWQ) | Ready | vLLM / CUDA 12.1 | |
| Whisper-Medium | v3 | float16 | Ready | Faster-Whisper | |
| Qwen-14B | v1.5 | 8-bit | Stopped | - |
模型资源占用曲线
过去 12 小时显存负载波动率