服务器资源

Contents

服务器资源#

已有计算资源#

CPU 服务器1 (IP: xxx.xxx.1.121): 64核CPU + 256G内存
CPU 服务器2 (IP: xxx.xxx.47.245): 64核CPU + 256G内存
CPU 服务器3 (IP: xxx.xxx.47.245): 256核CPU + 1.5T内存
V100 服务器 (IP: xxx.xxx.47.245): 40核CPU + 128G内存 + 1块 V100 (cuda:0)
A100 服务器 (IP: xxx.xxx.181.119): 128核CPU + 1T内存 + 8块 A100 (cuda:0-cuda:8)

算力资源协调细则：#

“先到先得”原则#

计算资源先到先得。
如果运行大型任务满足以下任一条件，并持续24h以上，需在 Zhoulab HPC 服务器 微信管理群内报备，具体说明使用计算资源以及预计使用的天数。
- 使用超过单台服务器 80% 的 CPU 核心;（使用 top 命令查看CPU占用率）
- 使用超过单台服务器 80% 的内存;（使用 top 命令查看RAM使用率）
- 使用超过 1 块 GPU，且 GPU utility 超过 80%;（使用 nvdia-smi 命令查看GPU utility）
- 使用超过 1 块 GPU，且显存使用率超过 80%;（使用 nvdia-smi 命令查看GPU memory）

“有求必应”原则（紧急任务需要临时插队）#

可私聊计算资源目前使用者进行协调。被私聊者必须给出回应：
- 暂停当前不紧急、不必要的任务，让出资源；
- 给出必须继续使用的充分理由，如“我已经跑了一周了，还差一个小时就能完成”，并主动协商后续的使用时间；
- 双方无法协调，可以联系管理员或老师申请额外的计算资源。
若目前有多位计算资源高需求使用者，可以随时在管理群里at使用者们提出需求，当前使用者们看到后必须主动回应。
若长时间反馈无果，可以联系集群管理员，直接关闭任务。