服务器资源#
已有计算资源#
CPU 服务器1 (
IP: xxx.xxx.1.121
): 64核CPU + 256G内存CPU 服务器2 (
IP: xxx.xxx.47.245
): 64核CPU + 256G内存CPU 服务器3 (
IP: xxx.xxx.47.245
): 256核CPU + 1.5T内存V100 服务器 (
IP: xxx.xxx.47.245
): 40核CPU + 128G内存 + 1块 V100 (cuda:0)A100 服务器 (
IP: xxx.xxx.181.119
): 128核CPU + 1T内存 + 8块 A100 (cuda:0-cuda:8)
算力资源协调细则:#
“先到先得”原则#
计算资源先到先得。
如果运行大型任务满足以下任一条件,并持续24h以上,需在 Zhoulab HPC 服务器 微信管理群内报备,具体说明使用计算资源以及预计使用的天数。
使用超过单台服务器 80% 的 CPU 核心;(使用
top
命令查看CPU占用率)使用超过单台服务器 80% 的内存;(使用
top
命令查看RAM使用率)使用超过 1 块 GPU,且 GPU utility 超过 80%;(使用
nvdia-smi
命令查看GPU utility)使用超过 1 块 GPU,且显存使用率超过 80%;(使用
nvdia-smi
命令查看GPU memory)
“有求必应”原则 (紧急任务需要临时插队)#
可私聊计算资源目前使用者进行协调。被私聊者必须给出回应:
暂停当前不紧急、不必要的任务,让出资源;
给出必须继续使用的充分理由,如“我已经跑了一周了,还差一个小时就能完成”,并主动协商后续的使用时间;
双方无法协调,可以联系管理员或老师申请额外的计算资源。
若目前有多位计算资源高需求使用者,可以随时在管理群里at使用者们提出需求,当前使用者们看到后必须主动回应。
若长时间反馈无果,可以联系集群管理员,直接关闭任务。