服务器资源#

已有计算资源#

  1. CPU 服务器1 (IP: xxx.xxx.1.121): 64核CPU + 256G内存

  2. CPU 服务器2 (IP: xxx.xxx.47.245): 64核CPU + 256G内存

  3. CPU 服务器3 (IP: xxx.xxx.47.245): 256核CPU + 1.5T内存

  4. V100 服务器 (IP: xxx.xxx.47.245): 40核CPU + 128G内存 + 1块 V100 (cuda:0)

  5. A100 服务器 (IP: xxx.xxx.181.119): 128核CPU + 1T内存 + 8块 A100 (cuda:0-cuda:8)

算力资源协调细则:#

“先到先得”原则#

  1. 计算资源先到先得。

  2. 如果运行大型任务满足以下任一条件,并持续24h以上,需在 Zhoulab HPC 服务器 微信管理群内报备,具体说明使用计算资源以及预计使用的天数

    • 使用超过单台服务器 80% 的 CPU 核心;(使用 top 命令查看CPU占用率)

    • 使用超过单台服务器 80% 的内存;(使用 top 命令查看RAM使用率)

    • 使用超过 1 块 GPU,且 GPU utility 超过 80%;(使用 nvdia-smi 命令查看GPU utility)

    • 使用超过 1 块 GPU,且显存使用率超过 80%;(使用 nvdia-smi 命令查看GPU memory)

“有求必应”原则 (紧急任务需要临时插队)#

  1. 可私聊计算资源目前使用者进行协调。被私聊者必须给出回应:

    • 暂停当前不紧急、不必要的任务,让出资源;

    • 给出必须继续使用的充分理由,如“我已经跑了一周了,还差一个小时就能完成”,并主动协商后续的使用时间;

    • 双方无法协调,可以联系管理员或老师申请额外的计算资源。

  2. 若目前有多位计算资源高需求使用者,可以随时在管理群里at使用者们提出需求,当前使用者们看到后必须主动回应。

  3. 长时间反馈无果,可以联系集群管理员,直接关闭任务。