HPC的集群任务调度器

HPC的集群任务调度器

Slurm全称为Simple Linux Utility for Resource Management,前期主要由劳伦斯利弗莫尔国家实验室、SchedMD、Linux NetworX、Hewlett-Packard 和 Groupe Bull 负责开发,受到闭源软件Quadrics RMS的启发。

Slurm最新版本为23.02,目前由社区和SchedMD公司共同维护,保持开源和免费,由SchedMD公司提供商业支持,仅支持Linux系统,最大节点数量超过12万。

Slurm拥有容错率高、支持异构资源、高度可扩展等优点,每秒可提交超过1000个任务,且由于是开放框架,高度可配置,拥有超过100种插件,因此适用性相当强。

全球60%的TOP500超算中心和超大规模集群(包括我国的天河二号等)都采用Slurm作为调度系统。

Slurm的使用

wiki/public/linux/hpc领域.txt · 最后更改: 2025/11/17 09:17