HTCondor下多台Linux计算集群的搭建


HTCondor下多台Linux计算集群的搭建

环境:四台同网段的Linux虚拟机

  • 一台当作Central Manager
  • 一台用来Submit
  • 两台用来Execute

(一)对四台虚拟机分别进行此操作

apt-get update && apt-get install -y curl

在这里插入图片描述

(二)对三个角色分别进行如下操作

1)充当Central Manager角色的虚拟机

首先,查找此虚拟机的IP
命令行输入ifconfig -a,红框的即为虚拟机IP
在这里插入图片描述

将此IP替换192.168.87.132,输入如下命令

sudo curl -fsSL https://get.htcondor.org | GET_HTCONDOR_PASSWORD=wmcoder /bin/bash -s -- --no-dry-run --central-manager 192.168.87.132

2)充当Submit 角色的虚拟机

192.168.87.132用Central Manager角色虚拟机的IP来替换

sudo curl -fsSL https://get.htcondor.org | GET_HTCONDOR_PASSWORD=wmcoder /bin/bash -s -- --no-dry-run --submit 192.168.87.132

3)充当Execute角色的虚拟机(两台)

192.168.87.132用Central Manager角色虚拟机的IP来替换

sudo curl -fsSL https://get.htcondor.org | GET_HTCONDOR_PASSWORD=wmcoder /bin/bash -s -- --no-dry-run --execute 192.168.87.132

(三)执行condor_status查看

登录到提交计算机上的用户应该能够查看池中的执行计算机(使用condor_status),提交作业(使用condor_submit)以及运行(使用condor_q)。显示的为两台执行角色的虚拟机。
在这里插入图片描述

(附)部分bug及解决方案

因未设置密码问题无法使用root权限

在这里插入图片描述

如提前安装了htcondor,使用此命令卸载

sh -c "apt-get -y remove --purge htcondor && apt-get -y autoremove --purge && rm -fr /etc/condor"

参考链接:
https://htcondor.readthedocs.io/en/latest/getting-htcondor/install-linux-as-root.html
https://htcondor.readthedocs.io/en/latest/getting-htcondor/admin-quick-start.html#admin-quick-start-guide

CSDN:HTCondor下多台Linux计算集群的搭建_未名编程-CSDN博客


文章作者: 未名
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 未名 !
  目录