安装LSF
安装需求
- 基本硬件配置建议:
- CPU 4核或以上(LSF 没有最低 CPU 需求,此处只是建议)
- 内存 8G或以上( 当没有作业在运行时, Linux x86-64 上集群中的 LSF 守护程序将使用大约 488 MB 内存。)
- 交换空间通常配置为物理内存的两倍
- 节点硬件资源的高低,取决于集群运行作业的多少、作业类型(偏向于CPU、还是偏向于内存)
- LSF管理节点的配置要求,可以参考官方说明:Management host selection
- 操作系统要求: 官方正式支持的各种系统,常用为Linux系统。
- 配置共享存储。
- 用户统一管理, 提前设置好LSF管理用户(lsfadmin或者一个普通用户)。
- 集群需要时间同步。
- root用户可以免密从管理节点到其他节点运行ssh。 节点之间要求双向解析主机和IP。
环境说明
本示例中的IP规划如下:
主机名 | LSF集群相关服务 | IP |
lsf-master1 | LSF管理节点 | 192.168.75.154 |
lsf-master2 | LSF候选管理节点 | 192.168.75.155 |
compute | LSF计算节点 | 192.168.75.156 |
配置安装LSF前的相关服务
域名解析
保证计算节点之间能正常解析和反解析IP/hostname。
本示例中为配置本地域名解析,修改每个节点中的/etc/hosts文件,操作如下:
# tail -3 /etc/hosts
192.168.75.154 lsf-master1
192.168.75.155 lsf-master2
192.168.75.156 compute
配置ssh免密登录
root用户能够从管理节点通过ssh无密码访问新节点,方便从管理节点在新节点远程启动LSF。如果是有密码访问,机器少还可以输入密码,但是大的集群还是配置无密码访问效率更高。
免密设置可参考如下操作:
[root@lsf-master1 ~]# ssh-keygen
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa):
Created directory '/root/.ssh'.
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:4K+YpiQOAFK7E1oDsOq1iNOofqea4vlUmkcm65F7St8 root@lsf-master1
The key's randomart image is:
+---[RSA 2048]----+
|+ . |
| + . |
|+ = . |
|+o + . . |
|+ oo +. S |
|+oo.@ . |
|*ooX . . |
|=+*.*=.. |
|=B=OB..E |
+----[SHA256]-----+
[root@lsf-master1 ~]# ssh-copy-id root@lsf-master2
......
root@lsf-master2's password: # 此处输入lsf-master2密码
[root@lsf-master1 ~]# ssh-copy-id root@compute
......
root@compute's password: # 此处输入compute密码
时间同步
确保每个节点时间相同,防止认证失败。
请确认集群各节点时间服务器是否一致,可以查看/etc/chrony.conf文件。参考如下:
# grep server /etc/chrony.conf
server xx.xx.xx.xx prefer iburst minpoll 4 maxpoll 4
配置NFS挂载
LSF安装在共享存储上,每个计算节点挂载即可使用,无需再次安装。
(1)设置共享目录
[root@lsf-master1 ~]# mkdir /tools/[root@lsf-master1 ~]# echo "/tools/ *(rw,sync,no_root_squash)" >> /etc/exports
(2)启动rpcbind服务,并设置开机启动
[root@lsf-master1 ~]# systemctl enable rpcbind --now
(3)启动nfs服务,并设置开机启动
[root@lsf-master1 ~]# systemctl restart nfs-server
(4)查看挂载状态
[root@lsf-master1 ~]# showmount -e localhostExport list for localhost:/tools/ *
账户管理
可以使用OpenLDAP/NIS来统一管理用户,保证同一个用户在每个节点上有相同的UID。
本示例中为便捷操作,使用useradd、groupadd创建UID、GID一致的管理员账户。步骤参考如下所示:
(1)创建集群管理组
groupadd -g 2001 lsf
(2)创建集群管理用户
useradd -u 2000 -G lsf lsfadmin
安装LSF
lsf-master节点解压修改配置
(1)进入LSF安装包所在的位置。
(2)解压 lsfsce10.2.0.12-x86_64.tar.gz
[root@lsf-master1 ~]# cd /tmp[root@lsf-master1 tmp]# ls lsfsce10.2.0.12-x86_64.tar.gzlsfsce10.2.0.12-x86_64.tar.gz[root@lsf-master1 tmp]# tar -xf lsfsce10.2.0.12-x86_64.tar.gz[root@lsf-master1 tmp]# ls lsfsce10.2.0.12-x86_64/lsf/lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z # LSF运行时使用的包lsf10.1_lsfinstall_linux_x86_64.tar.Z # 安装引导包
(3)解压lsf10.1_lsfinstall_linux_x86_64.tar.Z
[root@lsf-master1 tmp]# cd lsfsce10.2.0.12-x86_64/lsf/[root@lsf-master1 lsf]# tar xzf lsf10.1_lsfinstall_linux_x86_64.tar.Z[root@lsf-master1 lsf]# lslsf10.1_linux2.6-glibc2.3-x86_64.tar.Z lsf10.1_lsfinstall lsf10.1_lsfinstall_linux_x86_64.tar.Z[root@lsf-master1 lsf]# cd lsf10.1_lsfinstall/[root@lsf-master1 lsf10.1_lsfinstall]#
(4)编辑安装配置文件
[root@lsf-master1 lsf10.1_lsfinstall]# vim install.config# 设置安装路径LSF_TOP="/tools/lsf" # 设置管理员账号,以实际管理员名称为准LSF_ADMINS="lsfadmin" # 设置集群名称LSF_CLUSTER_NAME="cluster1" # master机器列表,如果有多台机器,建议设置两台master,作为冗余备份LSF_MASTER_LIST="lsf-master1 lsf-master2" # 指定安装文件lsf10.1_linux2.6-glibc2.3-x86_64.tar.Z路径LSF_TARDIR="/tmp/lsfsce10.2.0.12-x86_64/lsf" # 添加计算机节点机器,也可以安装后配置LSF_ADD_SERVERS="lsf-master1 lsf-master2 compute" # 添加客户机(投递机)节点,也可以安装后配置#LSF_ADD_CLIENTS=""
LSF安装
(1)安装lsf集群需要的安装包,根据系统版本不同可能会缺少依赖,需要的依赖安装过程中会在页面显示。通过root用户来安装。
[root@lsf-master1 lsf10.1_lsfinstall]# yum -y install java nfs-utils java-openjdk ed[root@lsf-master1 lsf10.1_lsfinstall]# ./lsfinstall -f install.config
(2)配置系统开机自启方式
[root@lsf-master1 lsf10.1_lsfinstall]# /tools/lsf/10.1/install/hostsetup --top="/tools/lsf" --profile="y" --boot="y"[root@lsf-master1 ~]# systemctl enable lsfd --now
(3)查看LSF环境变量
[root@lsf-master1 lsf10.1_lsfinstall]# . /tools/lsf/conf/profile.lsf[root@lsf-master1 lsf10.1_lsfinstall]# env | grep lsfMANPATH=/tools/lsf/10.1/man:HOSTNAME=lsf-master1LSF_SERVERDIR=/tools/lsf/10.1/linux2.6-glibc2.3-x86_64/etcOLDPWD=/root/lsfsce10.2.0.12-x86_64/lsfLSF_LIBDIR=/tools/lsf/10.1/linux2.6-glibc2.3-x86_64/libLD_LIBRARY_PATH=/tools/lsf/10.1/linux2.6-glibc2.3-x86_64/libPATH=/tools/lsf/10.1/linux2.6-glibc2.3-x86_64/etc:/tools/lsf/10.1/linux2.6-glibc2.3-x86_64/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/binPWD=/root/lsfsce10.2.0.12-x86_64/lsf/lsf10.1_lsfinstallLSF_BINDIR=/tools/lsf/10.1/linux2.6-glibc2.3-x86_64/binLSF_ENVDIR=/tools/lsf/conf
LSF启动
在计算节点挂载共享存储:
# mkdir /tools# echo "192.168.75.159:/tools /tools nfs defaults 0 0" >> /etc/fstab# mount -a# df -hT | grep /tools172.31.27.152:/tools nfs4 20G 8.0G 12G 41% /tools# su - lsfadmin# . /tools/lsf/conf/profile.lsf
在lsf.conf文件中添加如下内容:
LSF_RSH=ssh
启动(用root用户操作):
# lsfstartup
验证(用普通用户操作):
$ lsload
$ bhosts
相关文章:

安装LSF
安装需求 基本硬件配置建议: CPU 4核或以上(LSF 没有最低 CPU 需求,此处只是建议)内存 8G或以上( 当没有作业在运行时, Linux x86-64 上集群中的 LSF 守护程序将使用大约 488 MB 内存。)交换…...

百度的新想象力在哪?
理解中国大模型,百度是一个窗口。这个窗口的特殊性不仅在于变化本身,而是在于百度本身就是那个窗口。 作者|皮爷 出品|产业家 沿着首钢园北区向西北步行10分钟,就能看到一个高约90米的大跳台,在工业园钢铁痕迹的印衬下&#…...

Linux使用rpm包安装mysql5.7
以前安装过mysql 前言:检查以前是否装有mysql rpm -qa|grep -i mysql安装了会显示: bt-mysql57-5.7.31-1.el7.x86_64 停止mysql服务和删除之前安装的mysql rpm -e bt-mysql57-5.7.31-1.el7.x86_64查找并删除mysql相关目录 find / -name mysql/va…...

LLDB 三种输出方式 对比及原理探索
前言 当我们的项目过大时,就会使我们项目的编译耗时过长,如何在项目运行时进项代码调试,熟练使用LLDB就可以解决这个难题,大幅度提高我们的开发效率。 什么是 LLDB? LLDB是英文Low Lever Debug的缩写,是XCode内置的为我们开发者提供的调试工具,它与LLVM编译器一起,存…...
基于架构软件设计-架构真题(五十八)
“41”视图主要描述系统逻辑架构。其中()视图用于描述对象模型,并说明系统应该为用户提供哪些服务。 过程开发物理逻辑 解析: “41”有逻辑视图、过程视图、物理视图、开发视图和架构的描述。 逻辑视图:设计的对象…...

jvm实现的锁优化
目录 轻量级锁 轻量级锁的工作流程 轻量级锁的解锁 偏向锁 偏向锁的流程: 偏向锁和轻量级锁机区别: 其他优化 自旋锁和自适应自旋锁 锁消除 锁粗化 轻量级锁 “轻量级” 是相对于使用操作系统互斥量来实现的传统锁而言的,因此传统的…...

JMeter做http接口功能测试
1. 普通的以key-value传参的get请求 e.g. 获取用户信息 添加http请求;填写服务器域名或IP;方法选GET;填写路径;添加参数;运行并查看结果。 2. 以Json串传参的post请求 e.g. 获取用户余额 添加http请求;…...
【安全体系架构】——SIEM架构
什么是SIEM架构? 安全信息与事件管理(SIEM)架构是一种综合性的安全管理系统,旨在监控、检测、报告和应对安全事件和威胁。SIEM系统集成了多个安全功能,包括日志收集、事件管理、威胁检测和响应,以提供组织…...
nginx acess日志找不到访问记录问题
这个是AI给出的可能得原因: 如果在nginx中找不到你的访问记录,但你确实进行了访问并得到了返回,可能有以下原因: 日志文件位置设置不正确:请确保你的nginx配置文件中的access_log指令指向了正确的日志文件路径。日志文…...
canvas使用
canvas使用 1 canvas绘制基本 1 概念 HTML5<canvas>元素用于图形的绘制,区别于css,它的绘制通过javascript来完成绘制的 <canvas>标签只是图形容器,必须使用及保本来绘制图形 Canvas API主要聚焦与2D图形。同时<canvas>元素的Web…...
PMP认证考试证书领取的通知
各位考生: 2022年6月、7月、8月PMI认证考试证书领取工作已经开始,您可通过以下两种方式领取证书: 1.联系本人所在培训机构,通过培训机构向考点统一代领。 2.在2023年10月20日-10月31日内,登录本网站报名系统个人账户…...

华为云HECS云服务器docker环境下安装nacos
华为云HECS云服务器,安装docker环境,查看如下文章。 华为云HECS安装docker-CSDN博客 一、拉取镜像 docker pull nacos/nacos-server二、宿主机创建挂载目录 执行如下命令: mkdir -p /usr/local/nacos/logs mkdir -p /usr/local/nacos/con…...
Oracle数据库修改序列,Oracle中的主键值和序列中的值对应不上时的处理方式
select max(stu.id) maxid from student stu; //查询student表中id的最大值select XXX_SEQ.nextval from dual; //查询student表中id对应序列XXX_SEQ的下一个值alter sequence XXX_SEQ increment by 1000; //将序列XXX_SEQ步长改为1000,对应 student表中id的最大值s…...

Verilog基础:避免混合使用阻塞和非阻塞赋值
相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 “避免在一个always块中混杂阻塞赋值和非阻塞赋值”,这条原则是著名的Verilog专家Cliff Cummings在论文SUNG2000中提出的,这个观点在公众讨…...

04、MySQL-------MyCat实现分库分表
目录 九、MyCat实现分库分表1、分库分表介绍:横向(水平)拆分**垂直分表**:水平分表:**分库分表** 纵向(垂直)拆分分表字段选择 2、分库分表操作:1、分析图:2、克隆主从3、…...

开源软件-禅道Zentao
禅道Zentao 简介漏洞复现SQL注入漏洞**16.5****router.class.php SQL注入** **v18.0-v18.3****后台命令执行** 远程命令执行漏洞(RCE)后台命令执行 简介 是一款开源的项目管理软件,旨在帮助团队组织和管理他们的项目。Zentao提供了丰富的功能…...

Linux生产者消费者模型
生产者消费者模型 生产者消费者模型生产者消费者模型的概念生产者消费者模型的特点生产者消费者模型优点 基于BlockingQueue的生产者消费者模型基于阻塞队列的生产者消费者模型模拟实现基于阻塞队列的生产消费模型 生产者消费者模型 生产者消费者模型的概念 生产者消费者模式就…...

【Qt-20】Qt信号与槽
一、什么是信号和槽 信号是特定情况下被发射的事件,发射信号使用emit关键字,定义信号使用signals关键字,在signals前面不能使用public、private、protected等限定符,信号只用声明,不需也不能对其进行定义实现。另外&am…...

“智能+”时代,深维智信如何借助阿里云打造AI内容生成系统
云布道师 前言: 随着数字经济的发展,线上数字化远程销售模式越来越成为一种主流,销售流程也演变为线上视频会议、线下拜访等多种方式的结合。根据 Gartner 报告,到 2025 年 60% 的 B2B 销售组织将从基于经验和直觉的销售转变为数…...
selenium 自动化测试——WebDriver API
控制浏览器 控制浏览器窗口大小:set_window_size()方法 设置全屏模式下运行:maximize_window()方法 from selenium import webdriver from selenium.webdriver.common.by import By import timedriver webdriver.Chrome() driver.get("http://w…...

网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...

C++_核心编程_多态案例二-制作饮品
#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为:煮水 - 冲泡 - 倒入杯中 - 加入辅料 利用多态技术实现本案例,提供抽象制作饮品基类,提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

MFC内存泄露
1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

centos 7 部署awstats 网站访问检测
一、基础环境准备(两种安装方式都要做) bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats࿰…...

DAY 47
三、通道注意力 3.1 通道注意力的定义 # 新增:通道注意力模块(SE模块) class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...
linux 错误码总结
1,错误码的概念与作用 在Linux系统中,错误码是系统调用或库函数在执行失败时返回的特定数值,用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递,errno由操作系统维护,保存最近一次发生的错误信息。值得注意的是,errno的值在每次系统调用或函数调用失败时…...
Swagger和OpenApi的前世今生
Swagger与OpenAPI的关系演进是API标准化进程中的重要篇章,二者共同塑造了现代RESTful API的开发范式。 本期就扒一扒其技术演进的关键节点与核心逻辑: 🔄 一、起源与初创期:Swagger的诞生(2010-2014) 核心…...
python报错No module named ‘tensorflow.keras‘
是由于不同版本的tensorflow下的keras所在的路径不同,结合所安装的tensorflow的目录结构修改from语句即可。 原语句: from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后: from tensorflow.python.keras.lay…...

wpf在image控件上快速显示内存图像
wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像(比如分辨率3000*3000的图像)的办法,尤其是想把内存中的裸数据(只有图像的数据,不包…...
Python网页自动化Selenium中文文档
1. 安装 1.1. 安装 Selenium Python bindings 提供了一个简单的API,让你使用Selenium WebDriver来编写功能/校验测试。 通过Selenium Python的API,你可以非常直观的使用Selenium WebDriver的所有功能。 Selenium Python bindings 使用非常简洁方便的A…...