当前位置: 首页 > news >正文

【超算作业调度系统--LSF】

集群服务器--LSF作业调度系统使用

  • 0 Introdutction
  • 1 命令
    • 1.1 bsub--作业提交命令
      • 1.1.1 $ bqueues --查看现有队列信息;
      • 1.1.2 $lsload --查看各节点运行情况
      • 1.1.3 $bhosts --查看各节点空闲情况
      • 1.1.4 $busers --查看用户信息
      • 1.2 bsub --提交作业
      • 1.2.1 bsub OMP_NUM_THREADS 指明需要共享内存
      • 1.2.2 bsub -R 指明需要某种资源作业
      • 1.2.3 bsub -x 运行排他性运行作业
      • 1.2.4 bsub -Is 运行交互式作业
      • 1.2.5 bsub -w 满足依赖关系运行作业
      • 1.2.6 bsub -b time
    • 1.3 bjobs --查看作业排队和运行情况
    • 1.4 bkill --终止作业
    • 1.5 bstop --挂起作业
    • 1.6 bresume --继续运行刮起的作业

前天组织考试了LSF和SVN的使用,结果挂在了LSF的考试上–Failed;

0 Introdutction

LSF:是IBM公司开发的对超算集群服务器的作业统一调度系统;
主要有:

  1. 资源管理器:管理超算集群服务器的硬件资源;
  2. 队列管理器:管理当前已经提交但还未完成的作业;
  3. 作业调度器:为作业分配合适的硬件资源(计算+存储);

作用:

  1. 根据用户提交的计算作业分配相应的资源节点;
  2. 避免作业之间无序干扰,尽量让整个系统负载一致;

1 命令

概念:
登陆节点:主要用于日常操作,如提交作业、查看作业运行情况、编
辑、编译、压缩/解压缩等常用命令;
不要在登陆节点运行作业,即必须通过bsub提交作业
作业节点:即真实作业提交运算节点;

1.1 bsub–作业提交命令

所有需要运行的作业均必须通过作业提交命令bsub提交;

1.1.1 $ bqueues --查看现有队列信息;

会看到列名:QUEUE_NAME PRIO. STATUS
2.$ bqueues -l dfbdv
进行查看队列的详细信息;
CPU计算队列:
GPU计算队列:
Principle:非GPU作业不得使用GPU计算队列**
申请核数尽量以 8或者其他的倍数,以为能独占单个节点,避免作业间相互干扰;
3.

1.1.2 $lsload --查看各节点运行情况

1.$ lsload
ut表示利用率
2.$ lsload node --查看某节点运行情况;

1.1.3 $bhosts --查看各节点空闲情况

类似lsload 命令

1.1.4 $busers --查看用户信息

1.2 bsub --提交作业

bsub [options] command [arguments]
command之前的options:设置队列、CPU核数等LSF的选项
command之后的arguments:设置具体作业的可执行程序本身所需要
的参数;
For understanding:
为了用户作业间不相互干扰,申请的核数最好为系统节点内CPU核
数的整数倍,以便同一个作业占据整个节点

比如对每个节点为8核的系统,申请核数为8的整数倍,节点核数
为12的系统,申请核数为12的整数倍
曙光TC4600百万亿次超级计算系统:每个节点24 CPU核
ChinaGrid高性能计算集群:每个节点16 CPU核
联想1800和7000G GPU集群:每个节点8 CPU核

1.2.1 bsub OMP_NUM_THREADS 指明需要共享内存

需求:OpenMP等共享内存作业提交,则需要保证在同一个节点上运行;程序启动前利用OMP_NUM_THREADS设定指定的线程数,一般应
与申请的核数一致;-R ‘‘span[hosts=1]’’保证在同一个节点内。
bsub -q normal -n 8 -R ‘‘span[hosts=1]’’ OMP_NUM_THREADS=8 exec

1.2.2 bsub -R 指明需要某种资源作业

1.2.3 bsub -x 运行排他性运行作业

排他性运行在运行期间,不允许其余的作业提交到运行此作业的节
点,并且只有在某节点没有任何其余的作业在运行时才会提交到此
节点上运行;
另外使用排他性运行时,哪怕只使用某节点内的一个CPU核,也将按
照此节点内的所有CPU核数进行机时计算;

1.2.4 bsub -Is 运行交互式作业

即运行期间手动输入参数;

1.2.5 bsub -w 满足依赖关系运行作业

done(job_ID |“job_name” …):作业结束时状态为DONE时运行
ended(job_ID | “job_name”):作业结束时状态为DONE或EXIT时运行
exit(job_ID | “job_name” [,[operator] exit_code]):作业结束时状态
为EXIT,且退出代码满足一定条件时运行
external(job_ID | “job_name”, “status_text”):作业状态变为某状态时运
行,如变为SUSP
· · · · · ·
支持的条件之间的条件表达式:&&(和)、||(或)、!(否)
支持的条件内的条件算子:>、>=、<、<=、==、!=
Eg: :bsub -w ‘‘done(1456)’’

1.2.6 bsub -b time

利用-b [[year:][month:]day:]hour:minute可以使得新提交的作业在特
定时间运行;

1.3 bjobs --查看作业排队和运行情况

利用bjobs可以查看作业的运行情况;
bjobs -l job_id. 查看详细信息;
bjobs -p 查看作业仍在排队等待的原因;

1.4 bkill --终止作业

利用bkill命令可以终止某个运行中或排队中的作业;

1.5 bstop --挂起作业

加 job_id 即可;

1.6 bresume --继续运行刮起的作业

接 job_id即可;

相关文章:

【超算作业调度系统--LSF】

集群服务器--LSF作业调度系统使用 0 Introdutction1 命令1.1 bsub--作业提交命令1.1.1 $ bqueues --查看现有队列信息&#xff1b;1.1.2 $lsload --查看各节点运行情况1.1.3 $bhosts --查看各节点空闲情况1.1.4 $busers --查看用户信息1.2 bsub --提交作业1.2.1 bsub OMP_NUM_T…...

L1-011 A-B分数 20

本题要求你计算A−B。不过麻烦的是&#xff0c;A和B都是字符串 —— 即从字符串A中把字符串B所包含的字符全删掉&#xff0c;剩下的字符组成的就是字符串A−B。 输入格式&#xff1a; 输入在2行中先后给出字符串A和B。两字符串的长度都不超过104&#xff0c;并且保证每个字符…...

PHPword解析内容支撑

因有些功能不支持&#xff0c;所以新增了某些功能&#xff0c;以防后期变动不好变更&#xff0c;手动做个记录 将公式替换成指定的符号&#xff0c;读取到 html 后读取 xml 解析公式&#xff0c;根据标记符号进行替换 文件名PhpOffice\PhpWord\Shared\XMLReader.php public fun…...

回归预测 | MATLAB实现RUN-XGBoost龙格库塔优化极限梯度提升树多输入回归预测

回归预测 | MATLAB实现RUN-XGBoost多输入回归预测 目录 回归预测 | MATLAB实现RUN-XGBoost多输入回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 MATLAB实现RUN-XGBoost多输入回归预测&#xff08;完整源码和数据&#xff09; 1.龙格库塔优化XGBoost&#xff0c;…...

LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

文章目录 3、语言模型训练数据3.1、词元切分3.2、词元分析算法 3、语言模型训练数据 数据质量对模型影响非常大。 典型数据处理&#xff1a;质量过滤、冗余去除、隐私消除、词元切分等。 训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。训…...

Linux- open() lseek()

文件描述符 文件描述符&#xff08;File Descriptor&#xff0c;简称 FD&#xff09;是 UNIX 和 UNIX-like 系统中用于代表和识别打开的文件或其他I/O资源的一种抽象标识。它是一个非负整数&#xff0c;内部由操作系统进行管理和分配。文件描述符可以代表文件、套接字、管道等…...

Halcon Tuple相关算子(一)

(1) tuple_length( : : Tuple : Length) 功能&#xff1a;返回输入元组中元素的个数。 控制输入参数&#xff1a; Tuple&#xff1a;输入元组&#xff1b; 控制输出参数&#xff1a;length&#xff1a;输入元组中元素的个数。 (2) tuple_find( : : Tuple, ToFind : Indices…...

基于图像形态学处理的路面裂缝检测算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ...................................................... %1&#xff1a;从文件夹中读取多个…...

PY32F003F18之窗口看门狗

一、PY32F003F18窗口看门狗特点&#xff1a; 即使窗口看门狗被禁止&#xff0c;窗口看门狗的"递减计数器"也会继续递减计数。 二、窗口看门狗复位的条件&#xff1a; 1、将"控制寄存器WWDG_CR"中的WDGA1,激活"窗口看门狗计数器等于0x3F"时,则产…...

SpingBoot:整合Mybatis-plus+Druid+mysql

SpingBoot&#xff1a;整合Mybatis-plusDruid 一、特别说明二、创建springboot新工程三、配置3.1 配置pom.xml文件3.2 配置数据源和durid连接池3.2.1 修改application.yml3.2.2 新增mybatis-config.xml 3.3 编写拦截器配置类 四、自动生成代码五、测试六、编写mapper.xml&#…...

计算机视觉与深度学习-经典网络解析-VGG-[北邮鲁鹏]

目录标题 VGG参考VGG网络贡献使用尺寸更小的$3 \times 3$卷积串联来获得更大的感受野放弃使用$11 \times 11$和$5 \times 5$这样的大尺寸卷积核深度更深、非线性更强&#xff0c;网络的参数也更少&#xff1b;去掉了AlexNet中的局部响应归一化层(LRN)层。 网络结构主要改进输入…...

入门级制作电子期刊的网站推荐

随着数字化时代的到来&#xff0c;越来越多的人开始尝试制作自己的电子期刊。如果你也是其中的一员&#xff0c;那么这篇文章可以帮助你制作电子期刊。无论是初学者还是有一定经验的制作者&#xff0c;都能快速完成高质量的电子期刊制作 小编经常使用的工具是-----FLBOOK在线制…...

软件测试内容整理

1. 软件测试 1.1. 定义 软件测试&#xff08;英语&#xff1a;Software Testing&#xff09;&#xff0c;描述一种用来促进鉴定软件的正确性、完整性、安全性和质量的过程。换句话说&#xff0c;软件测试是一种实际输出与预期输出之间的审核或者比较过程。 软件测试的经典定…...

UniAccess Agent卸载

异常场景&#xff1a; UniAccess Agent导致系统中的好多设置打不开 例如:ipv4的协议,注册表,host等等 需要进行删除,亲测有效,及多家答案平凑的 借鉴了这位大神及他里面引用的大神的内容 https://blog.csdn.net/weixin_44476410/article/details/121605455 问题描述 这个进…...

【C++】C++11——构造、赋值使用条件和生成条件

移动构造和移动赋值生成条件移动构造和移动赋值调用逻辑强制生成默认函数的关键字default禁止生成默认函数的关键字delete 移动构造和移动赋值生成条件 C11中新增的移动构造函数和移动赋值函数的生成条件为&#xff1a; 移动构造函数的生成条件&#xff1a;没有自己实现的移动…...

【LeetCode热题100】--56.合并区间

56.合并区间 排序&#xff1a; 如果按照区间的左端点排序&#xff0c;那么在排完序的列表中&#xff0c;可以合并的区间一定是连续的&#xff0c;如下图所示&#xff0c;标记为蓝色、黄色和绿色的区间分别可以合并为一个大区间&#xff0c;它们在排完序的列表中是连续的 算法&a…...

opencv dnn模块 示例(17) 目标检测 object_detection 之 yolo v5

在前文【opencv dnn模块 示例(16) 目标检测 object_detection 之 yolov4】介绍的yolo v4后的2个月&#xff0c;Ultralytics发布了YOLOV5 的第一个正式版本&#xff0c;其性能与YOLO V4不相伯仲。 文章目录 1、Yolo v5 和 Yolo v4 的区别说明1.1、Data Augmentation - 数据增强1…...

关于安卓SVGA浅尝(一)svgaplayer库的使用

关于安卓SVGA浅尝&#xff08;一&#xff09;使用 相关链接 SVGA官网 SVGA-github说明文档 背景 项目开发&#xff0c;都会和动画打交道&#xff0c;动画的方案选取&#xff0c;就有很多选择。如Json动画&#xff0c;svga动画&#xff0c;gif等等。各有各的优势。目前项目中…...

【LFU】一文让你弄清 Redis LFU 页面置换算法

上一次&#xff0c;相信大家已经知道关于 LRU 页面置换算法的思想和实现了&#xff0c;这里可以一键直达&#xff1a; 【LRU】一文让你弄清 Redis LRU 页面置换算法 Redis 的淘汰策略中&#xff0c;关于 LFU 页面置换算法&#xff0c;今天咱们来捋一捋到底思想是啥&#xff0…...

Python爬虫实战:用简单四步爬取小红书图片

小红书是一个热门的社交分享平台&#xff0c;汇聚了大量精美的图片。如果您希望保存或使用这些图片&#xff0c;本文将为您详细介绍如何使用Python爬虫轻松爬取小红书图片。 一、安装必要的库 在开始之前&#xff0c;确保您已经安装了以下Python库&#xff1a; requests&#…...

【杂谈】-递归进化:人工智能的自我改进与监管挑战

递归进化&#xff1a;人工智能的自我改进与监管挑战 文章目录 递归进化&#xff1a;人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管&#xff1f;3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间&#xff0c; 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点&#xff0c;不需要开启数据库闪回。…...

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容&#xff1a;参考网站&#xff1a; PID算法控制 PID即&#xff1a;Proportional&#xff08;比例&#xff09;、Integral&#xff08;积分&…...

【Oracle APEX开发小技巧12】

有如下需求&#xff1a; 有一个问题反馈页面&#xff0c;要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据&#xff0c;方便管理员及时处理反馈。 我的方法&#xff1a;直接将逻辑写在SQL中&#xff0c;这样可以直接在页面展示 完整代码&#xff1a; SELECTSF.FE…...

.Net框架,除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

【算法训练营Day07】字符串part1

文章目录 反转字符串反转字符串II替换数字 反转字符串 题目链接&#xff1a;344. 反转字符串 双指针法&#xff0c;两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言&#xff1a;为什么 Eureka 依然是存量系统的核心&#xff1f; 尽管 Nacos 等新注册中心崛起&#xff0c;但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制&#xff0c;是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结&#xff1a; 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析&#xff1a; 实际业务去理解体会统一注…...

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持&#xff0c;不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

06 Deep learning神经网络编程基础 激活函数 --吴恩达

深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...