当前位置: 首页 > news >正文

【超算作业调度系统--LSF】

集群服务器--LSF作业调度系统使用

  • 0 Introdutction
  • 1 命令
    • 1.1 bsub--作业提交命令
      • 1.1.1 $ bqueues --查看现有队列信息;
      • 1.1.2 $lsload --查看各节点运行情况
      • 1.1.3 $bhosts --查看各节点空闲情况
      • 1.1.4 $busers --查看用户信息
      • 1.2 bsub --提交作业
      • 1.2.1 bsub OMP_NUM_THREADS 指明需要共享内存
      • 1.2.2 bsub -R 指明需要某种资源作业
      • 1.2.3 bsub -x 运行排他性运行作业
      • 1.2.4 bsub -Is 运行交互式作业
      • 1.2.5 bsub -w 满足依赖关系运行作业
      • 1.2.6 bsub -b time
    • 1.3 bjobs --查看作业排队和运行情况
    • 1.4 bkill --终止作业
    • 1.5 bstop --挂起作业
    • 1.6 bresume --继续运行刮起的作业

前天组织考试了LSF和SVN的使用,结果挂在了LSF的考试上–Failed;

0 Introdutction

LSF:是IBM公司开发的对超算集群服务器的作业统一调度系统;
主要有:

  1. 资源管理器:管理超算集群服务器的硬件资源;
  2. 队列管理器:管理当前已经提交但还未完成的作业;
  3. 作业调度器:为作业分配合适的硬件资源(计算+存储);

作用:

  1. 根据用户提交的计算作业分配相应的资源节点;
  2. 避免作业之间无序干扰,尽量让整个系统负载一致;

1 命令

概念:
登陆节点:主要用于日常操作,如提交作业、查看作业运行情况、编
辑、编译、压缩/解压缩等常用命令;
不要在登陆节点运行作业,即必须通过bsub提交作业
作业节点:即真实作业提交运算节点;

1.1 bsub–作业提交命令

所有需要运行的作业均必须通过作业提交命令bsub提交;

1.1.1 $ bqueues --查看现有队列信息;

会看到列名:QUEUE_NAME PRIO. STATUS
2.$ bqueues -l dfbdv
进行查看队列的详细信息;
CPU计算队列:
GPU计算队列:
Principle:非GPU作业不得使用GPU计算队列**
申请核数尽量以 8或者其他的倍数,以为能独占单个节点,避免作业间相互干扰;
3.

1.1.2 $lsload --查看各节点运行情况

1.$ lsload
ut表示利用率
2.$ lsload node --查看某节点运行情况;

1.1.3 $bhosts --查看各节点空闲情况

类似lsload 命令

1.1.4 $busers --查看用户信息

1.2 bsub --提交作业

bsub [options] command [arguments]
command之前的options:设置队列、CPU核数等LSF的选项
command之后的arguments:设置具体作业的可执行程序本身所需要
的参数;
For understanding:
为了用户作业间不相互干扰,申请的核数最好为系统节点内CPU核
数的整数倍,以便同一个作业占据整个节点

比如对每个节点为8核的系统,申请核数为8的整数倍,节点核数
为12的系统,申请核数为12的整数倍
曙光TC4600百万亿次超级计算系统:每个节点24 CPU核
ChinaGrid高性能计算集群:每个节点16 CPU核
联想1800和7000G GPU集群:每个节点8 CPU核

1.2.1 bsub OMP_NUM_THREADS 指明需要共享内存

需求:OpenMP等共享内存作业提交,则需要保证在同一个节点上运行;程序启动前利用OMP_NUM_THREADS设定指定的线程数,一般应
与申请的核数一致;-R ‘‘span[hosts=1]’’保证在同一个节点内。
bsub -q normal -n 8 -R ‘‘span[hosts=1]’’ OMP_NUM_THREADS=8 exec

1.2.2 bsub -R 指明需要某种资源作业

1.2.3 bsub -x 运行排他性运行作业

排他性运行在运行期间,不允许其余的作业提交到运行此作业的节
点,并且只有在某节点没有任何其余的作业在运行时才会提交到此
节点上运行;
另外使用排他性运行时,哪怕只使用某节点内的一个CPU核,也将按
照此节点内的所有CPU核数进行机时计算;

1.2.4 bsub -Is 运行交互式作业

即运行期间手动输入参数;

1.2.5 bsub -w 满足依赖关系运行作业

done(job_ID |“job_name” …):作业结束时状态为DONE时运行
ended(job_ID | “job_name”):作业结束时状态为DONE或EXIT时运行
exit(job_ID | “job_name” [,[operator] exit_code]):作业结束时状态
为EXIT,且退出代码满足一定条件时运行
external(job_ID | “job_name”, “status_text”):作业状态变为某状态时运
行,如变为SUSP
· · · · · ·
支持的条件之间的条件表达式:&&(和)、||(或)、!(否)
支持的条件内的条件算子:>、>=、<、<=、==、!=
Eg: :bsub -w ‘‘done(1456)’’

1.2.6 bsub -b time

利用-b [[year:][month:]day:]hour:minute可以使得新提交的作业在特
定时间运行;

1.3 bjobs --查看作业排队和运行情况

利用bjobs可以查看作业的运行情况;
bjobs -l job_id. 查看详细信息;
bjobs -p 查看作业仍在排队等待的原因;

1.4 bkill --终止作业

利用bkill命令可以终止某个运行中或排队中的作业;

1.5 bstop --挂起作业

加 job_id 即可;

1.6 bresume --继续运行刮起的作业

接 job_id即可;

相关文章:

【超算作业调度系统--LSF】

集群服务器--LSF作业调度系统使用 0 Introdutction1 命令1.1 bsub--作业提交命令1.1.1 $ bqueues --查看现有队列信息&#xff1b;1.1.2 $lsload --查看各节点运行情况1.1.3 $bhosts --查看各节点空闲情况1.1.4 $busers --查看用户信息1.2 bsub --提交作业1.2.1 bsub OMP_NUM_T…...

L1-011 A-B分数 20

本题要求你计算A−B。不过麻烦的是&#xff0c;A和B都是字符串 —— 即从字符串A中把字符串B所包含的字符全删掉&#xff0c;剩下的字符组成的就是字符串A−B。 输入格式&#xff1a; 输入在2行中先后给出字符串A和B。两字符串的长度都不超过104&#xff0c;并且保证每个字符…...

PHPword解析内容支撑

因有些功能不支持&#xff0c;所以新增了某些功能&#xff0c;以防后期变动不好变更&#xff0c;手动做个记录 将公式替换成指定的符号&#xff0c;读取到 html 后读取 xml 解析公式&#xff0c;根据标记符号进行替换 文件名PhpOffice\PhpWord\Shared\XMLReader.php public fun…...

回归预测 | MATLAB实现RUN-XGBoost龙格库塔优化极限梯度提升树多输入回归预测

回归预测 | MATLAB实现RUN-XGBoost多输入回归预测 目录 回归预测 | MATLAB实现RUN-XGBoost多输入回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 MATLAB实现RUN-XGBoost多输入回归预测&#xff08;完整源码和数据&#xff09; 1.龙格库塔优化XGBoost&#xff0c;…...

LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

文章目录 3、语言模型训练数据3.1、词元切分3.2、词元分析算法 3、语言模型训练数据 数据质量对模型影响非常大。 典型数据处理&#xff1a;质量过滤、冗余去除、隐私消除、词元切分等。 训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。训…...

Linux- open() lseek()

文件描述符 文件描述符&#xff08;File Descriptor&#xff0c;简称 FD&#xff09;是 UNIX 和 UNIX-like 系统中用于代表和识别打开的文件或其他I/O资源的一种抽象标识。它是一个非负整数&#xff0c;内部由操作系统进行管理和分配。文件描述符可以代表文件、套接字、管道等…...

Halcon Tuple相关算子(一)

(1) tuple_length( : : Tuple : Length) 功能&#xff1a;返回输入元组中元素的个数。 控制输入参数&#xff1a; Tuple&#xff1a;输入元组&#xff1b; 控制输出参数&#xff1a;length&#xff1a;输入元组中元素的个数。 (2) tuple_find( : : Tuple, ToFind : Indices…...

基于图像形态学处理的路面裂缝检测算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ...................................................... %1&#xff1a;从文件夹中读取多个…...

PY32F003F18之窗口看门狗

一、PY32F003F18窗口看门狗特点&#xff1a; 即使窗口看门狗被禁止&#xff0c;窗口看门狗的"递减计数器"也会继续递减计数。 二、窗口看门狗复位的条件&#xff1a; 1、将"控制寄存器WWDG_CR"中的WDGA1,激活"窗口看门狗计数器等于0x3F"时,则产…...

SpingBoot:整合Mybatis-plus+Druid+mysql

SpingBoot&#xff1a;整合Mybatis-plusDruid 一、特别说明二、创建springboot新工程三、配置3.1 配置pom.xml文件3.2 配置数据源和durid连接池3.2.1 修改application.yml3.2.2 新增mybatis-config.xml 3.3 编写拦截器配置类 四、自动生成代码五、测试六、编写mapper.xml&#…...

计算机视觉与深度学习-经典网络解析-VGG-[北邮鲁鹏]

目录标题 VGG参考VGG网络贡献使用尺寸更小的$3 \times 3$卷积串联来获得更大的感受野放弃使用$11 \times 11$和$5 \times 5$这样的大尺寸卷积核深度更深、非线性更强&#xff0c;网络的参数也更少&#xff1b;去掉了AlexNet中的局部响应归一化层(LRN)层。 网络结构主要改进输入…...

入门级制作电子期刊的网站推荐

随着数字化时代的到来&#xff0c;越来越多的人开始尝试制作自己的电子期刊。如果你也是其中的一员&#xff0c;那么这篇文章可以帮助你制作电子期刊。无论是初学者还是有一定经验的制作者&#xff0c;都能快速完成高质量的电子期刊制作 小编经常使用的工具是-----FLBOOK在线制…...

软件测试内容整理

1. 软件测试 1.1. 定义 软件测试&#xff08;英语&#xff1a;Software Testing&#xff09;&#xff0c;描述一种用来促进鉴定软件的正确性、完整性、安全性和质量的过程。换句话说&#xff0c;软件测试是一种实际输出与预期输出之间的审核或者比较过程。 软件测试的经典定…...

UniAccess Agent卸载

异常场景&#xff1a; UniAccess Agent导致系统中的好多设置打不开 例如:ipv4的协议,注册表,host等等 需要进行删除,亲测有效,及多家答案平凑的 借鉴了这位大神及他里面引用的大神的内容 https://blog.csdn.net/weixin_44476410/article/details/121605455 问题描述 这个进…...

【C++】C++11——构造、赋值使用条件和生成条件

移动构造和移动赋值生成条件移动构造和移动赋值调用逻辑强制生成默认函数的关键字default禁止生成默认函数的关键字delete 移动构造和移动赋值生成条件 C11中新增的移动构造函数和移动赋值函数的生成条件为&#xff1a; 移动构造函数的生成条件&#xff1a;没有自己实现的移动…...

【LeetCode热题100】--56.合并区间

56.合并区间 排序&#xff1a; 如果按照区间的左端点排序&#xff0c;那么在排完序的列表中&#xff0c;可以合并的区间一定是连续的&#xff0c;如下图所示&#xff0c;标记为蓝色、黄色和绿色的区间分别可以合并为一个大区间&#xff0c;它们在排完序的列表中是连续的 算法&a…...

opencv dnn模块 示例(17) 目标检测 object_detection 之 yolo v5

在前文【opencv dnn模块 示例(16) 目标检测 object_detection 之 yolov4】介绍的yolo v4后的2个月&#xff0c;Ultralytics发布了YOLOV5 的第一个正式版本&#xff0c;其性能与YOLO V4不相伯仲。 文章目录 1、Yolo v5 和 Yolo v4 的区别说明1.1、Data Augmentation - 数据增强1…...

关于安卓SVGA浅尝(一)svgaplayer库的使用

关于安卓SVGA浅尝&#xff08;一&#xff09;使用 相关链接 SVGA官网 SVGA-github说明文档 背景 项目开发&#xff0c;都会和动画打交道&#xff0c;动画的方案选取&#xff0c;就有很多选择。如Json动画&#xff0c;svga动画&#xff0c;gif等等。各有各的优势。目前项目中…...

【LFU】一文让你弄清 Redis LFU 页面置换算法

上一次&#xff0c;相信大家已经知道关于 LRU 页面置换算法的思想和实现了&#xff0c;这里可以一键直达&#xff1a; 【LRU】一文让你弄清 Redis LRU 页面置换算法 Redis 的淘汰策略中&#xff0c;关于 LFU 页面置换算法&#xff0c;今天咱们来捋一捋到底思想是啥&#xff0…...

Python爬虫实战:用简单四步爬取小红书图片

小红书是一个热门的社交分享平台&#xff0c;汇聚了大量精美的图片。如果您希望保存或使用这些图片&#xff0c;本文将为您详细介绍如何使用Python爬虫轻松爬取小红书图片。 一、安装必要的库 在开始之前&#xff0c;确保您已经安装了以下Python库&#xff1a; requests&#…...

遥感小白看过来!无需编程5分钟搞定Landsat8数据下载(2023最新版)

零代码获取Landsat8遥感数据的完整指南&#xff08;2023实战版&#xff09; 当第一次接触遥感数据时&#xff0c;许多非技术背景的研究者常被复杂的下载流程吓退。其实&#xff0c;获取Landsat8卫星影像完全可以像网购一样简单——不需要编写任何代码&#xff0c;甚至不需要理解…...

GKD规则冲突检测:自动化识别并提示重叠规则问题

GKD规则冲突检测&#xff1a;自动化识别并提示重叠规则问题 在GKD自动化工具的使用过程中&#xff0c;规则冲突检测是一个至关重要的功能。当多个订阅规则同时作用于同一个应用时&#xff0c;可能会出现规则重叠或相互干扰的情况。GKD的智能冲突检测机制能够自动识别这些问题&…...

如何用PyFlow创建自定义节点:从函数到可视化组件的完整指南

如何用PyFlow创建自定义节点&#xff1a;从函数到可视化组件的完整指南 【免费下载链接】PyFlow Visual scripting framework for python 项目地址: https://gitcode.com/gh_mirrors/py/PyFlow PyFlow是一款强大的Python可视化脚本框架&#xff0c;它允许开发者通过拖拽…...

PyFlow输入系统定制化:创建专属快捷键映射的完整指南

PyFlow输入系统定制化&#xff1a;创建专属快捷键映射的完整指南 【免费下载链接】PyFlow Visual scripting framework for python 项目地址: https://gitcode.com/gh_mirrors/py/PyFlow PyFlow作为一款强大的Python可视化脚本框架&#xff0c;允许用户通过直观的节点编…...

JavaScript注释的艺术:gh_mirrors/js/js教你写出自解释代码

JavaScript注释的艺术&#xff1a;gh_mirrors/js/js教你写出自解释代码 【免费下载链接】js :art: A JavaScript Quality Guide 项目地址: https://gitcode.com/gh_mirrors/js/js 在JavaScript开发中&#xff0c;注释是代码质量的重要组成部分&#xff0c;但很多开发者误…...

商城首页小程序源码 购物商场小程序系统 开源商城系统 基于H5小程序Uniapp开发

【核心功能】 – 前端小程序&#xff1a;uniapp 1、顶部自定义透明导航 2、搜索框 3、动态轮播图 4、动态分类导航 5、动态通知提醒 6、宫格商品列表 7、列表上滑预加载 8、底部导航 – 系统架构&#xff1a;uniapp&#xff0c;代码规范 – 适合懂uniapp的朋友使用 …...

PyCharm配置PySide6工具链避坑指南:解决虚拟环境路径、命令报错那些事儿

PyCharm配置PySide6工具链避坑指南&#xff1a;解决虚拟环境路径、命令报错那些事儿 刚接触PySide6开发的朋友&#xff0c;十有八九会在PyCharm配置Designer、UIC和RCC工具时踩坑。明明照着教程一步步操作&#xff0c;却总是遇到"程序不存在"、"命令执行错误&qu…...

收藏备用!小白程序员必看:从基础到进阶,彻底吃透Prompt与提示工程

本文将从基础入门到进阶实操&#xff0c;全面拆解Prompt的核心知识点&#xff0c;涵盖概念定义、分类维度、核心要素、工作原理&#xff0c;以及可直接套用的实用提示工程方法。全程避开晦涩术语&#xff0c;用程序员易懂的表述搭配具体案例&#xff0c;适配刚接触大模型的小白…...

LangChain消息系统深度解析:从OpenAI格式到Claude 3.5,如何设计一个健壮的对话状态机?

LangChain消息系统架构设计&#xff1a;构建企业级对话状态机的工程实践 在当今AI应用开发领域&#xff0c;对话系统的复杂度和功能性需求正呈指数级增长。从简单的单轮问答到需要维护长期记忆、处理多模态输入、执行工具调用的复杂Agent系统&#xff0c;开发者面临的挑战已远超…...

[火]图像数据增强 支持目标检测数据集图像增强 标注框信息同步增强 支持以下图像增强方式HSV-Hue 增强HSV-Saturation 增强 HSV-Value 增强图像旋转 (+/

[火]图像数据增强 支持目标检测数据集图像增强 标注框信息同步增强 支持以下图像增强方式 HSV-Hue 增强 HSV-Saturation 增强 HSV-Value 增强 图像旋转 (/- degrees) 图像平移 (/- 分数) 图像缩放 (/- 增益) 图像错切 (/- 分数) 图像透视 (/- 分数), 范围&#xff1a;0-0.00…...