HPC集群调度系统和计算系统
什么是计算云?
所谓的计算云指的是为计算业务优化的类云基础架构,它强调用云的方式解决计算问题,而不是将“计算”搬到现有的公有云或者容器云上。
目前公有云或者容器云(例如k8s)上的HPC解决方案本质上都是将现有的HPC方案虚拟化或容器化,以虚拟机或容器替代物理机。这些做法是为了将公有云资源卖给计算用户,并没有改进计算业务本身。(公有云只是将资源标准化和虚拟化,对比直接调度物理机只是多个了标准化,但实际上传统hpc 使用cgroup本质上是一样的)
LSF,SGE、PBS或者SLURM是传统的HPC的调度系统,将它们做成虚拟机部署到公有云,或者做成容器部署到k8s,可以让多种框架共享物理硬件。但是这种共享是静态的。典型的使用方式是:系统管理员在云上或者k8s上拉起一个SLURM集群;用户通过SSH登录到集群,使用传统的方式安装软件、投递任务。这种使用方式得到的好处是什么呢?一是不需要为每个集群单独购买硬件,二是系统管理员的集群部署工作得到了简化,其它方面没有改进。
传统HPC调度系统
关于目前主流的HPC作业调度系统有:LSF/Slurm/PBS/SGE,他们分别也都有一些衍生版本,所以,有人也将他们称为四大流派。 .
不同的行业因为使用习惯和不同调度器对应用的支持力度不同,往往有不同的偏好:比如高效和超算经常用Slurm,半导体公司最常用的是LSF和SGE,工业是早kennel用PBS更多一些。

并行作业计算层
一个并行作业会在多个计算节点上,启动应用程序,所有应用程序通过彼此交换信息,相互合作,共同完成计算任务。典型的有历史的并行计算技术有MPI,更现代一些的Hadoop,Spark等也可以归于此类。一般作业只需要一个slot用来计算。在LSF中,一个slot默认对应CPU的一个计算核心(core),但它本身更偏向于一个逻辑概念。因为想不到合适的中文替换,所以沿用英文词。并行作业因为需要同时启动若干程序,会需要更多的slots。这些slots可以跨越机器,所以我们需要更详细的计算节点选择的方式。
LSF和SLM等和spark、hdoop等的区别
Spark 应用程序需要分布式计算节点,大型内存,高速网络和无文件系统依赖关系,因此 Spark 应用程序可以在传统 HPC 环境中运行。LSF只是做任务的调度和集群资源的分配,Spark还有hdoop这些分布式计算框架是利用分布式文件系统,一起来跑一个mapreduce任务,因此spark是可以做为lsf的一种任务调度的。此时可以说spark集群是不是在lsf集群内部的。
如果你看IBM LSF的说明,是对apache hadoop和spark做了兼容的。
hadoop和spark(提供更多的是用于数据处理和转换的工具)也提供类似的调度能力,但是只针对自己的集群,并且没有lsf调度策略梗多样化,lsf能保证多集群资源利用的全局最优。
https://www.ibm.com/docs/zh/spectrum-lsf/10.1.0?topic=101-job-scheduling-execution
1、https://tech.china.com/article/20210701/072021_817803.html
2、https://tonguebusy.com/a/yunying/xiaohongshuyunying/2023/0418/18464304.html
相关文章:
HPC集群调度系统和计算系统
什么是计算云? 所谓的计算云指的是为计算业务优化的类云基础架构,它强调用云的方式解决计算问题,而不是将“计算”搬到现有的公有云或者容器云上。 目前公有云或者容器云(例如k8s)上的HPC解决方案本质上都是将现有的H…...
pg_archivecleanup清理wal日志
一、 注意事项 pg_archivecleanup代码中仅进行了wal日志文件名的对比,没有实现对WAL日志名及对应生成时间的判断。在WAL日志未被重命名时,时间与日志名顺序名一致,没有问题。一旦WAL日志被重命名,pg_archivecleanup清理就可能清理…...
继承中的访问级别
值得思考的问题 子类是否可以直接访问父类的私有成员? 思考过程 继承中的访问级别 面向对象中的访问级别不止是 public 和 private 可以定义 protected 访问级别 关键字 protected 的意义 修饰的成员不能被外界直接访问修饰的成员可以被子类直接访问 思考 为什…...
(学习日记)2023.06.09
写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…...
激光雷达-相机联合标定
https://f.daixianiu.cn/csdn/9499401684344864.html ros usb相机内参标定 ROS系统-摄像头标定camera calibration_berry丶的博客-CSDN博客...
[golang gin框架] 40.Gin商城项目-微服务实战之Captcha验证码微服务
本次内容需要 gin框架基础知识, golang微服务基础知识才能更好理解 一.Captcha验证码功能引入 在前面,讲解了微服务的架构等,这里,来讲解前面商城项目的 Captcha验证码 微服务 ,captcha验证码功能在前台,后端 都要用到 ,可以把它 抽离出来 ,做成微服务功能 编辑 这个验证码功能…...
【LeetCode热题100】打卡第44天:倒数第30~25题
文章目录 【LeetCode热题100】打卡第44天:倒数第30~25题⛅前言 移动零🔒题目🔑题解 寻找重复数🔒题目🔑题解 二叉树的序列化与反序列化🔒题目🔑题解 最长递增子序列🔒题目ǵ…...
C# 匿名方法和Lambda表达式
一.匿名方法 1.匿名方法的演变 匿名方法是为了简化委托的实现,方便调用委托方法而出现的,同时,匿名方法也是学好lambda表达式的基础。在委托调用的方法中,如果方法只被调用一次,这个时候我们就没有必要创建具名方法&…...
uniapp微信小程序scroll-view滚动scrollLeft不准确
今天在实现微信小程序的一个横向导航的时候出现了一个问题,就是每次滑到滚动条最右边的时候 scrollLeft的值都不准确 原因:因为每次滚动监听事件都会被调用比较耗费资源系统会默认节流,可以在scroll-view 加一个 throttle“{{false}}” 关闭…...
symfony/console
github地址:GitHub - symfony/console: Eases the creation of beautiful and testable command line interfaces 文档地址:The Console Component (Symfony 5.4 Docs) 默认命令list,可以用register注册一个command命令,之后可以…...
OSI模型简介及socket,tcp,http三者之间的区别和原理
1.OSI模型简介(七层网络模型) OSI 模型(Open System Interconnection model):一个由国际标准化组织提出的概念模型,试图提供一个使各种不同的计算机和网络在世界范围内实现互联的标准框架。 它将计算机网络体系结构划分为七层,每…...
【leetcode】leetcode69 x的平方根
文章目录 给你一个非负整数 x ,计算并返回 x 的 算术平方根 。原理牛顿法(数值分析中使用到的):二分法 解决方案java 实现实例执行结果 python 实现实例 给你一个非负整数 x ,计算并返回 x 的 算术平方根 。 由于返回类型是整数&…...
springboot与rabbitmq的整合【演示5种基本交换机】
前言: 👏作者简介:我是笑霸final,一名热爱技术的在校学生。 📝个人主页:个人主页1 || 笑霸final的主页2 📕系列专栏:后端专栏 📧如果文章知识点有错误的地方,…...
【设计模式】设计原则-单一职责原则
单一职责原则 类的设计原则之单一职责原则,是最常用的类的设计的原则之一。 百度百科:就一个类而言,应该仅有一个引起它变化的原因。应该只有一个职责。 通俗的讲就是:一个类只做一件事 这个解释更通俗易懂,也更符…...
【C++】-多态的底层原理
💖作者:小树苗渴望变成参天大树🎈 🎉作者宣言:认真写好每一篇博客💤 🎊作者gitee:gitee✨ 💞作者专栏:C语言,数据结构初阶,Linux,C 动态规划算法🎄 如 果 你 …...
【部署】让你的电脑多出一个磁盘来用!使用SSHFS将远程服务器目录挂载到Windows本地,挂载并共享服务器资源
让你的电脑多出一个磁盘来用!---使用SSHFS将远程服务器目录挂载到Windows本地 1. 方法原理介绍2.SSHFS-Win使用教程—实现远程服务器磁盘挂载本地 由于日常主要用 Windows 系统,每次都得 ssh 到服务器上进行取资源(本地磁盘不富裕)…...
/var/lock/subsys目录的作用
总的来说,系统关闭的过程(发出关闭信号,调用服务自身的进程)中会检查/var/lock/subsys下的文件,逐一关闭每个服务,如果某一运行的服务在/var/lock/subsys下没有相应的选项。在系统关闭的时候,会…...
DETR (DEtection TRansformer)基于自建数据集开发构建目标检测模型超详细教程
目标检测系列的算法模型可以说是五花八门,不同的系列有不同的理论依据,DETR的亮点在于它是完全端到端的第一个目标检测模型,DETR(Detection Transformer)是一种基于Transformer的目标检测模型,由Facebook A…...
C++初阶 - 5.C/C++内存管理
目录 1.C/C的内存分布 2.C语言中动态内存管理方式:malloc、calloc、realloc、free 3.C内存管理方式 3.1 new/delete操作内置类型 3.2 new 和 delete操作自定义类型 4.operator new 与 operator delete 函数(重要点) 4.1 operator new 与…...
数学建模学习(3):综合评价类问题整体解析及分析步骤
一、评价类算法的简介 对物体进行评价,用具体的分值评价它们的优劣 选这两人其中之一当男朋友,你会选谁? 不同维度的权重会产生不同的结果 所以找到每个维度的权重是最核心的问题 0.25 二、评价前的数据处理 供应商ID 可靠性 指标2 指…...
如何利用WebSocket实现biliup的实时直播状态监控与日志推送:完整指南
如何利用WebSocket实现biliup的实时直播状态监控与日志推送:完整指南 【免费下载链接】biliup 自动直播录制、投稿、twitch、ytb频道搬运工具。命令行投稿(B站)和视频下载工具,提供多种登录方式,支持多p。 项目地址: https://gitcode.com/g…...
AI辅助开发:让快马AI设计智能引擎,深度解决synaptics.exe映像损坏
最近在帮朋友解决一个头疼的Windows系统问题——synaptics.exe损坏的映像错误。这个错误不仅影响触控板功能,还会导致各种奇怪的系统行为。作为一个开发者,我决定尝试用AI辅助开发的方式,打造一个智能诊断修复工具。下面分享我的实践过程&…...
别再乱调Spacing了!用SimpleITK给医学图像做重采样,这份避坑指南请收好
医学图像重采样实战:如何科学设置Spacing参数提升模型性能 当你在处理3D医学图像时,是否遇到过这样的困惑:明明按照教程完成了重采样,但模型性能却不升反降?或者在不同数据集上使用相同的Spacing参数,效果…...
Arduino非阻塞编程:Pin与WaitDo轻量级嵌入式工具库
1. 项目概述HDW-Utils 是一个面向 Arduino 平台的轻量级嵌入式工具库,其核心设计目标并非提供底层硬件驱动,而是解决嵌入式开发中高频出现的代码重复性、结构松散性与阻塞式延时滥用三大工程痛点。该库以“硬件开发者的实用主义”为出发点,通…...
Nature论文ELLMER拆解:具身智能为什么需要RAG技术?从知识库设计到工业落地
具身智能与RAG技术:从知识库设计到工业落地的深度实践 当机器人需要理解"请帮我拿一杯水"这样简单的指令时,背后隐藏着怎样的认知挑战?传统工业机器人依靠精确编程完成重复动作,但在面对动态环境时往往束手无策。具身智…...
基于springboot+vue房屋拆迁管理系统hx0514Z1A1
文章目录详细视频演示技术介绍功能介绍核心代码系统效果图源码获取详细视频演示 文章底部名片,获取项目的完整演示视频,免费解答技术疑问 技术介绍 开发语言:Java 框架:ssm JDK版本:JDK1.8 服务器:tomca…...
Arcgis实战:坐标系与投影的精准转换技巧
1. 坐标系与投影的基础概念 第一次用ArcGIS做项目时,我犯了个低级错误——把地理坐标系的经纬度数据直接当成了平面距离计算。结果客户问我"这条道路有多长"时,我报出的0.0023这个数字让他一脸茫然。这就是没搞懂坐标系和投影区别的典型教训。…...
新手必看!圣女司幼幽-造相Z-Turbo开箱即用,3步生成精美古风人像
新手必看!圣女司幼幽-造相Z-Turbo开箱即用,3步生成精美古风人像 你是不是也遇到过这样的烦恼:脑子里构思好了一位仙气飘飘的古风角色,但要么自己不会画,要么用普通AI工具生成的效果总差那么点意思——衣服质感像塑料&…...
解锁Sony相机潜能:PMCA-RE工具全方位技术指南
解锁Sony相机潜能:PMCA-RE工具全方位技术指南 【免费下载链接】Sony-PMCA-RE Reverse Engineering Sony Digital Cameras 项目地址: https://gitcode.com/gh_mirrors/so/Sony-PMCA-RE 副标题:探索相机底层控制与自定义应用开发的开源解决方案 第…...
Batocera.linux主题定制完全指南:打造个性化游戏界面终极教程
Batocera.linux主题定制完全指南:打造个性化游戏界面终极教程 【免费下载链接】batocera.linux batocera.linux 项目地址: https://gitcode.com/gh_mirrors/ba/batocera.linux Batocera.linux是一款强大的开源复古游戏系统,让用户能够在各种硬件上…...
