国产调度器之光——Fsched到底有多能打?

这是一篇推荐我们速石自研调度器——Fsched的文章。
看起来在专门写调度器,但又不完全在写。
往下看,你就懂了。
本篇一共五个章节:
一、介绍一下主角——速石自研调度器Fsched
二、只要有个调度器,就够了吗?
三、全面对比:速石研发平台 VS LSF Suite
四、如果你想尝试AI——
五、不止半导体领域。。。。
介绍一下主角,速石自研调度器Fsched
fastone Scheduler,简称Fsched,是速石科技所有产品的核心调度组件。Ta是面向HPC集群的操作系统,是HPC集群的“大脑”,用于对HPC集群内的计算资源进行管理、监控,对用户提交的任务进行统一管理、分发和远程执行。
Fsched是速石科技基于开源的Slurm版本进化而来的全新产品。
1、我们的Fsched调度器到底厉害在哪?
先看一组我们在半导体领域用户的真实验证数据:
5个月时间内:
CPU调度峰值达到5万核;
提交了超过8000万Jobs;
构建超过700台机器组成的大规模集群;
使用量约3000万核时。

Fsched性能指标
吞吐量:
1000 jobs/second
响应时间:
1 ms
集群规模:
单个Fsched集群能够支持的最大节点数:1000
单个Fsched集群能够支持的最大CPU核数:30000
总结一下,Fsched调度器优势:
1. 完全由速石独立开发,性能卓越;
2. 我们能提供代码级技术支持;
3. 支持市面上几乎所有EDA工具;
4. 服务了100+家不同类型的半导体行业用户;
5. 兼容LSF/SGE等调度器,使用体验不变。
关于调度器科普和不同流派近二十年的发展历程,可以点击回顾:亿万打工人的梦:16万个CPU随你用
2、代码级技术支持有什么不一样?
代码级技术支持的特别之处主要体现在解决问题的路径上。
一句话,我们能做很多人做不到的事情。
一般问题:我们站在产品视角来解决
特殊问题:我们以开发者身份来解决
比如一些特殊调度策略的改造与优化,我们是开发者,所以能做。包括各种调度器日志的监控分析,优化调度器的提交方式和脚本等等。
DEBUG:深入代码级的技术支持
举一个典型例子:当研发提交任务出现异常状态,怎么办?
我们首先需要定位与任务相关的日志。日志分为:基础设施层日志、中间件层日志、应用层日志等。
IT和研发工程师的关注点不一样:IT工程师一般看基础设施层日志,CAD和研发工程师看中间件层日志和应用层日志。不同角色各看各的,定位问题效率低。

我们通过Fsched调度器:
1. 把调度任务的异常日志分类,找出是哪一层的问题;
2. 任务状态跟踪,通过异常应用找出相应进程和IO信息,方便判断;
3. 通过数据分析抓取日志中的关键信息。
找到问题,over。
3、Slurm之上,我们还做了什么?
Slurm是厉害的:全球60%的TOP500超算中心和超大规模集群(包括我国的天河二号等)都采用Slurm作为调度系统。它拥有容错率高、支持异构资源、高度可扩展等优点,适用性相当强。
那么,基于Slurm之上,我们还做了些什么?
从0到1,帮助用户更快,更简单地用起来
1. 产品级IT自动化管理,标准化地调用资源,保证环境一致性,降低用户配置复杂度和出错率,上手更容易;
2. 从业务出发,Fsched与底层资源的联动性强,根据任务需求自动伸缩,更符合云上使用方式。

从1到10,让用户用得稳定,用得放心
1. 对Slurm开源版进行修复与增强。修复Slurm开源版在复杂环境下任务异常崩溃等问题,增加了混合云智能调度能力;
2. 基于Wrapper组件,Fsched对上层EDA应用进行了兼容与优化,保证用户使用体验不变;
PS:同样是Wrapper,水平也是有高下的。要达到多年战斗在一线的专业高级口译的经验和水平,只能说:有难度。
3. 根据最佳实践经验总结的流程与规则,能优化EDA Workflow,提高调度器使用效率;
4. 代码级支持能力让用户无后顾之忧。
只要有个调度器,就够了吗?
答案自然是否定的。
为什么?
或许,我们可以换个角度来回答这个问题。
就像汽车出现之前,用户的期望永远是——1匹更快的马一样。
在当下芯片设计研发领域,我们如果把调度器类比马,那么汽车是什么呢?
我们给大家简单描绘一下:
一个站在整个芯片设计研发体系和架构视角来满足EDA行业用户性能、功能、体验的产品。
1. Ta是完整的一体化产品,功能紧密耦合,且经过层层实战考验;
2. Ta解决的是完整生命周期的芯片设计业务问题,调度器只是其中一个模块;
3. Ta具有对企业未来发展的弹性,能扩展至不同规模和更多业务路线,比如AI。

而这,正是我们与其他很多产品最大的区别之一。
我们的产品在设计之初就是面向EDA应用,服务芯片设计研发业务场景的。这也决定了我们解决问题的出发点永远是:是否满足研发业务需求,然后从上至下地解决问题。
1、我们提供的是一整套上中下层联动的芯片设计研发环境:
1. 连接上层EDA应用,对应用本身的运行提供支持和优化;
2. 连接底层资源,给用户提供更灵活,更高效使用资源的能力;
3. 结合EDA应用和底层资源的联动和适配,给出最佳实践经验。
2、我们的功能都是面向实际业务场景设计和提供的:
1. License调度优化,可帮助企业用户最大化提升License利用率,更好地规划License购买策略,控制整体使用成本;
2. 我们能多维度监控任务状态,提供基于EDA任务层的监控、告警、数据统计分析功能与服务,让团队管理者监控各个重要指标变化,从全局角度掌握项目的整体任务及资源情况,为未来项目合理规划、集群生命周期管理、成本优化提供支持;

3. 日常数据统计与运营分析管理,实现问题可追溯,可追踪,降低成本,提升整体项目管理效率。
3、我们的交互方式不改变EDA用户使用习惯。原来怎么用,现在还怎么用。
速石研发平台 VS LSF Suite
半导体行业用户最熟悉的调度器是LSF,就不多介绍了。
不过,它背后的LSF Suite大家就不一定熟悉了。
来来,我们盘一下,我们速石研发平台跟LSF Suite的区别是什么?
1、根本区别:设计理念不一样
我们是站在整个芯片设计研发体系和架构视角来设计的一体化产品,解决的是完整生命周期的芯片设计业务问题,功能紧密耦合,且经过层层实战考验。
而Fsched调度器只是其中一个模块,不单独售卖,在我们的全线企业级产品均属内置,且与产品其他功能深度绑定。
这正是我们上一节提到的面向EDA业务的产品定位决定的。

而LSF Suite里的核心调度器LSF与其他组件是不关联的,属于可选项。这也导致了用户大多只接触过LSF,而对它的其他组件没有什么概念。
而且,因为各种功能组件之间独立存在的,用户使用的时候需要根据自己业务需要进行二次开发组装,从零开始进行功能模块需求评估、采购、对接、开发和测试验证兼容性,才能搭建出一个完整的研发环境,时间周期也会比较长。
另外还有期间的运维、后续的更新升级和功能扩展等事项。
2、性价比:速石研发平台TCO更低
下图是我们研发平台与LSF Suite的横向对比图,可以清楚地看到,两者的收费模式差别很大。

我们Fsched调度器是包含在平台费用里的,相关组件也都是随产品一起内置的,不单独收费。
而LSF Suite除了核心调度器按使用核数收费以外,所有功能组件都需要额外收费。
从总拥有成本来看,对用户来说,速石研发平台付出的成本更低,获得的东西更多。还有很多隐性成本没有列在表格里,比如对接调试时间成本,人工成本,售后支持成本等等。
总结一下,我们跟LSF Suite的五大主要区别:
1. 核心调度器Fsched完全国产自研,有代码级支持能力;
2. 我们的产品设计初衷就是提供面向EDA业务的一整套研发环境,可扩展性强;
3. 各功能模块紧密耦合,不单独收费,整体性价比高;
4. 我们的CAD能力与经验,能有效提高上中下层整体联动效率;
5. 我们兼容LSF/SGE等调度器,使用体验不变。
如果你想尝试AI——
目前,AI在芯片设计领域的应用主要有两条路线:
路线一:AI+EDA工具
Synopsys、Cadence与Siemens等公司纷纷在其最新工具中使用了AI技术,覆盖先进数字与模拟芯片的设计、验证、测试和制造环节,让开发者在芯片开发的每一个阶段都可以采用借助AI的自主学习能力,提供芯片设计生产力。
当然,越来越多EDA工具也支持借助GPU进行运算加速。
路线二:AI算法模型训练
Google研究人员使用10,000个芯片布局图来训练他们的深度学习模型——PRIME,人工智能生成的芯片的设计时间不到六个小时。
而NVIDIA设计了另一种用于芯片设计的深度学习方法——PrefixRL模型,NVIDIA使用其RL工具设计的电路比人类使用当今EDA工具设计的电路小25%,但性能相似。
路线一需要支持全流程EDA工具的一整套研发环境,以及构建异构资源(CPU+GPU、本地+云上)的调度及管理平台的能力。
路线二需要的支持企业从ML/LLM模型构建、大规模训练到最终部署需求的MLOps模块。
我们都有。
另外,我们刚刚发布的一款行业知识库聊天应用Megrez,面向企业客户提供大语言模型的私有化部署能力,允许用户自定义行业知识库,实现领域知识的问答。

Megrez基于芯片设计领域提供的支持
不止半导体领域。。。。
在半导体以外的其他行业,如生命科学、汽车/智能制造,我们也表现不错:
汽车/智能制造
这样跑COMSOL,是不是就可以发Nature了
LS-DYNA求解效率深度测评 │ 六种规模,本地VS云端5种不同硬件配置
怎么把需要45天的突发性Fluent仿真计算缩短到4天之内?
从4天到1.75小时,如何让Bladed仿真效率提升55倍?
生命科学
王者带飞LeDock!开箱即用&一键定位分子库+全流程自动化,3.5小时完成20万分子对接
1分钟告诉你用MOE模拟200000个分子要花多少钱
155个GPU!多云场景下的Amber自由能计算
提速2920倍!用AutoDock Vina对接2800万个分子
关于fastone云平台在各种EDA应用上的表现,可以点击以下应用名称查看:
HSPICE │ OPC │ VCS │ Virtuoso │ Calibre
速石科技芯片设计五部曲,前三部先睹为快:
模拟IC │ 数字IC │ 算法仿真
- END -
我们有个IC设计研发云平台
IC设计全生命周期一站式覆盖
调度器Fsched国产化替代、专业IT-CAD服务
100+行业客户落地实践
支持海内外多地协同研发与办公
多层安全框架层层保障
现在免费试用,送200元体验金,入股不亏~
更多EDA电子书
欢迎关注小F(ID:iamfastone)获取
你也许想了解具体的落地场景:
暴力堆机器之王——Calibre
Auto-Scale这支仙女棒如何大幅提升Virtuoso仿真效率?
揭秘20000个VCS任务背后的“搬桌子”系列故事
大规模OPC上云,5000核并行,效率提升53倍
从30天到17小时,如何让HSPICE仿真效率提升42倍?
芯片设计研发平台:
【案例】95后占半壁江山的浙桂,如何在百家争鸣中快人一步
最强省钱攻略——IC设计公司老板必读
芯片设计五部曲之三 | 战略规划家——算法仿真
【案例】速石X腾讯云X燧原:芯片设计“存算分离”混合云实践
解密一颗芯片设计的全生命周期算力需求
缺人!缺钱!赶时间!初创IC设计公司如何“绝地求生”?
重大事件:
速石科技联合芯华章,推动新一代EDA向云原生迈进
速石科技赋能里恩特,开拓更广阔的芯片设计市场
速石科技应邀出席2023世界人工智能大会,AI研发平台引人瞩目
速石科技与深信服开启战略合作,助力芯片设计自主创新
速石科技成三星Foundry国内首家SAFE™云合作伙伴
速石科技(ID:Fastone_tech)
我们致力于构建为应用定义的云,让任何应用程序,始终以自动化、更优化和可扩展的方式,在任何基础架构上运行。希望和你共同建立持续迭代的多云世界观。
说出你的应用,我们就有故事~~
咨询热线:021-31263638 (你要是唠这个我就不困了。)
相关文章:
国产调度器之光——Fsched到底有多能打?
这是一篇推荐我们速石自研调度器——Fsched的文章。 看起来在专门写调度器,但又不完全在写。 往下看,你就懂了。 本篇一共五个章节: 一、介绍一下主角——速石自研调度器Fsched 二、只要有个调度器,就够了吗? 三…...
LeetCode:53. 最大子数组和 - Python
53. 最大子数组和 问题描述: 给你一个整数数组 nums ,请你找出一个具有最大和的连续子数组(子数组最少包含一个元素),返回其最大和。 子数组 是数组中的一个连续部分。 示例 1: 输入:nums [-…...
网站建设 之 react usestate
react着重在于“不可变动” 如果变动了怎么办呢?那就整个新的 局部变量/函数/jsx-》state/props-〉ref,依次越来越难变 每次state/props,局部变量/函数/jsx都是新的 既然函数是新的,那么就会有一个问题,回调函数用…...
第一讲使用IDEA创建Java工程——HelloWorld
一、前言导读 为了能够让初学者更快上手Java,不会像其他书籍或者视频一样,介绍一大堆历史背景,默认大家已经知道Java这么编程语言了。本专栏只会讲解干货,直接从HelloWord入手,慢慢由浅入深,讲个各个知识点,这些知识点也是目前工作中项目使用的,而不是讲一些老的知识点…...
BootstrapBlazor组件使用:数据注解
文章目录 前言BB数据注解数据注解源码数据注解简介注解简单实例[BB 编辑弹窗](https://www.blazor.zone/edit-dialog)[ValidateForm 表单组件](https://www.blazor.zone/validate-form)使用简介 前言 BootstrapBlazor(一下简称BB)是个特别好用的组件,基本上满足了大…...
MySQL 触发器
文章目录 1.简介2.行级与语句级触发器3.触发时机4.触发器优缺点5.创建触发器语法示例 6.查看触发器7.删除触发器参考文献 1.简介 触发器(Trigger)是与表关联的命名数据库对象,当表发生特定事件时激活。 触发器的一些用途是对要插入表中的值执…...
DPDK主从进程模式 rte_mempool_put失败
版本:19.11.6 情景:主进程应用rte_mempool_create创建mempool,rte_mempool_get获取数据;从进程应用rte_mempool_put归还数据 问题:从进程rte_mempool_put无法归还数据 原因:DPDK通过rte_mempool_ops_tab…...
ZooKeeper 的工作原理
ZooKeeper 的工作原理可以概括为以下几个方面: 1. 数据模型 ZooKeeper 使用树形目录节点(znode)来建模关键的数据,每个 znode 可以存储数据内容,也可以作为目录包括子节点。客户端可以在节点上设置监听器。 2. 一致性算法 ZooKeeper 使用 ZAB(ZooKeeper Atomic Broadcast)协议…...
【业务功能篇73】分布式ID解决方案
业界实现方案 1. 基于UUID2. 基于DB数据库多种模式(自增主键、segment)3. 基于Redis4. 基于ZK、ETCD5. 基于SnowFlake6. 美团Leaf(DB-Segment、zkSnowFlake)7. 百度uid-generator() 1.基于UUID生成唯一ID UUID:UUID长度128bit,32个16进制字符,占用存储空…...
Qt安卓开发经验技巧总结V202308
01:01-05 pro中引入安卓拓展模块 QT androidextras 。pro中指定安卓打包目录 ANDROID_PACKAGE_SOURCE_DIR $$PWD/android 指定引入安卓特定目录比如程序图标、变量、颜色、java代码文件、jar库文件等。 AndroidManifest.xml 每个程序唯一的一个全局配置文件&…...
【vue2】前端实现下载后端返回的application/octet-stream文件流
1、下载csv/txt时 此时无须修改接口的响应格式 let filenameRegex /filename[^;\n]*((["]).*?\2|[^;\n]*)/; let matches filenameRegex.exec(data.headers[content-disposition]); let blob new Blob([\uFEFF data.data], {//目前只有csv格式type: text/csv;charse…...
【Java】SM2Utils(国密 SM2 工具类)
基于 bouncycastle 实现 国密 SM2 <!-- 引入 bouncycastle --> <dependency><groupId>org.bouncycastle</groupId><artifactId>bcprov-jdk15on</artifactId><version>1.70</version> </dependency>import lombok.Sneak…...
『C语言入门』初识C语言
文章目录 前言C语言简介一、Hello World!1.1 编写代码1.2 代码解释1.3 编译和运行1.4 结果 二、数据类型2.1 基本数据类型2.2 复合数据类型2.3 指针类型2.4 枚举类型 三、C语言基础3.1 变量和常量3.2 运算符3.3 控制流语句3.4 注释单行注释多行注释注释的作用 四、 …...
jira创建条目rest实用脚本
最近在搞crash崩溃分析,直接把解析到的信息录入jira系统进行跟踪; 经历了多次碰壁后终于调通,现记录一下 实用json请求脚本如下: {"fields":{"project":{"id":"10945"},"issuety…...
红外/可见光图像配准融合
红外/可见光图像配准融合 根据文献【1】,对于平行光轴的红外可见光双目配置进行图像配准,主要的限制是图像配准只是对特定的目标距离(Dtarget)有效。并排配置的配准误差 δx(以像素表示)的数学表达式为&…...
更高效稳定 | 基于ACM32 MCU的编程直流电源应用方案
随着电子设备的多样化发展,面对不同的应用场景,需要采用特定的供电电源。因此,在电子产品的开发测试过程中,必不可少使用编程直流电源来提供测试电压,协助完成初步的开发测试过程。 编程直流电源概述 编程直流电源结构…...
postgresql创建一个只读账户指定数据库
要在 PostgreSQL 中创建一个只读账户,您可以按照以下步骤进行操作: 1. **登录到 PostgreSQL:** 使用具有足够权限的管理员账户(通常是 "postgres" 用户)连接到 PostgreSQL 数据库。 2. **创建只读账户&…...
CSDN编程题-每日一练(2023-08-25)
CSDN编程题-每日一练(2023-08-25) 一、题目名称:影分身二、题目名称:小鱼的航程(改进版)三、题目名称:排查网络故障 一、题目名称:影分身 时间限制:1000ms内存限制:256M 题目描述&am…...
前端面试:【前端工程化】构建工具Webpack、Parcel和Rollup
嗨,亲爱的前端开发者!在现代Web开发中,前端工程化变得愈发重要。构建工具如Webpack、Parcel和Rollup帮助我们自动化任务、管理依赖、优化性能等。本文将深入探讨这三个前端构建工具,帮助你了解它们的优点和用途。 1. Webpack&…...
大型企业是否有必要进行数字化转型?
在数字化、信息化、智能化蓬勃发展的今天,初创公司可以很轻易的布局规划数字化发展的路径。而对于大型企业而言,其已经形成了较为成熟稳固的业务及组织架构,是否还有必要根据自身行业发展特点寻求数字化转型?(比如制造…...
未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?
编辑:陈萍萍的公主一点人工一点智能 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...
在软件开发中正确使用MySQL日期时间类型的深度解析
在日常软件开发场景中,时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志,到供应链系统的物流节点时间戳,时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库,其日期时间类型的…...
19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...
内存分配函数malloc kmalloc vmalloc
内存分配函数malloc kmalloc vmalloc malloc实现步骤: 1)请求大小调整:首先,malloc 需要调整用户请求的大小,以适应内部数据结构(例如,可能需要存储额外的元数据)。通常,这包括对齐调整,确保分配的内存地址满足特定硬件要求(如对齐到8字节或16字节边界)。 2)空闲…...
CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型
CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者:Yanyuan Chen, Dexuan Xu, Yu Hu…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
CMake基础:构建流程详解
目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...
Java多线程实现之Callable接口深度解析
Java多线程实现之Callable接口深度解析 一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类 二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务 三、…...
Spring AI与Spring Modulith核心技术解析
Spring AI核心架构解析 Spring AI(https://spring.io/projects/spring-ai)作为Spring生态中的AI集成框架,其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似,但特别为多语…...
JavaScript基础-API 和 Web API
在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...
