同创永益郑阳|与数智化共舞·业务稳定性保障新动力
2023年8月2日,由北大创新评论主办的2023 Inno China中国产业创新大会-保险产业创新论坛在京举办。本次论坛由同创永益、青牛软件、DaoCloud道客联合主办,INNO创新家、产业集群发展提供战略支持,未名数创承办,邀请到了学术专家、行业专家同台对话,探讨保险行业前沿技术发展,研判数字韧性助推保险业高质量发展,为保险业专业人士、学者及科技专家搭建一个开放交流的平台。
会上,中国信通院云大所系统稳定性专家、同创永益CTO郑阳发表《与数智化共舞:业务稳定性保障新动力》主题演讲。分析了数智化时代,行业的发展趋势,以及企业数字化转型面临的痛点与挑战,并分享了同创永益在业务稳定性方向的探索与实践。

以下为演讲摘录:
因为疫情的关系,带来了保险行业的业务全面线上化,加速了保险行业的数字化转型,在数字化转型过程中,新架构的革新、新技术的应用、新理念的升级,解决了很多问题。但硬币的背面是,新技术架构带来了很多不可避免的风险。另一方面,信息技术国产化在保障国家安全层面是一个重要的趋势,但同时我们也应该认识到,用相对比较新的产品替代成熟的产品,使信息系统在稳定性方面,尤其是在后续服务保障方面存在一定的风险隐患。最重要的是,在金融行业,每年监管机构都在不断出台新的政策,为系统稳定性提出更高的要求。数字化转型、架构升级、国产化替代,以及监管对于稳定性的红线要求,给金融企业IT人员带来了不小的压力与危机。

同创永益的技术世界观基于两个基本原理:一是小概率事件必然发生;二是海因法则,一个严重的生产事故的背后必然是有29个轻型事故、300个先兆以及它背后的1000个隐患。已经发生的生产事件只是冰山一角,回顾一下近两年发生的重大生产事故可以发现,海面之上暴露出来的风险事件不断增多,这个冰山不断往上浮,浮得越来越快,在日益复杂的业务环境下,稳定性持续劣化,就是因为前面几个驱动因素叠加的结果造成的。

保险行业在系统稳定性方面有哪些挑战?我们认为现阶段有三个矛盾点。第一是监管持续提高的业务稳定性要求,跟我们在经济下行周期内的IT投入不足之间的矛盾。第二是线上化业务快速增长,稳敏双态共存和敏态业务的数字韧性覆盖力度不足的矛盾。第三是数字化转型深入与新技术人才需较长学习周期的矛盾。

如何解决这些问题呢?同创永益给出三个对应的解决方案。新技术:引入新的系统稳定性保障技术,弥补现有敏态业务上技术手段的不足;新体系:建立新的体系,单一的工具建设会引起新的混乱,需要完整的体系;新模式:通过更好的模式去解决企业一次性投入比较大的问题。
一、新技术
先讲一下整个业务稳定性技术的一个沿革。2010年之前是大集中时代,那个时候主要是以IOE为代表,集中的数据存储、集中的算力、集中的应用架构,都是集中化的。在这个集中化的架构之下,稳态业务变更非常少。有统计数据显示,生产事故80%都是源于生产变更造成的,变更少、架构相对简单,自然它的稳定性就高。那个时代主要是关注数据的备份,先把数据存下来,只要数据是安全的,这个业务就是安全的。

后来备份手段就从单纯的数据级灾备发展到了应用级灾备,但不管是应用级灾备还是数据级灾备,都旨在事件发生后降低影响。
随着互联网兴起,进入到线上化时代。线上化时代有什么特点?那就是敏态。由稳态转到敏态,发布周期比较短,业务不断在上线。计算机里面有几个矛盾,比如说时间和空间的矛盾,拿空间去换时间叫缓存,拿时间去换空间叫压缩;还有数据库里面CAP的矛盾,CAP这三者不能同时满足,最多只能满足两个,这些都是矛盾。效率和稳定性其实也是一个矛盾体。敏态就是通过快速发布去提高效率,但是牺牲了一部分稳定性。它其实是把稳定性放在上线之后的运维阶段,这就叫风险后置。互联网时代就是把风险后置之后,需要有应对的措施。
2013年,谷歌提出了SRE概念,2016年正式发布,它解决的是风险后置之后怎么让风险左移。左移是指提前预知风险或者是让风险不发生,它的重点是降发生,原来的业务连续性和业务稳定性只关注降影响,互联网时代不只是降影响,同时要考虑如何避免风险发生。
在降发生的手段中,SRE里面明确提出的第一个技术就是混沌工程。混沌工程是通过风险发生之前提前注入故障去探索系统的薄弱性,从而让系统具有对风险事件免疫的能力。第二是观测性,就是监控白盒化,原来监控是黑盒,所有指标都在黑盒子里面,现在这些指标公开化、白盒化,分布式系统全链路的拓扑情况一目了然,这个是可观测性。第三是容量管理,进入互联网管理后,大家开始做分布式化,包括微服务、SOA等都属于分布式化的一种。在分布式化里,最常见的问题是性能瓶颈,当服务链条拉长以后任何节点出现问题都导致整个服务链条雪崩,很容易形成性能瓶颈,这就要求对容量进行管理。
在降影响的手段中新增了应急管理,灾备主备切换应用于低频事件,它是在数据中心故障不能自愈或者是没有办法修复的时候才会进行切换。因为灾备切换的成本相对比较高,所以就应该更关注怎么在本地自愈和本地修复。而应急管理,对本地数据中心修复的全过程进行了管理,包括事件的响应、应急会商、应急决策、应急自动处置以及复盘等,这些在应急管理中都做出了详细的设计。
2022年,中国信通院发布了《分布式系统稳定性建设指南》。中国的情况与国外不同:在国外,敏态比较彻底;在国内,稳敏双态还要长期并存一段时间。因为国内存量的稳定系统实在太多了,而且金融行业不可能快速转到敏态业务。所以中国信通院在SRE基础上又进行扩展:在降发生手段里面加了全链路压测,对全链路的性能进行一个压测和管理;在降影响这一部分加了云原生灾备,因为云原生的技术跟传统的虚拟化技术还是有很大的不同的。
今年,Gartner发布了全球十大科技趋势,这里面新提出了一个概念——数字免疫系统,在之前的稳定性保障手段基础上又增加了人工智能方案。例如在降发生的手段中新增了人工智能增强测试,在降影响手段里面增加了自动修复,利用人工智能技术进行自动化修复,也可以结合我们现在比较火热的GPT的技术。现在已经有这种专注于解决某一个细分场景的自动修复的小模型。
有了这些技术,我们需要把它们串起来形成一个体系,才能帮助我们在敏态业务的环境中做系统稳定性的布点。
二、新体系
同创永益将系统稳定性体系分为“事前”、“事中”、“事后”三部分,“事前”、“事后”是平时,“事中”是战时。

事前,第一要做故障预防和故障发现,把企业的科技战略落实到风险预案,风险预案最后会衍生成应急预案和灾备预案,有了预案照着预案做就可以了。这个预案是正确还是不正确,需要做演练去验证,演练就是通过故障来进行演练,真要模拟出这个故障之后才能知道运维人员多久能把这个风险和事件识别出来了,多久能把这个事件修复,业务需要多久才能恢复等等,这些数据是需要的,然后在平时进行演练和掌握。第二是建立灾备的手段,例如数据级的备份,业务级、应用级的备份以及基于应用为单位的云原生化的备份手段,另外是传统的监控告警,以及可观测性等能力也是需要建设的。
事中,以应急管理为轴,从事件的定级开始,到事件的会商、决策,怎么给决策者提供必要的支撑,让决策者能够快速准确决策。最后到事件的自动化处置,配合自动化运维的手段进行本地处置,如果本地不能处置的用容灾切换的方式把主中心的业务自动化切换到灾备中心进行业务恢复。
事后,主要是做的是根因分析。根因分析有一个误区,大家都希望在事中进行根因定位,但这是不可能的,事中一般做的是确定范围之后及时止损。真正的根因分析是在事后进行根因分析,找到真正的补救措施进行架构的改进和流程的改进,这是同创永益的业务稳定性的体系化方案。

这些体系、这些能力需要购买什么样的产品?怎么去建设?这是同创永益产品体系的功能逻辑图。首先,要建设一个应急管理平台,这个应急管理平台从风险预防开始做应急预案的制定和结构化的管理,之后就在事件发生时做应急响应的线上化和辅助决策的智能化。一个事件发生之后留给你的时间可能只有10分钟,甚至更苛刻,比如3分钟我们要求业务恢复。怎么用GPT的方式,用知识图谱的方式去构建出一个决策树,让领导能够合规合理高效进行决策,这是我们要做的事情。
灾备管理主要是针对灾备的全过程,包括灾备环境的一致性比对、灾备环境的监控,这些工作在灾备切换之前完成,确保切换成功。灾备能力建设包含数据级的容灾备份复制,以及基于云原生的以应用为单位的备份复制,包括应用自身、应用的配置,以及应用所依赖的镜像打包进行备份复制。从监控的角度来看,包括通用监控,以及对于一些设备,例如存储设备或网络设备的监控产品。
这些工具平台如果单独去建设,周期都是比较长的,而且容易形成一种单点的烟囱式的建设格局,最后发现实际的效果不好,用不起来。同创永益的优势是,所有与业务稳定性相关的分析平台都是自研的,而且逻辑自洽、功能打通、数据共享。我们给客户呈现的是一个完整的体系化的解决方案。
三、新模式
在新模式这部分,我们把整套的体系化的产品工具平台进行了SaaS化,提供一站式标准化云容灾订阅服务,以上这些能力和产品,都已经上云。通过标准化的服务、标准化的产品可以降低同创永益的自身的边际成本,我们愿意把降低的这一部分边际成本变成客户的收益,让客户总投资金额减少。同时在商务模式上,SaaS化产品都是订阅模式,也不需要客户一次性进行投入,可以做按年、按需订阅,这是我们同创永益在模式上的一个创新。

除了经济效益以外,这种创新给客户带来哪些好处?第一是时效性,我们的产品已经做得足够标准化了,而且这些产品已经服务很多超大型客户,可以做到开箱即用,免去客户自建数据中心采购硬件部署等的周期和时间。第二是服务性,自建数据中心需要投入大量人员去做硬件和软件的维护,这一部分服务也省了。第三是扩展性,同创永益的产品是不断迭代升级的,我们不断在云上扩展我们的功能,也会同步给客户使用。最后是合规性,我们的合作伙伴都是金融行业内的行业云,帮助客户建立灾备系统,满足监管合规要求。
同创永益简介
北京同创永益科技发展有限公司成立于2009年,是国家级高新技术企业、国家级专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业级数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。
相关文章:
同创永益郑阳|与数智化共舞·业务稳定性保障新动力
2023年8月2日,由北大创新评论主办的2023 Inno China中国产业创新大会-保险产业创新论坛在京举办。本次论坛由同创永益、青牛软件、DaoCloud道客联合主办,INNO创新家、产业集群发展提供战略支持,未名数创承办,邀请到了学术专家、行…...
史上最全的Qt控件
本软件是收费工具,学生党勿扰,闹眼子党勿扰,白嫖党勿扰 收费金额:1000元 1 概述 经过这两年的编写,写不少控件,甚至把刘某某90%的控件都绘制了一遍。当然后还有一些其他刘某没有控件。 2 功能 借用刘某博…...
星星之火:国产讯飞星火大模型的实际使用体验(与GPT对比)
#AIGC技术内容创作征文|全网寻找AI创作者,快来释放你的创作潜能吧!# 文章目录 1 前言2 测试详情2.1 文案写作2.2 知识写作2.3 阅读理解2.4 语意测试(重点关注)2.5 常识性测试(重点关注)2.6 代码…...
传输控制协议TCP
目录 TCP报文格式 TCP的特点 TCP原理: 1.确认应答机制 2.超时重传机制 3.连接管理机制 建立连接 编辑关闭连接 4.滑动窗口机制 5.流量控制 6.拥塞控制 7.延迟应答 8.捎带应答 TCP报文格式 1.源端口号:发送端的哪一个端口发出的 2.目的端口号:接收端的哪一个端…...
jmeter中用户参数和用户定义的变量的区别
如果使用jmeter做过参数化的人都知道,参数化的方式有多种,其中一种就是使用用户定义的变量,还有一种是使用用户参数。那么,这两个有什么异同呢? 一、先说相同的点: 1、都可以参数化,以供sample…...
WSL2 Ubuntu子系统安装OpenCV
文章目录 前言一、基本概念二、操作步骤1.下载源码2.安装依赖3.运行编译4.配置路径 前言 OpenCV用C语言编写,它的主要接口也是C语言,但是依然保留了大量的C语言接口。该库也有大量的Python, Java and MATLAB/OCTAVE (版本2.5)的接口。这些语…...
KafkaStream:Springboot中集成
1、在kafka-demo中创建配置类 配置kafka参数 package com.heima.kafkademo.config;import lombok.Data; import org.apache.kafka.common.serialization.Serdes; import org.apache.kafka.streams.StreamsConfig; import org.springframework.boot.context.properties.Configu…...
包管理工具 nvm npm nrm yarn cnpm npx pnpm详解
包管理工具 nvm npm yarn cnpm npx pnpm npm、cnpm、yarn、pnpm、npx、nvm的区别:https://blog.csdn.net/weixin_53791978/article/details/122533843 npm、cnpm、yarn、pnpm、npx、nvm的区别:https://blog.csdn.net/weixin_53791978/article/details/1…...
【java】mybatis-plus代码生成
正常的代码生成这里就不介绍了。旨在记录实现如下功能: 分布式微服务环境下,生成的entity、dto、vo、feignClient等等api模块,需要和mapper、service、controller等等分在不同的目录生成。 为什么会出现这个需求? mybatis-plus&am…...
小样本UIE 信息抽取微调快速上手(不含doccona标注)
文章目录 1.安装环境(可略过)2.模型简介(略读)抽取任务输入输出示例:1.实体识别2.关系抽取 3.快速上手(主菜)(1)转换数据标注数据样例 (2)生成训练数据训练数据样例 &…...
Vue项目(购物车)
目录 购物车效果展示: 购物车代码: 购物车效果展示: 此项目添加、修改、删除数据的地方都写了浏览器都会把它存储起来 下次运行项目时会把浏览器数据拿出来并在页面展示 Video_20230816145047 购物车代码: 复制完代码࿰…...
23.08.16驱动点灯
#include <linux/init.h> #include <linux/module.h> #include <linux/fs.h> #include <linux/uaccess.h> #include <linux/io.h> #include <linux/device.h> #include "head.h"int major; char kbuf[128] {0};//定义指针接收映…...
数据结构——堆
数据结构——堆 堆堆简介堆的分类 二叉堆过程插入操作 删除操作向下调整: 增加某个点的权值实现参考代码:建堆方法一:使用 decreasekey(即,向上调整)方法二:使用向下调整 应用对顶堆 其他&#…...
重复学习1:NLP
目录 1. 自然语言处理与知识图谱1.1 RNN 循环神经网络初探 2. 吴恩达深度学习 1. 自然语言处理与知识图谱 1.1 RNN 循环神经网络初探 1.1.2 回顾数据维度与神经网络(1) 2. 吴恩达深度学习 P151 1.1 为什么选择序列模型(1,2) P152 1.2 数学符号(1,)...
做海外游戏推广有哪些条件?
做海外游戏推广需要充分准备和一系列条件的支持。以下是一些关键条件: 市场调研和策略制定:了解目标市场的文化、玩家偏好、竞争格局等是必要的。根据调研结果制定适合的推广策略。 本地化:将游戏内容、界面、语言、货币等进行本地化&#…...
JavaFx基础学习【五】:FXML布局文件使用
目录 前言 一、介绍 二、简单体验 三、FXML标签元素 四、fx属性介绍 五、重写initialize(名字需要保持一致)方法 六、Scene Builder快速布局 前言 如果你还没有看过前面的文章,可以通过以下链接快速前往学习: JavaFx基础学…...
通过Python爬虫提升网站搜索排名
目录 怎么使用Python爬虫提升排名 1. 抓取竞争对手数据: 2. 关键词研究: 3. 网页内容优化: 4. 内部链接建设: 5. 外部链接建设: 6. 监测和调整: 需要注意哪些方面 1. 合法性和道德性: …...
【博客698】为什么当linux作为router使用时,安装docker后流量转发失败
为什么当linux作为router使用时,安装docker后流量转发失败 场景 当一台linux机器作为其它服务器的router,负责转发流量的时候,让你在linux上安装docker之后,就会出现流量都被drop掉了 原因 没装docker之前: [root~]…...
el-dialog嵌套,修改内层el-dialog样式(自定义样式)
el-dialog嵌套使用时,内层的el-dialog要添加append-to-body属性 给内层的el-dialog添加custom-class属性,添加自定义类名 <el-dialog:visible.sync"dialogVisible"append-to-bodycustom-class"tree-cesium-container"><span>这是一段信息<…...
B树和B+树区别
B树和B树的区别 B树 B树被称为平衡树,在B树中,一个节点可以有两个以上的子节点。B树的高度为log M N。在B树中,数据按照特定的顺序排序,最小值在左侧,最大值在右侧。 B树是一种平衡的多分树,通常我们说m阶…...
Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
JavaSec-RCE
简介 RCE(Remote Code Execution),可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景:Groovy代码注入 Groovy是一种基于JVM的动态语言,语法简洁,支持闭包、动态类型和Java互操作性,…...
docker详细操作--未完待续
docker介绍 docker官网: Docker:加速容器应用程序开发 harbor官网:Harbor - Harbor 中文 使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像 是什么 Docker 是一种开源的容器化平台,用于将应用程序及其依赖项(如库、运行时环…...
Java 8 Stream API 入门到实践详解
一、告别 for 循环! 传统痛点: Java 8 之前,集合操作离不开冗长的 for 循环和匿名类。例如,过滤列表中的偶数: List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...
基于uniapp+WebSocket实现聊天对话、消息监听、消息推送、聊天室等功能,多端兼容
基于 UniApp + WebSocket实现多端兼容的实时通讯系统,涵盖WebSocket连接建立、消息收发机制、多端兼容性配置、消息实时监听等功能,适配微信小程序、H5、Android、iOS等终端 目录 技术选型分析WebSocket协议优势UniApp跨平台特性WebSocket 基础实现连接管理消息收发连接…...
拉力测试cuda pytorch 把 4070显卡拉满
import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试,通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小,增大可提高计算复杂度duration: 测试持续时间(秒&…...
大数据学习(132)-HIve数据分析
🍋🍋大数据学习🍋🍋 🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。 💖如果觉得博主的文章还不错的话,请点赞👍收藏⭐️留言Ǵ…...
C++使用 new 来创建动态数组
问题: 不能使用变量定义数组大小 原因: 这是因为数组在内存中是连续存储的,编译器需要在编译阶段就确定数组的大小,以便正确地分配内存空间。如果允许使用变量来定义数组的大小,那么编译器就无法在编译时确定数组的大…...
【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制
使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下,限制某个 IP 的访问频率是非常重要的,可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案,使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...
GraphQL 实战篇:Apollo Client 配置与缓存
GraphQL 实战篇:Apollo Client 配置与缓存 上一篇:GraphQL 入门篇:基础查询语法 依旧和上一篇的笔记一样,主实操,没啥过多的细节讲解,代码具体在: https://github.com/GoldenaArcher/graphql…...
