自研分布式IM-HubuIM RFC草案
HubuIM RFC草案
消息协议设计
基本协议
评估标准
-
【性能】协议传输效率,尽可能降低端到端的延迟,延迟高于200ms用户侧就会有所感知
-
【兼容】既要向前兼容也要向后兼容
-
【存储】减少消息包的大小,降低空间占用率,一个字节在亿级别并发之下也是一亿个字节
-
【计算】减少编解码时造成的CPU使用率的权衡
-
【网络】尽可能减少网络带宽消耗
-
【安全】协议安全性
-
【迭代】要能够快速迭代,灵活拓展
-
【通用】可跨平台接入,H5,IoT设备等等
-
【可读】
基本结构
IM协议的设计从纵向来看分为三个层次,应用层/安全层/传输层。
应用层
有很多开源协议,例如MQTT,websocket等等。但是这些协议冗余的字段比较多,在大型IM的场景下一般都是自定义协议的。
因此HubuIM采用自定义协议
序列化方式使用protobuf,这个是无可争议的。
安全层
基于密钥的生命周期可以分为
-
TLS/SSL:加密效果好,证书的管理比较复杂
-
固定加密:通信前客户端和服务端约定好密钥和加密算法(会被黑客逆向)
-
一人一密:使用用户特定的属性进行加密,例如密码
-
一次一密:这个是最安全的,创建连接建立一次会话,双方进行加密三次握手(非对称),对称加密传输。
加密消耗的是CPU资源,是CPU密集型操作。如果放到接入层或者业务逻辑层来做的话,会影响到他们的正常运行。因此应该在四层网络负载或者七层网络负载的地方去解密,内网环境默认是安全的。
因此HubuIM采用的方式是TLS3.0+网关终止。

在Nginx处就进行解密,Nginx所在的机器可以使用硬件来进行优化,例如用GPU加速,用Intel加速器等等。
那么为什么不在LVS(四层网络负载均衡器)上面去做加密解密,然后直接发到IM网关,这样可以让网络通信少跳一次。
这个问题是因为Nginx这个七层负载均衡的地方相当于是公司的一个基础架构层,是要做很多事情的,不方便去掉的。
传输层
可以使用UDP或者TCP协议。微信这种很定义的可能使用UDP+QUIC这种保证可靠性。因为UDP是无状态的传输协议,不会存储连接的状态,在弱网环境下更优,消息风暴发生的可能性更小。
UDP的话需要在应用层写大量的代码来保证可靠性,难度非常大,因此HubuIM使用TCP协议。弱网环境在应用层来进行优化。
总结
HubuIM协议
对于传输层使用TCP,安全层使用TLS,应用层使用自研二进制协议+开源序列化协议。
既然使用了TCP协议,那么我们面临的一个问题就是TCP的粘包,拆包问题。具体解决方法我们在后面讲解。
消息可用性
基本概念
-
长链接 vs 短链接。我们才用的是长链接和短链接共同作用,短链接作为旁路。
-
各种ID
-
connID:代表的是一个TCP链接
-
clientID:代表的是client发送给IM Server的用来标识本客户端消息发送顺序的ID,仅仅是本客户端,该ID并不代表消息的全局一致。需要有递增性质。
-
seqID:当IM Server收到clientID之后生成的会话内消息顺序一致的seqID。需要有递增性质。
-
sessionID:会话ID
-
msgID:代表的是一个消息的ID
-
-
PULL 与 PUSH 模式。PULL就是client向IM Server拉取消息,使用短链接减少TCP链接的压力。PUSH就是IM Server通过TCP长链接推送消息。
-
通信复杂度:网络传输过程中经过的节点可以说是一个性能瓶颈,不能经过太多节点。消息风暴就是网络中有太多的报文,会压垮IDC。常见于弱网环境,弱网下消息丢失严重,TCP的可靠性反而成为延迟,让网络中有大量的报文。
背景介绍
对于IM来说,消息的可靠与一致就是:可达有序,不重不漏。
有人会问:TCP已经保证一致性了,那么为什么IM还有保证一致。
其实答案很简单:TCP只能保证到内核传输层为止的可靠性,但是应用层的可靠性你是没有办法保证的。
设计IM必须有端到端的设计思维:底层可靠不等于上层可靠,底层一致不等于上层一致。
方案选型
技术挑战是什么?
-
三方通信,网络层面无法保证消息必达
-
没有全局时钟,确定唯一顺序,并且是符合因果顺序的
-
多客户发送/多服务端接收/多线程多协程处理,顺序难以确定。
解决方案是学习TCP:
-
消息及时:服务端实时接收消息并实时在线发送
-
消息可达:超时重试,ACK确认
-
消息幂等:分配seqID,服务端存储seqID
-
消息有序:seqID可以比较。
上行消息
clientID严格递增
弱网问题是传输层的问题,可以优化传输层协议,例如升级成Quic来优化,长连接不适合在弱网环境下工作。
消息转发
-
seqID在会话内有序就行,这样就可以解决redis的单点问题。
-
seqID需要在ACK之前分配,否则ACK成功发出去之后,服务器宕机了,这样seqID就等于没有分配,会出现问题。
-
如果服务端在存储消息,业务处理,接入层路由的时候失败怎么办?
-
消息存储之后再回复ACK,如果ACK失败则客户端重试时再次幂等的回复ACK。
-
一旦消息存储,如果服务崩溃导致长连接断开,客户端重新建立连接时可以发送一个pull信令,拉去历史消息进行消息补洞,保证可靠性。
-
-
消息存储可以交给MQ异步的进行。
下行消息
分配seqID的时候针对redis的单点使用lua脚本来进行一个ID的跳变。
客户端发现消息不连续的时候可能是因为消息跳变了,但是他无法确认,因此不能直接拒绝,而是发送pull信令来进行增补,如果拉去不到新消息则说明是跳变导致。
推拉结合+长短连接结合+服务端打包整流:假如是一个群聊,一下子有100M信息,我会把这些信息放在一个窗口里面,不会一个一个发送,这样的批处理可以提高效率。然后窗口大了之后服务端向客户端发送一个pull信令,让客户端发起一个请求来用短链接拉取这个窗口里面的数据。
相关文章:
自研分布式IM-HubuIM RFC草案
HubuIM RFC草案 消息协议设计 基本协议 评估标准 【性能】协议传输效率,尽可能降低端到端的延迟,延迟高于200ms用户侧就会有所感知 【兼容】既要向前兼容也要向后兼容 【存储】减少消息包的大小,降低空间占用率,一个字节在亿…...
tableau基础学习1:数据源与绘图
文章目录 读取数据常用绘图方法1. 柱状图2. 饼图3. 散点图4. 热力图 第一部分是一些较容易上手的内容,以及比较常见的可视化内容,包括:柱状图、饼图、散点图与热力图 读取数据 打开界面后,选择数据源之后就可以导入数据…...
探索经典算法问题与解决方案
探索经典算法问题与解决方案 在计算机科学领域,有许多经典算法问题需要我们思考和解决。本文将深入介绍一些著名的经典算法问题,包括旅行商问题、背包问题的变种、N皇后问题、钢条切割问题、最大子数组和问题、最长公共子串问题以及矩阵连乘问题&#x…...
【Linux】DNS系统,ICMP协议,NAPT技术
遏制自己内心的知识优越感,才能让你发自内心的去尊重他人,避免狂妄自大,才能让你不断的丰富自己的内心。 文章目录 一、DNS系统1.DNS服务器返回域名对应的ip2.使用dig工具分析DNS过程3.浏览器中输入url后发生的事情? 二、ICMP协议…...
BI技巧丨Window应用之同环比
白茶曾介绍过OFFSET可以用来解决同环比的问题,其实微软最近推出的开窗函数WINDOW也可以用来解决同环比。 WINDOW函数基础语法 WINDOW ( from[, from_type], to[, to_type][, <relation>][, <orderBy>][, <blanks>][, <partitionBy>][, &l…...
【Mac】编译Spring 源码和Idea导入
今天我们开始Spring源码的阅读之旅。阅读Spring的源码的第一步当然是编译Spring源码。首先我们要去GitHub上将spring源码给clone下来。 笔者编译环境如下: Spring版本:5.28 https://github.com/spring-projects/spring-framework/tree/v5.2.8.RELEASE …...
手把手教你用 ANSYS workbench
ANSYS Workbench ANSYS Workbench是一款基于有限元分析(FEA)的工程仿真软件。其基本概念包括: 工作区(Workspace):工程仿真模块都在此区域内,包括几何建模、网格划分、边界条件设置、分析求解等…...
Kotlin开发笔记:协程基础
Kotlin开发笔记:协程基础 导语 本章内容与书的第十五章相关,主要介绍与协程相关的知识。总的来说,本文将会介绍Kotlin中关于异步编程的内容,主要就是与协程有关。在Kotlin中协程是利用continuations数据结构构建的,用…...
自学设计模式(简单工厂模式、工厂模式、抽象工厂模式)
使用工厂模式来生产某类对象(代码简化且容易维护,类之间有血缘关系,可以通过工厂类进行生产); 简单工厂模式(用于创建简单对象) 对于简单工厂模式,需要的工厂类只有一个࿱…...
NFS:使⽤ NFS 为远程客户端提供共享文件系统
写在前面 分享一些 nfs 搭建的笔记考试顺便整理内容涉及 nfs 服务端客户端的搭建配置理解不足小伙伴帮忙指正 对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的&…...
2022-kaggle-nlp赛事:Feedback Prize - English Language Learning(超多注释讲解)
2022-kaggle-nlp赛事:Feedback Prize - English Language Learning 零、比赛介绍 比赛地址Feedback Prize - English Language Learning | Kaggle 0.1 比赛目标 写作是一项基本技能。可惜很少学生能够磨练,因为学校很少布置写作任务。学习英语作为第…...
第十三课 宾语从句
文章目录 前言一、宾语从句1、主语及物动词宾语从句2、主语双宾动词间接宾语直接宾语3、主语特定及物动词宾语从句(作宾语)宾补4、主语be某些形容词宾语从句5、动词不定式后面的宾语从句6、动名词后面的宾语从句7、介词后面的宾语从句9、间接引语 前言 一…...
Docker容器与虚拟化技术:GitHub账户注册
目录 一、实验 1.GitHub 一、实验 1.GitHub (1)GitHub是一个面向开源及私有软件项目的托管平台,因为只支持Git作为唯一的版本库格式进行托管,故名GitHub。 (2)官网 GitHub: Let’s build from here …...
thinkphp安装workman
需要加版本,版本太高了不行 composer require topthink/think-worker1.0.*...
L1-036 A乘以B(Python实现) 测试点全过
题目 看我没骗你吧 —— 这是一道你可以在 10 秒内完成的题:给定两个绝对值不超过 100 的整数 A 和 B,输出 A 乘以 B 的值。 输入格式 输入在第一行给出两个整数 A 和 B ( − 100 ≤ A , B ≤ 100 ) A 和 B(−100≤…...
代码随想录第五十三天
代码随想录第五十三天 Leetcode 1143. 最长公共子序列Leetcode 1035. 不相交的线Leetcode 53. 最大子数组和 Leetcode 1143. 最长公共子序列 题目链接: 最长公共子序列 自己的思路:没想出来!!! 正确思路:首先这道题由于是涉及到了两个数组&…...
cmd - 如何在不重启的情况下让修改后的hosts生效
cmd - 如何在不重启的情况下让修改后的hosts生效 亲测有效 一般在修改了hosts文件后,需要重启电脑才能生效;其实可以不通过重启电脑也可以令其生效,方法如下: 打开cmd窗口输入ipconfig /flushdns,然后回车。…...
echarts实现双x轴并且分组滚动效果
var myChart echarts.init(document.getElementById(allOutPut1));var option {legend: {itemHeight: 10, // 图例icon高度itemWidth: 16, // 图例icon宽度icon:rect,//设置为矩形top:2%,right:10%,},tooltip: {trigger: axis,axisPointer: {type: shadow},textStyle: {fontS…...
UE4 地形编辑基础知识 学习笔记
之前自己写过这样的功能,今天看到一个UE现成的 点击地形,选择样条 按住CTRL键点击屏幕中某一个点会在场景内生成一个这样的图标 再点两次,会生成B样条的绿线条 点击号再选择一个模型,会生成对应的链条状的mesh 拉高最远处的一个图…...
AcWing算法提高课-5.5.2最大公约数
宣传一下 算法提高课整理 CSDN个人主页:更好的阅读体验 原题链接 题目描述 给定整数 N N N,求 1 ≤ x , y ≤ N 1 \le x,y \le N 1≤x,y≤N 且 gcd ( x , y ) \gcd(x,y) gcd(x,y) 为素数的数对 ( x , y ) (x,y) (x,y) 有多少对。 输入格式 输…...
剪映视频去水印+去字幕+去logo三合一操作流程(新手必备)
在短视频创作热潮中,剪映凭借免费、易用的优势,成为多数创作者的首选剪辑工具。但在实际使用中,不少人会遇到一个共性问题:剪映导出的视频自带水印、素材中夹杂多余字幕,或搬运、引用的素材带有品牌Logo,尤…...
如何通过铜钟音乐重拾纯粹听歌的乐趣:一个零干扰的Web音乐解决方案
如何通过铜钟音乐重拾纯粹听歌的乐趣:一个零干扰的Web音乐解决方案 【免费下载链接】tonzhon-music 铜钟 (Tonzhon.com): 免费听歌; 没有直播, 社交, 广告, 干扰; 简洁纯粹, 资源丰富, 体验独特!(密码重置功能已回归) 项目地址: https://gitcode.com/G…...
工业相机图像获取:RAW 图像如何保存和显示,附海康Basler堡盟相机代码
工业相机RAW图像保存显示,海康/Basler/堡盟代码直接抄 阅读提示:本文偏向工业视觉入门实操,避开晦涩理论,聚焦RAW图像的保存、显示落地方法,附带三大主流工业相机品牌的实测代码,适合视觉工程师、调试新手快…...
正则表达式实战:精准校验日期时间格式的五大场景
1. 为什么我们需要校验日期时间格式? 在日常开发中,数据校验是最基础也最容易出问题的一环。就拿日期时间来说,你可能遇到过用户把"2023年2月30日"这种不存在的日期提交到系统,或者日志文件里的时间戳格式五花八门&…...
Rocky Linux 9最小化安装后,我第一时间会做的10个安全加固设置(新手必看)
Rocky Linux 9最小化安装后的10个关键安全加固指南 当你完成Rocky Linux 9的最小化安装,系统虽然干净但远未达到安全标准。作为企业级RHEL的替代品,Rocky Linux继承了其稳定性与安全性基因,但默认配置仍需优化才能抵御现代网络威胁。本文将分…...
BERT文本分割-中文-通用领域开发者指南:源码路径/usr/local/bin/webui.py解析
BERT文本分割-中文-通用领域开发者指南:源码路径/usr/local/bin/webui.py解析 1. 项目简介 随着在线教学、远程会议等应用的普及,口语化文档的数量正在快速增长。这些文档通常以会议记录、讲座内容、采访稿等形式存在。但通过自动语音识别系统生成的文…...
新手必看:用Proteus仿真51单片机数字电压表,附完整代码和电路图
从零开始构建51单片机数字电压表:Proteus仿真全流程指南 引言:为什么选择仿真学习51单片机? 对于刚接触嵌入式开发的初学者来说,直接购买硬件设备可能存在成本高、调试困难等问题。Proteus仿真软件为我们提供了完美的解决方案——…...
艾法斯 IFR2948B 综合测试仪 Aeroflex 2948B IFR 2945B
艾法斯 IFR2948B 综合测试仪 Aeroflex 2948B IFR 2945B 2948B是2945B的低噪声型号,其射频源的相位噪声比2945B有了很大改善,可用于精确测量窄带接收机。重量轻便于携带及野外测试;全扫宽频谱分析仪--支持“Look&listen”模式;标准配置带支持频率偏移方式的跟踪发生器;支持高…...
5步搞定开源工具试用限制解除方案:设备标识符重置完整指南
5步搞定开源工具试用限制解除方案:设备标识符重置完整指南 【免费下载链接】go-cursor-help 解决Cursor在免费订阅期间出现以下提示的问题: Youve reached your trial request limit. / Too many free trial accounts used on this machine. Please upgrade to pro.…...
别再为电赛E题发愁了!用OpenMV+舵机云台搞定运动目标追踪的保姆级避坑指南
OpenMV舵机云台运动目标追踪实战:从硬件搭建到代码调试的全流程避坑指南 刚拿到电赛E题任务书时,看着"运动目标控制与自动追踪系统"这个标题,我和队友面面相觑——既要处理图像识别,又要协调舵机运动,这对毫…...
