当前位置：首页 > news >正文

【数据结构（邓俊辉）学习笔记】二叉树04——Huffman树

news 2026/2/8 21:27:05

文章目录

0. 概述
1. 无前缀冲突编码
2. 编码成本
3. 带权编码成本
4. 编码算法
5. 算法实现流程
6. 时间复杂度与改进方案

0. 概述

学习Huffman树。

1. 无前缀冲突编码

在这里插入图片描述
在加载到信道上之前，信息被转换为二进制形式的过程称作编码（encoding）；反之，经信道抵达目标后再由二进制编码恢复原始信息的过程称作解码（decoding）。

编码和解码的任务分别由发送方和接收方分别独立完成，故在开始通讯之前，双方应已经以某种形式，就编码规则达成过共同的约定或协议。

解码策略——前缀无歧义编码PFC(prefix-free code)：按顺序对信息比特流做子串匹配的策略，因此为消除匹配的歧义性，任何两个原始字符所对应的二进制编码串，相互都不得是前缀。
在这里插入图片描述
利用二叉编码树方法可解决消息解码歧义问题，可以使通讯双方交换信息，进行沟通。

2. 编码成本

接下来讨论新的问题——如何使编码更有效？ 首先来看如何对编码长度做“度量”。
在这里插入图片描述
字符x的编码长度|rps(x)|就是其对应叶节点的深度depth(v(x))。

上图都是对四个字符MAIN同一编码表的三种编码方式——左中右。它们的编码长度是不一样的，发送MAIN单词，左边占9bit，中间占8bit，右边占9bit，中间的编码长度相对较优，需要这么较劲吗？会影响到带宽、费用、成本和用户体验。

问题关键点——怎么才能编程最优编码方式呢？

通过观察不难得出，树结构越平衡越好——杜绝树中节点深度差过大（大于等于2）。再接着问，如何让树变的平衡呢？

结论：

最优二叉编码树必为真二叉树：内部节点的左、右孩子全双。
最优编码树中，叶节点位置的选取有严格限制——其深度之差不得超过1。

叶子只能出现在倒数两层内——否则，通过节点交换可以。

3. 带权编码成本

在这里插入图片描述
以上最优编码树算法的实际应用价值并不大，除非中各字符在文本串中出现的次数相等。因此需面对一个事实——词频差异很大，这种情况下，完全树未必就是最优编码树，如上图，应该从另一角度更为准确地衡量平均编码长度。

在这里插入图片描述
总结：让频率更高的字符放在树高处，让频率更低的字符放在树的低处。

4. 编码算法

在这里插入图片描述
结论：尽管贪心策略未必总能得到最优解，但非常幸运，如上算法的确能够得到最优编码树之一。

5. 算法实现流程

总体框架
最小超字符

在这里插入图片描述

构造编码表

6. 时间复杂度与改进方案

在这里插入图片描述

【数据结构（邓俊辉）学习笔记】二叉树04——Huffman树

文章目录

0. 概述

1. 无前缀冲突编码

2. 编码成本

3. 带权编码成本

4. 编码算法

5. 算法实现流程

6. 时间复杂度与改进方案

相关文章：

【数据结构（邓俊辉）学习笔记】二叉树04——Huffman树

arcgisPro将一个图层的要素复制到另一个图层

难兄难弟——Java中 goto 与 const关键字

如何优化大文件读取时的性能

【机器学习】Chameleon多模态模型探究

cv2.imdecode 和 cv2.imread 的区别

Android数据缓存框架 - 内存数据载体从LiveData到StateFlow

多态的好处

Java基础语法---Stringjoiner

大模型中的Tokenizer

Filebeat进阶指南：核心架构与功能组件的深度剖析

深度神经网络

c++【入门】你多大了

地质考察AR远程交互展示系统辅助老师日常授课

容器是什么

一分钟学习数据安全——数字身份的三种模式

WPF实现搜索文本高亮

Vue小程序项目知识积累（三）

React Native 之像素比例（十七）

Leetcode 112：路径总和

在软件开发中正确使用MySQL日期时间类型的深度解析

.Net框架，除了EF还有很多很多......

Java多线程实现之Callable接口深度解析

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

10-Oracle 23 ai Vector Search 概述和参数

HybridVLA——让单一LLM同时具备扩散和自回归动作预测能力：训练时既扩散也回归，但推理时则扩散

从零手写Java版本的LSM Tree （一）：LSM Tree 概述

前端工具库lodash与lodash-es区别详解

嵌入式面试常问问题

Axure零基础跟我学：展开与收回