当前位置: 首页 > news >正文

算法之美:堆排序原理剖析及应用案例分解实现

        这段时间持续更新关于“二叉树”的专栏文章,关心的小伙伴们对于二叉树的基本原理已经有了初步的了解。接下来,我将会更深入地探究二叉树的原理,并且展示如何将这些原理应用到更广泛的场景中去。文章将延续前面文章的风格,尽量精炼明了,减少冗长的废话,旨在简洁清晰地阐述二叉树的原理及其应用。让我们一起深入了解,并探索其潜在的价值吧!

什么是堆排序

        指利用堆这种数据结构所设计的一种排序算法,将二叉堆的数据进行排序,构建一个有序的序列。在这排序过程中,只需要个别【临时存储】空间,所以堆排序是原地排序算法,空间复杂度为O(1)。

本身大顶堆和小顶堆里面的元素是无序的,只是有一定的规则在里面:
        1)大顶堆,每个父节点的值都大于或等于其子节点的值,即根节点的值最大;
        2)小顶堆,每个父节点的值都小于或等于其子节点的值,即根节点的值最小;

堆排序流程

        把无序数组构建成二叉堆,建堆结束后,整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换(删除操作), 堆顶a[1]与最后一个元素a[n]交换,最大元素放到下标为n的位置, 末尾就为最大值。然后将剩余n-1个元素重新构造成一个堆(堆化操作),这样会得到n个元素的次小值
反复执行上述步骤,得到一个有序的数组。

综上所述,这个堆排序的过程其实可以直接分为建堆和排序两大步骤:
        1)【建堆】过程的时间复杂度为O(n),排序过程的时间复杂度为O(nlogn),所以 堆排序整体的时间复杂度为O(nlogn);
        2)【堆排序】不是稳定的算法,在排序的过程中,将堆最后一个节点跟堆顶节点互换,可能改变值相同数据的原始相对顺序;

堆排序动画演示:Heap Sort Visualization (usfca.edu)

堆排序实现

public class HeapSort {/*** 从小到大进行堆排序* @param source*/public static void sort(int[] source) {//步骤一:构建堆,数组下标0不存储数据int[] heap = new int[source.length + 1];//根据待排序数组,构造一个无序的堆System.arraycopy(source, 0, heap, 1, source.length);//对堆中的元素做下沉调整,从长度的一半处开始,往堆顶索引1处扫描)//二叉堆特性:数组索引一半后的都是叶子节点,不需要做下沉,一半前都是非叶子节点,才需要做for (int i = (heap.length) / 2; i > 0; i--) {down(heap, i, heap.length - 1);}System.out.println("大顶堆:"+Arrays.toString(heap));// 步骤二:堆排序}/*** 比较大小,item[left] 元素是否小于 item[right]的元素*/private static boolean rightBig(int[] heap, int left, int right) {return heap[left] < heap[right];}/*** 交互堆中两个元素的位置*/private static void swap(int[] heap, int i, int j) {int temp = heap[i];heap[i] = heap[j];heap[j] = temp;}/*** 使用下沉操作,堆顶和最后一个元素交换后,重新堆化* 不断比较 节点 arr[k]和对应 左节点arr[2*k] 和 右节点arr[2*k+1]的大小,如果当前结点小,则需要交换位置* 直到找到 最后一个索引节点比较完成  则结束* <p>* 数组中下标为 k 的节点* 左子节点下标为 2*k 的节点* 右子节点就是下标 为 2*k+1 的节点* 父节点就是下标为 k/2 取整的节点*/private static void down(int[] heap, int k, int range) {// 最后一个节点的下标是range,即元素总个数while (2 * k <= range) {//记录当前节点的左右子节点,较大的节点int maxIndex;if (2 * k + 1 <= range) {if (rightBig(heap, 2 * k, 2 * k + 1)) {maxIndex = 2 * k + 1;} else {maxIndex = 2 * k;}} else {maxIndex = 2 * k;}//比较当前节点和较大接的值,如果当前节点大则结束if (heap[k] > heap[maxIndex]) {break;} else {//否则往下一层比较,当前节点的k变为子节点中较大的值swap(heap, k, maxIndex);k = maxIndex;}}}/*** 从小到大进行堆排序* @param source*/public static void sort(int[] source) {//步骤一:构建堆,数组下标0不存储数据int[] heap = new int[source.length + 1];//根据待排序数组,构造一个无序的堆System.arraycopy(source, 0, heap, 1, source.length);//对堆中的元素做下沉调整,从长度的一半处开始,往堆顶索引1处扫描)//二叉堆特性:数组索引一半后的都是叶子节点,不需要做下沉,一半前都是非叶子节点,才需要做for (int i = (heap.length) / 2; i > 0; i--) {down(heap, i, heap.length - 1);}System.out.println("大顶堆:"+Arrays.toString(heap));// 步骤二:堆排序,把堆顶元素和数组最后一个索引元素交换;然后再堆化,然后堆顶又是最大元素,再和数组倒数第二索引处交换;持续进行直到最后// 类似删除操作,只需要下沉操作重新堆化即可//记录未排序的元素中最大的索引int maxUnSortIndex = heap.length - 1;//通过循环,交换堆顶元素和最大未排序元素的下标while (maxUnSortIndex != 1) {//交换元素swap(heap, 1, maxUnSortIndex);//排序后最大元素所在的索引,不要参与堆的下沉,所以 递减1maxUnSortIndex--;//继续对堆顶处的元素进行下沉调整down(heap, 1, maxUnSortIndex);}//把heap中的数据复制到原数组source中System.arraycopy(heap, 1, source, 0, source.length);}//Main入口public static void main(String[] args) {//待排序数组int[] arr = {923,23,12,4,9932,11,34,49,123,222,880};//堆排序HeapSort.sort(arr);//输出排序后数组中的元素System.out.println("堆排序:"+Arrays.toString(arr));}}

海量数据之堆应用TopK思想

        从一堆数据中选出前多少个最大或最小数

堆典型问题,思路方案:取大用小,取小用大

取最大的K个数用小顶堆,取最小的K个数用大顶堆;

取海量数据里面最小的K个数

        要找出数组中最小的k个数,就要【构造一个有k个元素的大顶堆】,大顶堆的堆顶元素值最大,比较堆顶的元素和扫描的元素,如果堆顶元素 < 扫描元素,继续扫描其他元素。如果堆顶元素 > 扫描元素 ,将堆顶元素出队,扫描元素插入大顶堆,将更小的元素换到堆中,反复根据上述步骤操作,直到比较完最后一个元素,此时堆里面的就是最小的k个数。

取海量数据里面最大的K个数

        要找出数组中最大的k个数,就要【构造一个有k个元素的小顶堆】,小顶堆的堆顶元素值最小,比较堆顶的元素和扫描的元素,如果堆顶元。

素 > 扫描元素,继续扫描其他元素。如果堆顶元素 < 扫描元素 ,将堆顶元素出队,扫描元素插入小顶堆,将更大的元素换到堆中,反复根据上述步骤操作,直到比较完最后一个元素,此时堆里面的就是最大的k个数。

实际应用及实现

问题

        如何100亿个数中找出最小的前k个数

问题分析

        100亿个数,一个数占四个字节,那么100亿个数就需要40G的存储空间:1G = 10亿字节,  100亿个int = 400亿字节 = 40G。使用普通的电脑和服务器肯定不可能把全部数据,不能创建一个具有100亿个数据的堆,而且使用常规加载进去,存储空间不够大,时间复杂度也是很大。

解决方案

        要找出数组中最小的k个数,就要【构造一个有k个元素的大顶堆】,大顶堆的堆顶元素值最大,比较堆顶的元素和扫描的元素,如果堆顶元素 < 扫描元素,继续扫描其他元素。如果堆顶元素 > 扫描元素 ,将堆顶元素出队,扫描元素插入大顶堆,将更小的元素换到堆中,反复根据上述步骤操作,直到比较完最后一个元素,此时堆里面的就是最小的k个数。

代码实现

public class MinTopKHeapSort {/*** 从小到大进行堆排序* @param source*/public static void sort(int[] source,int temp) {//步骤一:构建堆,数组下标0不存储数据int[] heap = new int[source.length + 1];//根据待排序数组,构造一个无序的堆System.arraycopy(source, 0, heap, 1, source.length);//对堆中的元素做下沉调整,从长度的一半处开始,往堆顶索引1处扫描)//二叉堆特性:数组索引一半后的都是叶子节点,不需要做下沉,一半前都是非叶子节点,才需要做for (int i = (heap.length) / 2; i > 0; i--) {down(heap, i, heap.length - 1);}System.out.println("大顶堆:"+Arrays.toString(heap)+", 新元素="+temp);// 循环将数组中剩余的数放入heap数组中,并进行堆排序,如果当前数小于Heap数组中的第一个数,则将当前数替换为第一个数if (temp < heap[1]) {heap[1] = temp;//重新堆化down(heap, 1, source.length-1);}System.arraycopy(heap, 1, source, 0, source.length);}/*** 比较大小,item[left] 元素是否小于 item[right]的元素*/private static boolean rightBig(int[] heap, int left, int right) {return heap[left] < heap[right];}/*** 交互堆中两个元素的位置*/private static void swap(int[] heap, int i, int j) {int temp = heap[i];heap[i] = heap[j];heap[j] = temp;}/*** 使用下沉操作,堆顶和最后一个元素交换后,重新堆化* 不断比较 节点 arr[k]和对应 左节点arr[2*k] 和 右节点arr[2*k+1]的大小,如果当前结点小,则需要交换位置* 直到找到 最后一个索引节点比较完成  则结束*/private static void down(int[] heap, int k, int range) {//当前节点存在左子树while (2 * i < length) {//此时j为左子树节点int j = 2 * i;//如果当前节点存在右子树,并且右子树的值大于左子树的值if (j < length && arr[j + 1] > arr[j]) {//此时j为右子树节点j = j + 1;}//比较当前节点值与其左右子树值的大小if (arr[i] > arr[j]) {break;} else {swap(arr, i, j);i = j;}}}public static void main(String[] args) {//随机数据int[] arr = {923,982,23,1000,1990,12,4,9932,11,34,49,123,1,222,880};// 定义一个长度为k的数组int top = 3;int[] heap = new int[top];// 循环将数组中的前k个数放入Heap数组中;   for (int i = 0; i < top; i++) {heap[i] = arr[i];}//循环将数组中剩余的数放入heap数组中,并进行堆排序for(int i = top; i < arr.length; i++){MinTopKHeapSort.sort(heap,arr[i]);}//输出排序后数组中的元素System.out.println("最小的 top k 数据:"+Arrays.toString(heap));}}

延申方案

        如果是百亿数据,只需要从文本中读取前k个出来,然后构建大顶堆,然后在从剩余的元素逐个读取比较即可

相关文章:

算法之美:堆排序原理剖析及应用案例分解实现

这段时间持续更新关于“二叉树”的专栏文章&#xff0c;关心的小伙伴们对于二叉树的基本原理已经有了初步的了解。接下来&#xff0c;我将会更深入地探究二叉树的原理&#xff0c;并且展示如何将这些原理应用到更广泛的场景中去。文章将延续前面文章的风格&#xff0c;尽量精炼…...

Net8 ABP VNext完美集成FreeSql、SqlSugar,实现聚合根增删改查,完全去掉EFCore

没有基础的&#xff0c;请参考上一篇 彩蛋到最后一张图里找 参考链接 结果直接上图&#xff0c;没有任何业务代码 启动后&#xff0c;已经有了基本的CRUD功能&#xff0c;还扩展了批量删除&#xff0c;与动态查询 动态查询截图&#xff0c;支持分页&#xff0c;排序 实现原理…...

yolov8直接调用zed相机实现三维测距(python)

yolov8直接调用zed相机实现三维测距&#xff08;python&#xff09; 1. 相关配置2. 版本一2.1 相关代码2.2 实验结果 3. 版本二3.1 相关代码3.2 实验结果 相关链接 此项目直接调用zed相机实现三维测距&#xff0c;无需标定&#xff0c;相关内容如下&#xff1a; 1.yolov5直接调…...

element跑马灯/轮播图,第一页隐藏左边按钮,最后一页隐藏右边按钮(vue 开箱即用)

图示&#xff1a; 第一步&#xff1a; <el-carousel :class"changeIndex0?leftBtnNone:changeIndeximgDataList.length-1? rightBtnNone:" height"546px" :autoplay"false" change"changeNext"><el-carousel-item v-for…...

下载及安装PHP,composer,phpstudy,thinkPHP6.0框架

文章目录 目录 文章目录 前言 一、下载PHP 二、下载composer 三、下载PHPstudy 四、下载think PHP 1.下载 2.多应用开发 前言 thinkPHP是一款开源的PHP框架&#xff0c;它是基于MVC&#xff08;Model-View-Controller&#xff09;设计模式构建的。thinkPHP提供了丰富的…...

volatile使用场景总结

volatile关键字在Java中用于确保变量的可见性以及防止指令重排序&#xff0c;特别是在没有使用锁定机制时对变量进行读写的多线程环境中。以下是需要使用volatile修饰的一些场景&#xff1a; 确保变量的可见性 当一个变量被多个线程访问&#xff0c;且至少有一个线程在写&…...

AcWing 1413. 矩形牛棚(每日一题)

原题链接&#xff1a;1413. 矩形牛棚 - AcWing题库 作为一个资本家&#xff0c;农夫约翰希望通过购买更多的奶牛来扩大他的牛奶业务。 因此&#xff0c;他需要找地方建立一个新的牛棚。 约翰购买了一大块土地&#xff0c;这个土地可以看作是一个 R 行&#xff08;编号 1∼R&…...

macOS Sonoma 14.4.1 (23E224) 正式版发布,ISO、IPSW、PKG 下载

macOS Sonoma 14.4.1 (23E224) 正式版发布&#xff0c;ISO、IPSW、PKG 下载 2024 年 3 月 26 日凌晨&#xff0c;macOS Sonoma 14.4.1 更新修复了一个可能导致连接到外部显示器的 USB 集线器无法被识别的问题。它还解决了可能导致 Java 应用程序意外退出的问题&#xff0c;并修…...

WPF使用外部字体,思源黑体,为例子

1.在工程中新建文件夹&#xff0c;命名为“Font"。 2.将下载好的字体文件复制到Font文件夹。 3.在工程中&#xff0c;加入静态资源 <Window.Resources><FontFamily x:Key"SYBold">/AnalyzeImage;Component/Font/#思源黑体 CN Bold</FontFamily…...

9、jenkins微服务持续集成(一)

文章目录 一、流程说明二、源码概述三、本地部署3.1 SpringCloud微服务部署本地运行微服务本地部署微服务3.2 静态Web前端部署四、Docker快速入门一、流程说明 Jenkins+Docker+SpringCloud持续集成流程说明 大致流程说明: 开发人员每天把代码提交到Gitlab代码仓库Jenkins从G…...

VOC(客户之声)赋能智能家居:打造个性化、交互式的未来生活体验

随着科技的飞速发展&#xff0c;智能家居已成为现代家庭不可或缺的一部分。然而&#xff0c;如何让智能家居更好地满足用户需求&#xff0c;提供更贴心、更智能的服务&#xff0c;一直是行业关注的焦点。在这个背景下&#xff0c;VOC&#xff08;客户之声&#xff09;作为一种用…...

时序预测 | Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测

时序预测 | Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测 目录 时序预测 | Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现GWO-BP灰狼算法优化BP神经网络时间序列预测&#xff08;完整源码和数据…...

node.js学习(2)

版权声明 以下文章为尚硅谷PDF资料&#xff0c;B站视频链接&#xff1a;【尚硅谷Node.js零基础视频教程&#xff0c;nodejs新手到高手】仅供个人学习交流使用。如涉及侵权问题&#xff0c;请立即与本人联系&#xff0c;本人将积极配合删除相关内容。感谢理解和支持&#xff0c;…...

【pytest】测试数据存储在 Excel 或 TXT 文件中,如何参数化

如果测试数据存储在 Excel 或 TXT 文件中&#xff0c;你可以使用外部库来读取这些数据&#xff0c;并将其转化为参数化测试所需的格式。下面我将分别展示如何从这两种文件中读取数据&#xff0c;并用于参数化测试。 从 Excel 文件中读取测试数据 你可以使用 pandas 库来读取 …...

ubuntu22.04@Jetson Orin Nano安装配置VNC服务端

ubuntu22.04Jetson Orin Nano安装&配置VNC服务端 1. 源由2. 环境3. VNC安装Step 1: update and install xserver-xorg-video-dummyStep 2: Create config for dummy virtual displayStep3: Add the following contents in xorg.conf.dummyStep 4: Update /etc/X11/xorg.con…...

面向对象特征二:继承

继承的概述 生活中的继承 财产继承&#xff1a; 绿化&#xff1a;前人栽树&#xff0c;后人乘凉 “绿水青山&#xff0c;就是金山银山” 样貌&#xff1a; 继承之外&#xff0c;是不是还可以"进化"&#xff1a; 继承有延续&#xff08;下一代延续上一代的基因、财…...

宝塔面板CentOS Stream 8 x86 下如何安装openlitespeed

宝塔自带的软件商店里如果没办法安装&#xff0c;那么我们可以通过指令来手动安装&#xff1a; 第一步&#xff1a; yum install epel-release Package epel-release-8-19.el8.noarch is already installed. Dependencies resolved. Nothing to do. Complete! 第二步&#…...

LeetCode 2952.需要添加的硬币的最小数量:贪心(排序)

【LetMeFly】2952.需要添加的硬币的最小数量&#xff1a;贪心&#xff08;排序&#xff09; 力扣题目链接&#xff1a;https://leetcode.cn/problems/minimum-number-of-coins-to-be-added/ 给你一个下标从 0 开始的整数数组 coins&#xff0c;表示可用的硬币的面值&#xff…...

基于SpringBoot + Vue实现的在线装修管理系统设计与实现+毕业论文

介绍 系统包含用户、装修队、管理员三个角色 管理员&#xff1a; 管理员管理&#xff1a;管理其他管理员的账号和权限&#xff0c;确保系统管理的层次化和安全性。 装修队管理&#xff1a;审核装修队的资质&#xff0c;管理装修队的人员信息&#xff0c;监控工程进度&#xff…...

阿里云安全产品简介,Web应用防火墙与云防火墙产品各自作用介绍

在阿里云的安全类云产品中&#xff0c;Web应用防火墙与云防火墙是用户比较关注的安全类云产品&#xff0c;二则在作用上并不是完全一样的&#xff0c;Web应用防火墙是一款网站Web应用安全的防护产品&#xff0c;云防火墙是一款公共云环境下的SaaS化防火墙&#xff0c;本文为大家…...

【Go】3、Go语言进阶与依赖管理

前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课&#xff0c;做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程&#xff0c;它的核心机制是 Goroutine 协程、Channel 通道&#xff0c;并基于CSP&#xff08;Communicating Sequential Processes&#xff0…...

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类&#xff1a;块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一&#xff0c;概述 1. 目的 将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本&#xff1a;2014.07&#xff1b; Kernel版本&#xff1a;Linux-3.10&#xff1b; 二&#xff0c;Uboot 1. sys_config.fex改动 使能uart3(TX:PH00 RX:PH01)&#xff0c;并让boo…...

蓝桥杯3498 01串的熵

问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798&#xff0c; 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

视频行为标注工具BehaviLabel(源码+使用介绍+Windows.Exe版本)

前言&#xff1a; 最近在做行为检测相关的模型&#xff0c;用的是时空图卷积网络&#xff08;STGCN&#xff09;&#xff0c;但原有kinetic-400数据集数据质量较低&#xff0c;需要进行细粒度的标注&#xff0c;同时粗略搜了下已有开源工具基本都集中于图像分割这块&#xff0c…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

A2A JS SDK 完整教程:快速入门指南

目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库&#xff…...

Qemu arm操作系统开发环境

使用qemu虚拟arm硬件比较合适。 步骤如下&#xff1a; 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载&#xff0c;下载地址&#xff1a;https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

django blank 与 null的区别

1.blank blank控制表单验证时是否允许字段为空 2.null null控制数据库层面是否为空 但是&#xff0c;要注意以下几点&#xff1a; Django的表单验证与null无关&#xff1a;null参数控制的是数据库层面字段是否可以为NULL&#xff0c;而blank参数控制的是Django表单验证时字…...

tauri项目,如何在rust端读取电脑环境变量

如果想在前端通过调用来获取环境变量的值&#xff0c;可以通过标准的依赖&#xff1a; std::env::var(name).ok() 想在前端通过调用来获取&#xff0c;可以写一个command函数&#xff1a; #[tauri::command] pub fn get_env_var(name: String) -> Result<String, Stri…...