当前位置: 首页 > article >正文

MySQL 如何正确实现“随机采样”

在开发英语学习或社交应用时随机展示单词或消息是一个高频需求。然而看似简单的“随机”逻辑如果实现方式不当会随着数据量的增长演变为系统瓶颈 。1. 性能陷阱order by rand()最直观的写法是select word from words order by rand() limit 3;。但在 MySQL 内部这条语句的代价极其沉重。执行逻辑解析创建临时表MySQL 会在内存中创建一个使用Memory引擎的临时表包含一个double类型的字段RRR存储随机数和一个word字段 。全表扫描生成随机数逐行读取words表调用rand()函数生成随机数并写入临时表。扫描行数10,000。临时表排序在sort_buffer中对随机数RRR进行排序。此时采用的是RowID 排序即只在内存中操作“随机值”和“行位置信息pos” 。对于Memory引擎pos 相当于数组下标 。取出结果排序完成后取出前 3 个位置信息回到临时表中取出word返回。结论总扫描行数为20,003次10,000 10,000 3 。如果数据量达到百万级这种“先生成随机数再排序”的方式会产生巨大的 CPU 和内存消耗。2. 排序优化优先队列算法如果limit的值较小MySQL 5.6 会采用优先队列算法来优化排序 。逻辑不需要对全表 10,000 条记录进行完整归并排序。MySQL 会在sort_buffer中维护一个最大堆堆顶始终是当前最大的随机值 。过程读取一行 (R, pos)如果 R 比堆顶小则替换堆顶并重新调整堆。优势只需遍历一遍数据即可得到最小的 3 个随机数避免了生成复杂的磁盘临时文件 。3. 两种高效的替代方案方案 A基于 ID 范围随机算法 1查询主键的最大值MMM和最小值NNN。在应用层计算随机 IDXfloor((M−N1)×rand()N)X \text{floor}((M-N1) \times \text{rand}() N)Xfloor((M−N1)×rand()N)。执行select * from t where id X limit 1;。注意如果 ID 存在大量“空洞”如删除过数据此方案会导致 ID 分布不均某些行被选中的概率更高 。方案 B基于偏移量随机算法 2查询总行数Ccount(*)C \text{count(*)}Ccount(*)。在应用层计算偏移量Yfloor(C×rand())Y \text{floor}(C \times \text{rand}())Yfloor(C×rand())。执行select * from t limit Y, 1;。结论此方案解决了概率不均问题 。虽然扫描行数为CY1C Y 1CY1次但由于不涉及临时表和排序性能远优于order by rand()。4. 终极优化方案 C排序偏移量法如果要随机取NNN条如 3 条记录且要求满足概率独立和极高性能方案 C 是最佳实践。优化思路如果直接执行 3 次独立查询总扫描行数高达C∑(Yn1)C \sum(Y_n 1)C∑(Yn​1)。为了减少扫描开销我们可以预计算在应用层生成 3 个随机偏移量Y1,Y2,Y3Y1, Y2, Y3Y1,Y2,Y3并按从小到大排序。单次扫描定位SQL 改写-- 伪代码逻辑-- 1. 获取第 Y1 行select*fromtlimitY1,1;-- 假设返回 ID_1-- 2. 基于 ID_1 获取第 Y2 行利用索引锚点select*fromtwhereidID_1limitY2-Y1-1,1;-- 3. 基于 ID_2 获取第 Y3 行select*fromtwhereidID_2limitY3-Y2-1,1;性能优势总扫描行数约等于Cmax⁡(Yn)1C \max(Y_n) 1Cmax(Yn​)1。原理利用了“延迟关联”的思想在获取第一个随机点后后续查找可以基于索引有序性进行增量扫描避免了从表头反复开始读取。

相关文章:

MySQL 如何正确实现“随机采样”

在开发英语学习或社交应用时,随机展示单词或消息是一个高频需求。然而,看似简单的“随机”逻辑,如果实现方式不当,会随着数据量的增长演变为系统瓶颈 。 1. 性能陷阱:order by rand() 最直观的写法是 select word from…...

英雄联盟智能助手League Akari:重新定义你的游戏体验边界

英雄联盟智能助手League Akari:重新定义你的游戏体验边界 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 在英雄联盟的竞技世界中&…...

OpenOCD实战:从源码编译到JTAG调试RISC-V平台

1. OpenOCD与RISC-V调试基础 第一次接触OpenOCD调试RISC-V芯片时,我对着开发板上的JTAG接口发了半天呆。作为嵌入式开发者,我们都经历过这种从零搭建调试环境的阵痛期。OpenOCD就像一位硬件调试的瑞士军刀,它能通过JTAG接口与各种处理器架构对…...

B站缓存视频终极转换指南:3分钟将m4s文件无损转为通用MP4格式

B站缓存视频终极转换指南:3分钟将m4s文件无损转为通用MP4格式 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的…...

Windows Cleaner终极指南:彻底告别C盘爆红的免费系统优化神器

Windows Cleaner终极指南:彻底告别C盘爆红的免费系统优化神器 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner Windows Cleaner是一款专为Windows系统设…...

绝区零自动化助手:5分钟掌握全自动游戏任务管理

绝区零自动化助手:5分钟掌握全自动游戏任务管理 【免费下载链接】ZenlessZoneZero-OneDragon 绝区零 一条龙 | 全自动 | 自动闪避 | 自动每日 | 自动空洞 | 支持手柄 项目地址: https://gitcode.com/gh_mirrors/ze/ZenlessZoneZero-OneDragon 绝区零一条龙是…...

终极指南:如何彻底解锁《原神》60帧限制?完整免费解决方案

终极指南:如何彻底解锁《原神》60帧限制?完整免费解决方案 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 你是一个文章写手,你负责为开源项目写专业易…...

如何用猫抓浏览器扩展轻松捕获在线视频资源?一个实用工具的全方位指南

如何用猫抓浏览器扩展轻松捕获在线视频资源?一个实用工具的全方位指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 当你在浏览器中观…...

我的世界手机版烦人的村民整合包下载基岩国际版2026最新版

在《我的世界》庞大的模组生态中,烦人的村民整合包(Annoying Villagers) 凭借颠覆性的 NPC 设定、硬核战斗机制与深度剧情互动,成为 Java 版最具影响力的高难度生存整合包之一。由 Pugilist_Steve 主导开发,最新 6.0 版…...

夜莺传说服务器联机开服教程

本教程转载莱卡云游戏服务器的莱卡云:夜莺传说开服教程【百度搜索莱卡云开服可搜到】1、购买后登录服务器在你的莱卡云账户左侧栏目中点击产品服务,再点游戏服务器,再选择你的服务器点击操作进入服务器产品详情页面后,先点重置密码…...

Hitboxer终极指南:3分钟解决游戏按键冲突,让你的键盘操作瞬间职业化

Hitboxer终极指南:3分钟解决游戏按键冲突,让你的键盘操作瞬间职业化 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 你是否在激烈的游戏对战中遇到过这样的困扰:明明同时按下…...

别再死记硬背了!用‘知识卡片+思维导图’法搞定离散数学里的命题、谓词与代数系统

知识卡片与思维导图:离散数学的高效学习革命 离散数学常被学生称为"天书"——命题逻辑的符号迷宫、谓词逻辑的量化陷阱、代数系统的抽象森林,每个概念都像一座孤岛。传统线性笔记法让这些知识点在脑海中如散沙般难以聚合,这正是大多…...

用LDAP Browser连接OpenLDAP时,这3个配置细节坑了我一整天

用LDAP Browser连接OpenLDAP时,这3个配置细节坑了我一整天 第一次用LDAP Browser连接OpenLDAP服务器时,我本以为照着教程五分钟就能搞定,结果硬是折腾了一整天。明明服务端已经正常启动,客户端工具也装好了,但就是连不…...

别再死记硬背了!用Python代码动画演示组合数11个核心性质(附完整源码)

用Python动画拆解组合数:11个核心性质的动态演绎 数学公式总是让人望而生畏?当组合数学遇上Python动画,抽象概念瞬间变得鲜活起来。这不是又一篇枯燥的公式推导文章,而是一场用代码演绎数学之美的视觉盛宴。我们将用matplotlib和…...

在飞腾FT-2000/4与麒麟V10上源码编译VLC:从依赖解析到播放验证的完整实践

1. 环境准备与依赖解析 在飞腾FT-2000/4处理器和麒麟V10系统上编译VLC,首先需要搭建合适的开发环境。我实测发现,麒麟V10自带的软件源有时无法满足所有依赖需求,需要手动补充配置。建议先执行以下基础命令更新系统: sudo yum up…...

企业上云选型:四家主流云厂商的硬指标对比

在数字化转型进入深水区的2026年,企业IT部门的任务已不再是简单的“资源扩容”,而是如何在保障业务连续性的前提下,实现安全免运维与成本控制的完美平衡。 针对官网、小程序等互联网业务,各大公有云厂商均有成熟方案。但当涉及到…...

YOLOv5 COCO数据集 实战训练全流程解析 | 【从零到一】

1. 环境准备:从零搭建YOLOv5训练环境 第一次接触YOLOv5时,我最头疼的就是环境配置。记得当时为了一个CUDA版本问题折腾了整整两天,现在回想起来其实只要按步骤来就能避免90%的坑。下面是我总结的最稳环境搭建方案: 首先确保你的机…...

别再硬算公式了!用Excel搞定STM32 NTC测温的ADC查表法(附完整表格)

用Excel玩转STM32 NTC测温:查表法实战指南 嵌入式开发中,温度测量是个永恒的话题。NTC热敏电阻因其成本低廉、响应迅速,成为工程师们的首选传感器。但每次项目都要重新推导温度计算公式,不仅耗时费力,还容易在数学转换…...

从 AI 电影到小说:《凰标》延续《第一大道》的东方梦@凤凰标志

科技为翼,文脉为魂; 大道开路,凰标定局。一、时代之问:当AI沦为流量收割机,谁来守护东方文脉? AI 正以惊人的速度渗透文娱产业,却多数被资本用作「快餐内容」的流水线。 海棠山铁哥反其道而行—…...

从一张‘正常’图片到服务器沦陷:文件包含漏洞如何让图片马‘活’过来?

从一张“正常”图片到服务器沦陷:揭秘文件包含漏洞的致命组合攻击 当你深夜检查服务器日志时,发现有人上传了一张普通的风景图。文件头校验通过,MIME类型正确,甚至预览也显示正常。但三天后,这张“图片”却成为攻击者控…...

如何突破百度网盘下载限速?这款开源工具让你重获高速下载自由

如何突破百度网盘下载限速?这款开源工具让你重获高速下载自由 【免费下载链接】baidupcs-web 项目地址: https://gitcode.com/gh_mirrors/ba/baidupcs-web 还在为百度网盘那令人绝望的下载速度而苦恼吗?当你看着进度条缓慢爬行,大文件…...

避开这些坑!用Vivado FIFO IP核做跨时钟域处理的5个实战细节

避开这些坑!用Vivado FIFO IP核做跨时钟域处理的5个实战细节 在FPGA设计中,跨时钟域(CDC)数据传输一直是工程师们面临的棘手问题。Xilinx Vivado提供的FIFO IP核因其稳定性和易用性,成为处理CDC问题的首选方案。然而&a…...

背包九讲(C++)

目录 背包问题 1.0/1背包 2.完全背包 3.多重背包 4.分组背包 5.混合背包问题 6.背包问题求具体方案 7.背包问题求方案数 8.二维费用的背包问题 9.有依赖的背包问题 背包问题 任何背包问题都有01背包的影子,甚至均可以化为01背包的问题(特殊性)&#xff0…...

2026年电力电缆品牌梳理多维度适配项目选型需求

随着双碳目标落地与电力基础设施完善,电力电缆作为电力传输的重要载体,市场需求持续释放,产品向高安全、长寿命、广适配方向发展。本文基于市场应用与企业实力,整理电力电缆品牌信息,助力项目合理选型。一、2026年电力…...

如何学习java?

目录 一. 初识Java 1. Java语⾔概述 1.1 Java是什么 1.2 什么是JavaSE?什么是JavaEE? JavaSE(JavaStandardEdition): JavaEE(JavaEnterprise Edition): 主要区别: 1.3 Java语⾔重要性 1.4 Java语⾔发展简史 1.5 Java语⾔特性 1.6 Java开发环境安装 1. …...

英雄联盟Akari助手:你的智能游戏伴侣完整指南,轻松提升游戏体验 [特殊字符]

英雄联盟Akari助手:你的智能游戏伴侣完整指南,轻松提升游戏体验 🚀 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolk…...

新加坡高校 Canvas 攻击事件影响评估与安全治理研究

摘要 2026 年 5 月发生的 Canvas 学习平台全球供应链攻击事件,对新加坡国立大学、新加坡社科大学、新加坡管理学院等高校造成服务中断与数据泄露风险,成为教育数字化场景下第三方平台安全风险的典型案例。本次攻击由 Shiny Hunters 组织实施,…...

基于ARP欺骗的中间人攻击的Python实现

摘要:本文在模拟网络攻击实验环境中,使用Python的scapy模块构造ARP数据包发送给目标机进行ARP欺骗,成功实施了中间人攻击,然后嗅探局域网内部网络流量,截取HTTP协议数据包进行解析,初步实现了在被攻击者浏览…...

Python face_recognition 库实战:从环境搭建到人脸特征点检测

1. 环境准备:搭建人脸识别的开发环境 第一次接触人脸识别开发时,最让人头疼的就是环境配置。记得我刚开始用face_recognition库时,光是安装依赖就折腾了大半天。后来才发现,其实只要掌握几个关键步骤,整个过程可以非常…...

审核员能力模型——冰山模型说人话版

📋 审核概论系列 第9篇/共10篇知识和技能不等于能力。认证审核员到底需要什么能力?麦克利兰冰山模型告诉你📊 真实场景:CCAA注册审核员考试通过率大约只有30%-40%。很多人专业知识学了不少,ISO 9001标准背得滚瓜烂熟&…...