当前位置: 首页 > news >正文

BitMap 和 HyperLogLog

目录

BitMap

常用命令

应用场景

日活统计

用户签到

HyperLogLog

什么是基数?

常用命令

应用场景


BitMap

问: "有10亿个不重复的无序的正数,如果快速排序?"

这看上去很简单,就是一个排序而已,但是大部分排序算法都需要把数据放到内存里面操作,这10亿个数字得占用多少内存?

在大部分编程语言里面,int类型一般的都是占4个byte,也是32位,不管这个数字是1 或者是 21亿都得占32位,所以如果现在有10亿数字需要存放在内存里面,需要多少内存呢?

以Java为例,1000000000 * 4 / 1024 / 1024 = 3814.69MB,大概需要3814.69MB内存!

假如有 1,3,7,2,5 这5个数字需要存放,正常情况下你需要5*4=20byte,但bitmap只需要1byte,即桶排的思想。

setbit的大小在0到2的32次方(最大使用512M内存)之间,即0~4294967296(42亿)之间。

常用命令

bitmap主要就三个操作命令:

  • setbit(设置标记)
  • getbit(即 getbit key index ,如果返回1,表示存在否则不存在)
  • bitcount(即 bitcount key ,统计和)

应用场景

日活统计

统计应用或网站的日活,这个属于比较常见的case了,如果是用redis来做这个事情,首先我们最容易想到的是Hash结构,存储如下:

  • 日期(key,如“2024-03-17”)userId(field,如“134”)true(value)
  • 判断日活则是统计map的元素个数

以上设计其实没什么问题,但如果日活量很高的话,会造成大Key问题(这里Value会很大),我们看一下bitmap可以怎么做

  • setbit 日期 uesrId 1
  • bitcount 日期

简单对比一下上面两种方案

当数据量小时,且userid分布不均匀,小的为个位数,大的几千万,上亿这种,使用bitmap就有点亏了,因为userId作为index,那么bitmap的长度就需要能容纳最大的userId,但是实际日活又很小,说明bitmap中间有大量的空白数据。

反之当数据量很大时,比如百万/千万,userId是连续递增的场景下,bitmap的优势有两点:

  1. 存储开销小
  2. 统计总数快

用户签到

  • setbit 用户id+年月 dayofmonth 1
  • bitcount 用户id+年月

HyperLogLog

  • HyperLogLog是用来做基数统计的算法,不是集合,不会保存元数据,只记录数量而不是数值。
  • HyperLogLog的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定的、并且是很小的。
  • 在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。
  • 基数估计的结果是一个带有 0.81% 标准错误(standard error)的近似值。是可接受的范围。

什么是基数?

比如数据集(1,3,5,7,5,7,8}, 那么这个数据集的基数集为{1,3,5 ,7,8},基数(不重复元素)为5。基数估计就是在误差可接受的范围内,快速计算基数。

常用命令

  • PFADD key element [element ...]:添加指定元素到 HyperLogLog 中
  • PFCOUNT key [key ...]:返回给定 HyperLogLog 的基数估算值
  • PFMERGE destkey sourcekey [sourcekey ...〕:将多个 HyperLogLog 合并为一个 HyperLogLog

应用场景

说明:有局限性,就是只能统计基数数量,而没办法去知道具体的内容是什么

一般使用:

  • 统计注册 IP 数
  • 统计每日访问 IP 数
  • 统计页面实时 UV 数
  • 统计在线用户数
  • 统计用户每天搜索不同词条的个数

相关文章:

BitMap 和 HyperLogLog

目录 BitMap 常用命令 应用场景 日活统计 用户签到 HyperLogLog 什么是基数? 常用命令 应用场景 BitMap 问: "有10亿个不重复的无序的正数,如果快速排序?" 这看上去很简单,就是一个排序而已,但是大部分排序算…...

德人合科技 | 公司办公终端、电脑文件资料 \ 数据透明加密防泄密管理软件系统

天锐绿盾是一款全面的企业级数据安全解决方案,它专注于为企业办公终端、电脑文件资料提供数据透明加密防泄密管理。 首页 德人合科技——www.drhchina.com 这款软件系统的主要功能特点包括: 1. **透明加密技术**: 天锐绿盾采用了透明加密技…...

0基础 三个月掌握C语言(11)

字符函数和字符串函数 为了方便操作字符和字符串 C语言标准库中提供了一系列库函数 接下来我们学习一下这些函数 字符分类函数 C语言提供了一系列用于字符分类的函数,这些函数定义在ctype.h头文件中。这些函数通常用于检查字符是否属于特定的类别,例如…...

【Linux】基础 IO(文件描述符)-- 详解

一、前言 1、文件的宏观理解 文件在哪呢? 从广义上理解,键盘、显示器、网卡、声卡、显卡、磁盘等几乎所有的外设都可以称之为文件,因为 “Linux 下,一切皆文件”。 从狭义上的理解,文件在磁盘(硬件&#…...

如何降低云计算成本?

降低云计算成本的方法有很多,以下是一些关键的策略和建议: 优化资源使用: 自动缩放:根据工作负载的需求自动调整计算资源的大小。对于不需要大量扩展的低优先级工作负载,可以设置性能限制,并在适当的情况下…...

C# 打开文件对话框(OpenFileDialog)

OpenFileDialog&#xff1a;可以打开指定后缀名的文件&#xff0c;既能单个打开文件也能批量打开文件 /// <summary>/// 批量打开文档/// 引用&#xff1a;System.Window.Fomrs.OpenFileDialog/// </summary>public void OpenFile(){OpenFileDialog dialog new Op…...

《LeetCode热题100》笔记题解思路技巧优化_Part_3

《LeetCode热题100》笔记&题解&思路&技巧&优化_Part_3 &#x1f60d;&#x1f60d;&#x1f60d; 相知&#x1f64c;&#x1f64c;&#x1f64c; 相识&#x1f622;&#x1f622;&#x1f622; 开始刷题链表&#x1f7e2;1. 相交链表&#x1f7e2;2. 反转链表&…...

Rocket MQ 从入门到实践

为什么要使用消息队列&#xff0c;解决什么问题&#xff1f;&#xff08;消峰、解藕、异步&#xff09; 消峰填谷 客户端》 网关 〉 消息队列》秒杀服务 异步解耦 消息队列中的重要概念理解。&#xff08;主题、消费组、队列&#xff0c;游标&#xff1f;&#xff09; 主题&…...

Vue中的Vnode虚拟Dom一文详解

VNode 是什么&#xff1f; VNode 是 Virtual Node 的缩写&#xff0c;它是 Vue.js 中用来描述真实 DOM 节点的对象。在 Vue 中&#xff0c;每个组件都会被渲染成一个 VNode 树&#xff0c;然后由虚拟 DOM 算法&#xff08;Virtual DOM Algorithm&#xff09;将其转化为真实的 …...

请求头content-type的类型有什么?

"Content-Type" 是 HTTP 请求头中的一个字段&#xff0c;用于指示发送给接收方的实体正文的媒体类型。常见的 "Content-Type" 类型包括但不限于以下几种&#xff1a; application/json&#xff1a; 用于指示请求或响应中的实体正文是 JSON 格式的数据。 ap…...

Javascript抓取京东、淘宝商品数据(商品采集商品详情图片抓取)

之前用的方法&#xff1a; let temp []var lists $(#J_goodsList li.gl-item)$.each(lists,function(idx,item){ temp.push({ id:$(item).data(sku), goods_img:$(item).find(img).attr(src), goods_name:$(item).find(.p-name em).text(), market_price:$(item).fi…...

Oracle 部署及基础使用

1. Oracle 简介 Oracle Database&#xff0c;又名 Oracle RDBMS&#xff0c;简称 Oracle Oracle系统&#xff0c;即是以Oracle关系数据库为数据存储和管理作为构架基础&#xff0c;构建出的数据库管理系统。是目前最流行的客户/服务器&#xff08;client/server&#xff09;或…...

ROS 语音交互(二)nlp

目录 背景&#xff1a; 一、模型选择 二、操作流程 三、核心代码展示 背景&#xff1a; 成功设置自己的知识库&#xff0c;语音交互问答会优先选择自己的知识库的答案进行回答&#xff0c;减少了耗时 一、模型选择 商汤 商量日日新 二、操作流程 文档中心 | 日日新开放…...

智慧公厕建设的主要目标是什么?

随着城市化进程的不断推进&#xff0c;公共厕所作为城市基础设施的重要组成部分&#xff0c;也变得越来越重要。为了提升公共厕所的管理水平、提供更好的服务质量&#xff0c;智慧公厕应运而生。智慧公厕的建设旨在通过信息化手段实现公共厕所的全面感知监测&#xff0c;实现公…...

常用芯片学习——BME280芯片

BME280 温湿度气压传感器 芯片介绍 BME280是基于成熟传感原理的组合数字湿度、压力和温度传感器。该传感器块采用极为紧凑的金属盖LGA封装&#xff0c;占地面积仅为2.5x2.5mm2&#xff0c;高度为0.93mm。该传感器提供I2C以及SPI接口。它的小尺寸和低功耗允许在电池驱动的设备…...

QT 状态机的使用

QT 状态机的使用场景&#xff1a; QT 状态机适用于需要管理复杂状态和状态转换的场景&#xff0c;例如游戏开发、UI界面控制、自动化控制系统等。它可以帮助组织和管理程序中的各种状态&#xff0c;并定义状态之间的转换规则&#xff0c;使程序逻辑清晰、易于维护。 QT 状态机…...

走进volatile的世界,探索它与可见性,有序性,原子性之间的爱恨情仇!

写在开头 在之前的几篇博文中&#xff0c;我们都提到了 volatile 关键字&#xff0c;这个单词中文释义为&#xff1a;不稳定的&#xff0c;易挥发的&#xff0c;在Java中代表变量修饰符&#xff0c;用来修饰会被不同线程访问和修改的变量&#xff0c;对于方法&#xff0c;代码…...

python从入门到精通(十五):python爬虫完整学习大纲

一、基础知识 爬虫的基本概念和工作原理。 HTTP 协议和网页结构。 Python 爬虫开发的基础库&#xff0c;如 requests、BeautifulSoup 等。 常见的反爬虫机制和应对方法。 二、爬虫逆向的技术 代理服务器和 IP 封锁突破。 用户代理和请求头模拟。 JavaScript 解析和执行。 验证码…...

为什么JDK8.0 之后允许接口定义静态方法和默认方法呢?

为什么JDK8.0 之后允许接口定义静态方法和默认方法呢&#xff1f; 因为它违反了接口作为一个抽象标准定义的概念。** 静态方法&#xff1a;因为之前的标准类库设计中&#xff0c;有很多Collection/Colletions或者Path/Paths这样成对的接口和类&#xff0c;后面的类中都是静态…...

如何通过生成式AI增强人类的创造力

如何通过生成式AI增强人类的创造力 概述&#xff1a; 生成式AI&#xff08;人工智能&#xff09;&#xff0c;能创建新的文本、图像和视频内容&#xff0c;不仅仍有成为取代许多工作岗位的潜力&#xff0c;但其最大的机遇在于增强人类创造力&#xff0c;助力商业和政府克服创新…...

【Veo 2提示词SOP白皮书】:从模糊意图到像素级输出的8步标准化工作流(附NASA级测试用例库)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Veo 2提示词工程的本质与范式跃迁 Veo 2并非单纯升级的视频生成模型&#xff0c;而是一次提示词工程范式的根本性重构——它将传统“指令式提示”&#xff08;prompt-as-command&#xff09;转向“意图…...

保姆级教程:手把手教你为ESXi 6.7配置主板BIOS(VT-x/VT-d/AES全开)

从零开始&#xff1a;ESXi 6.7主板BIOS设置完全指南当你第一次接触企业级虚拟化平台时&#xff0c;那种既兴奋又忐忑的心情我完全理解。作为过来人&#xff0c;我清楚地记得自己第一次为ESXi配置BIOS时的迷茫——那些专业术语像天书一样&#xff0c;生怕设置错误导致服务器无法…...

无声输入革命:如何用Chaplin在5分钟内构建本地唇语识别系统

无声输入革命&#xff1a;如何用Chaplin在5分钟内构建本地唇语识别系统 【免费下载链接】chaplin A real-time silent speech recognition tool. 项目地址: https://gitcode.com/gh_mirrors/chapl/chaplin 在嘈杂的办公室、安静的图书馆&#xff0c;或是需要绝对隐私的医…...

ImageSearch:基于.NET 10的本地硬盘千万级图库以图搜图工具完全指南

ImageSearch&#xff1a;基于.NET 10的本地硬盘千万级图库以图搜图工具完全指南 【免费下载链接】ImageSearch 基于.NET10的本地硬盘千万级图库以图搜图案例Demo和图片exif信息移除小工具分享 项目地址: https://gitcode.com/gh_mirrors/im/ImageSearch ImageSearch是一…...

PyKafka社区贡献指南:从问题报告到代码提交的完整流程

PyKafka社区贡献指南&#xff1a;从问题报告到代码提交的完整流程 【免费下载链接】pykafka Apache Kafka client for Python; high-level & low-level consumer/producer, with great performance. 项目地址: https://gitcode.com/gh_mirrors/py/pykafka 想要为PyK…...

Arduino打地鼠游戏机:从74HC595矩阵驱动到状态机编程全解析

1. 项目概述&#xff1a;用Arduino复刻经典打地鼠游戏作为一个电子爱好者&#xff0c;我总想把手头的Arduino和各种元器件玩出点新花样。这次&#xff0c;我决定挑战一个经典街机项目——电子打地鼠。市面上虽然有现成的玩具&#xff0c;但自己从头设计、画板、编程&#xff0c…...

不止是移动:用UE5.1蓝图优化你的MetaHuman性能(头发渲染、LOD设置避坑指南)

不止是移动&#xff1a;用UE5.1蓝图优化你的MetaHuman性能&#xff08;头发渲染、LOD设置避坑指南&#xff09;在虚幻引擎5.1中&#xff0c;MetaHuman已经成为了数字人创作的重要工具。然而&#xff0c;许多开发者在实现了基础移动控制后&#xff0c;往往会忽视对MetaHuman资产…...

量子计算中的随机基准测试与Grover算法实现

1. 量子计算中的随机基准测试原理与应用随机基准测试(Randomized Benchmarking, RB)是量子计算领域评估量子门操作保真度的黄金标准方法。与传统直接测量单个量子门误差不同&#xff0c;RB通过随机量子门序列的统计特性来提取平均门保真度&#xff0c;这种方法对状态制备和测量…...

别再只用JSON了!用Protobuf给Go微服务接口性能提升10倍(附完整代码)

别再只用JSON了&#xff01;用Protobuf给Go微服务接口性能提升10倍&#xff08;附完整代码&#xff09; 在微服务架构中&#xff0c;接口性能往往是决定系统吞吐量的关键因素。许多开发者习惯性地使用JSON作为数据交换格式&#xff0c;却不知道这可能在无形中成为性能瓶颈。本…...

18分钟攻陷GitHub!Nx Console投毒事件深度复盘:3800个核心仓库泄露的供应链安全警示

摘要&#xff1a;2026年5月20日&#xff0c;全球最大代码托管平台GitHub遭遇史上最严重的供应链攻击之一。黑客组织TeamPCP通过投毒VS Code扩展市场中的Nx Console v18.95.0版本&#xff0c;仅用18分钟、28次下载就成功渗透GitHub内部网络&#xff0c;窃取了包括Copilot、CodeQ…...