当前位置: 首页 > news >正文

doris:HLL

HLL是用作模糊去重,在数据量大的情况性能优于 Count Distinct。HLL的导入需要结合hll_hash等函数来使用。更多文档参考HLL。

使用示例​

第 1 步:准备数据​

创建如下的 csv 文件:test_hll.csv

1001|koga
1002|nijg
1003|lojn
1004|lofn
1005|jfin
1006|kon
1007|nhga
1008|nfubg
1009|huang
1010|buag

第 2 步:在库中创建表​

CREATE TABLE testdb.test_hll(typ_id           BIGINT          NULL   COMMENT "ID",typ_name         VARCHAR(10)     NULL   COMMENT "NAME",pv               hll hll_union   NOT NULL   COMMENT "hll"
)
AGGREGATE KEY(typ_id,typ_name)
DISTRIBUTED BY HASH(typ_id) BUCKETS 10;

第 3 步:导入数据​

curl --location-trusted -u <doris_user>:<doris_password> \-H "column_separator:|" \-H "columns:typ_id,typ_name,pv=hll_hash(typ_id)" \-T test_hll.csv \-XPUT http://<fe_ip>:<fe_http_port>/api/testdb/test_hll/_stream_load

第 4 步:检查导入数据​

使用 hll_cardinality 进行查询:

mysql> select typ_id,typ_name,hll_cardinality(pv) from testdb.test_hll;
+--------+----------+---------------------+
| typ_id | typ_name | hll_cardinality(pv) |
+--------+----------+---------------------+
|   1010 | buag     |                   1 |
|   1002 | nijg     |                   1 |
|   1001 | koga     |                   1 |
|   1008 | nfubg    |                   1 |
|   1005 | jfin     |                   1 |
|   1009 | huang    |                   1 |
|   1004 | lofn     |                   1 |
|   1007 | nhga     |                   1 |
|   1003 | lojn     |                   1 |
|   1006 | kon      |                   1 |
+--------+----------+---------------------+
10 rows in set (0.06 sec)

相关文章:

doris:HLL

HLL是用作模糊去重&#xff0c;在数据量大的情况性能优于 Count Distinct。HLL的导入需要结合hll_hash等函数来使用。更多文档参考HLL。 使用示例​ 第 1 步&#xff1a;准备数据​ 创建如下的 csv 文件&#xff1a;test_hll.csv 1001|koga 1002|nijg 1003|lojn 1004|lofn …...

双层Git管理项目,github托管显示正常

双层Git管理项目&#xff0c;github托管显示正常 背景 在写React项目时&#xff0c;使用Next.js,该项目默认由git托管。但是我有在项目代码外层记笔记的习惯&#xff0c;我就在外层使用了git托管。 目录如下 code 层内也有.git 文件&#xff0c;对其托管。 我没太在意&…...

准备知识——旋转机械的频率和振动基础

旋转频率&#xff0c;也称为转速或旋转速率&#xff08;符号ν&#xff0c;小写希腊字母nu&#xff0c;也作n&#xff09;&#xff0c;是物体绕轴旋转的频率。其国际单位制单位是秒的倒数(s −1 )&#xff1b;其他常见测量单位包括赫兹(Hz)、每秒周期数(cps) 和每分钟转数(rpm)…...

知识库管理驱动企业知识流动与工作协同创新模式

内容概要 知识库管理在现代企业中扮演着至关重要的角色&#xff0c;其价值不仅体现在知识的积累&#xff0c;还在于通过优质的信息流动促进协作与创新。有效的知识库能够将分散的信息整合为有序、易于访问的资源&#xff0c;为员工提供实时支持&#xff0c;进而提升整体工作效…...

CMake常用命令指南(CMakeList.txt)

CMakeList从入门到精通的文章有很多不再赘述&#xff08; 此处附带一篇优秀的博文链接&#xff1a;一个简单例子&#xff0c;完全入门CMake语法与CMakeList编写 &#xff09;。 本文主要列举 CMake 中常用命令的详细说明、优缺点分析以及推荐做法&#xff0c;以更好地理解和灵…...

【回溯+剪枝】找出所有子集的异或总和再求和 全排列Ⅱ

文章目录 1863. 找出所有子集的异或总和再求和解题思路&#xff1a;子集问题解法&#xff08;回溯 剪枝&#xff09;47. 全排列 II解题思路&#xff1a;排序 回溯 剪枝 1863. 找出所有子集的异或总和再求和 1863. 找出所有子集的异或总和再求和 一个数组的 异或总和 定义为…...

中国技术突破对国际格局的多维影响与回应

链接地址&#xff1a; https://download.csdn.net/download/wanggang130532/90323798https://download.csdn.net/download/wanggang130532/90323798...

【漫话机器学习系列】068.网格搜索(GridSearch)

网格搜索&#xff08;Grid Search&#xff09; 网格搜索&#xff08;Grid Search&#xff09;是一种用于优化机器学习模型超参数的技术。它通过系统地遍历给定的参数组合&#xff0c;找出使模型性能达到最优的参数配置。 网格搜索的核心思想 定义参数网格 创建一个包含超参数值…...

元宇宙下的Facebook:虚拟现实与社交的结合

随着科技的不断进步&#xff0c;虚拟现实&#xff08;VR&#xff09;技术逐渐从科幻走入现实&#xff0c;成为人们探索未来社交方式的重要工具。在这一浪潮中&#xff0c;Facebook&#xff08;现为Meta&#xff09;作为全球领先的社交平台&#xff0c;正在积极布局虚拟现实和元…...

记忆力训练day08

写作头脑风暴训练 1 集体的头脑风暴&#xff1a; 2 一个人的头脑风暴 没事&#xff0c;你说老师我还没有摸到门道&#xff0c;你去做&#xff0c;做的时候你就会知道什么叫做头脑风暴。记住&#xff0c;不要用脑子就在感觉里面&#xff0c;你究竟想给人呈现一种什么样的文章&am…...

崇州市街子古镇正月初一繁华剪影

今天是蛇年正月初一&#xff0c;下午笔者步出家门&#xff0c;逛到了崇州市街子古镇井水街&#xff0c;想看看景象如何。结果看到的是车水马龙、人流如织&#xff0c;繁花似锦&#xff0c;热闹非凡&#xff0c;原来今天开始预订此地摆下的长街宴。心里高兴&#xff0c;便用手机…...

websocket webworker教程及应用

WebSocket 和 Web Workers 是两种不同的 Web 技术&#xff0c;分别用于实现实时通信和后台线程处理。以下是它们的简要教程&#xff1a; WebSocket 教程 1. 什么是 WebSocket&#xff1f; WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议。它允许服务器主动向客户端推…...

【后端】Flask

长期更新&#xff0c;建议关注收藏点赞&#xff01; 实例1 Jinja2 是 Flask 和 Django 使用的 模板引擎&#xff0c;它允许你在 HTML 中嵌入 Python 代码&#xff0c;以动态生成页面内容。Jinja2 语法类似于 Django 模板&#xff0c;并支持变量、条件判断、循环、过滤器等。 fr…...

【cran Archive R包的安装方式】

cran Archive R包的安装方式 添加链接描述 1.包被cran移除 2.包要求的R语言版本与你电脑上的版本不相符 ad archive包的网址或者是下载到工作目录下&#xff0c;ad等于文件名 install,packages(ad repos NULL)...

如何用matlab画一条蛇

文章目录 源代码运行结果代码说明结果 源代码 % 画蛇的代码 % 2025-01-28/Ver1 % 清空环境 clc; clear; close all;% 定义蛇的身体坐标 t linspace(0, 4*pi, 100); % 参数化变量 x t; % x坐标 y sin(t) 0.5 * sin(3*t); % y坐标&#xff0c;形成更复…...

Greenplum临时表未清除导致库龄过高处理

1.问题 Greenplum集群segment后台日志报错 2.回收库龄 master上执行 vacuumdb -F -d cxy vacuumdb -F -d template1 vacuumdb -F -d rptdb 3.回收完成后检查 仍然发现segment还是有库龄报警警告信息发出 4.检查 4.1 在master上检查库年龄 SELECT datname, datfrozen…...

【Linux】gdb——Linux调试器

gdb使用背景 程序的发布方式有两种&#xff0c;debug模式和release模式 Linux gcc/g出来的二进制程序&#xff0c;默认是release模式 要使用gdb调试&#xff0c;必须在源代码生成二进制程序的时候, 加上 -g 选项 gdb使用方法 首先进入gdb gdb test_glist显示代码 断点 b 行…...

C++ 中用于控制输出格式的操纵符——setw 、setfill、setprecision、fixed

目录 四种操纵符简要介绍 setprecision基本用法 setfill的基本用法 fixed的基本用法 setw基本用法 以下是一些常见的用法和示例&#xff1a; 1. 设置字段宽度和填充字符 2. 设置字段宽度和对齐方式 3. 设置字段宽度和精度 4. 设置字段宽度和填充字符&#xff0c;结合…...

C++ ——— 学习并使用 priority_queue 类

目录 何为 priority_queue 类 学习并使用 priority_queue 类 实例化一个 priority_queue 类对象 插入数据 遍历堆&#xff08;默认是大堆&#xff09; 通过改变实例化的模板参数修改为小堆 何为 priority_queue 类 priority_queue 类为 优先级队列&#xff0c;其本质就是…...

基础项目实战——3D赛车(c++)

目录 前言一、渲染引擎二、关闭事件三、梯形绘制四、轨道绘制五、边缘绘制六、草坪绘制七、前后移动八、左右移动​九、曲线轨道​十、课山坡轨道​十一、循环轨道​十二、背景展示​十三、引入速度​十四、物品绘制​十五、课数字路障​十六、分数展示​十七、重新生成​十八、…...

5000+明日方舟游戏素材库:解锁二次创作与游戏开发的完整资源解决方案

5000明日方舟游戏素材库&#xff1a;解锁二次创作与游戏开发的完整资源解决方案 【免费下载链接】ArknightsGameResource 明日方舟客户端素材 项目地址: https://gitcode.com/gh_mirrors/ar/ArknightsGameResource 您在二次创作时是否曾为素材不全而烦恼&#xff1f;开发…...

告别繁琐部署:VS2022一站式打包WinForm应用为独立安装包

1. 为什么需要一站式打包WinForm应用&#xff1f; 每次开发完WinForm应用后&#xff0c;最头疼的就是怎么把程序交给用户使用。直接发个Debug文件夹&#xff1f;用户可能会遇到各种问题&#xff1a;缺少.NET运行环境、依赖的DLL文件丢失、注册表没配置...作为开发者&#xff0c…...

基于MCP协议构建本地AI短信分析工具:mac_messages_mcp项目详解

1. 项目概述&#xff1a;一个让AI“读懂”你Mac短信的桥梁如果你正在折腾AI智能体&#xff0c;尤其是那些能帮你处理日常信息的自动化工具&#xff0c;你可能会遇到一个核心痛点&#xff1a;如何让AI安全、便捷地访问你设备上的原生应用数据&#xff1f;比如&#xff0c;Mac上的…...

如何在Linux上快速配置开源打印机驱动:foo2zjs完整实用指南

如何在Linux上快速配置开源打印机驱动&#xff1a;foo2zjs完整实用指南 【免费下载链接】foo2zjs A linux printer driver for QPDL protocol - copy of http://foo2zjs.rkkda.com/ 项目地址: https://gitcode.com/gh_mirrors/fo/foo2zjs 在Linux系统中遇到打印机兼容性…...

信息量模型避坑指南:搞懂这3个关键点,你的地质灾害评价结果才靠谱

信息量模型避坑指南&#xff1a;搞懂这3个关键点&#xff0c;你的地质灾害评价结果才靠谱 在地质灾害易发性评价领域&#xff0c;信息量模型因其计算简单、结果直观而广受欢迎。然而&#xff0c;许多GIS从业者和科研人员在应用该模型时&#xff0c;常常陷入"流程正确但结果…...

避坑指南:R语言做交互效应分析时,你的p for Interaction算对了吗?

R语言交互效应分析&#xff1a;如何避免p值计算中的常见陷阱 在医学统计与流行病学研究中&#xff0c;交互效应分析是探索变量间复杂关系的重要工具。许多研究者在使用R语言进行逻辑回归分析时&#xff0c;常常对交互项的p值计算结果产生疑虑——这个关键指标是否真的反映了变量…...

AI智能体通信基站:统一HTTP请求管理,提升开发效率与稳定性

1. 项目概述&#xff1a;一个为AI智能体构建的“通信基站”如果你正在开发一个AI智能体&#xff08;Agent&#xff09;&#xff0c;并且需要让它与各种外部服务&#xff08;比如OpenAI、Anthropic的Claude&#xff0c;或者任何自定义的HTTP API&#xff09;进行对话&#xff0c…...

Airbyte线程管理:10个提升数据同步效率的并发处理优化技巧

Airbyte线程管理&#xff1a;10个提升数据同步效率的并发处理优化技巧 【免费下载链接】airbyte Open-source data movement for ELT pipelines and AI agents — from APIs, databases & files to warehouses, lakes, and AI applications. Both self-hosted and Cloud. …...

3步免费解锁WeMod完整功能:WandEnhancer终极使用指南

3步免费解锁WeMod完整功能&#xff1a;WandEnhancer终极使用指南 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod的高级功能付费而烦恼吗&am…...

构建跨平台桌面自动化命令行技能集:从原理到Python实现

1. 项目概述&#xff1a;一个桌面操作员的命令行技能集 最近在整理自己的自动化工具箱时&#xff0c;我重新审视了一个名为 cua_desktop_operator_cli_skill 的项目。这个名字听起来有点长&#xff0c;但拆解一下就能明白它的核心价值&#xff1a;“CUA”通常指代一种通用的用…...