嵌入式分析利器:DuckDB与SqlSugar实战
一、DuckDB 的核心特性与适用场景
DuckDB 是一款 嵌入式分析型数据库(OLAP) ,专为高效查询设计,主要特点包括:
- 列式存储与向量化引擎
- 数据按列存储,提升聚合统计效率(如 SUM/AVG),减少 I/O 开销 。
- 向量化处理支持批量数据操作,显著加速分析查询 。
- 轻量级与嵌入式部署
- 无需独立服务器,以单文件(如 train_services.db)形式运行,类似 SQLite 。
- 跨平台支持(Windows/Linux/macOS),压缩后仅约 8MB 。
- 兼容性与扩展性
- 支持标准 SQL 语法 ,兼容 Pandas/R/Python 等工具 。
- 可直接读取 CSV、JSON、Parquet 等文件,支持远程文件(HTTP/S3)。
- 适用场景
- 实时数据分析、本地数据科学计算、嵌入式应用(如 IoT 设备)。
- 替代传统 OLAP 的轻量级解决方案,降低部署成本 。
二、SqlSugar 集成 DuckDB 的步骤
- 环境准备
安装 NuGet 包:
Install-Package SqlSugarCore
Install-Package SqlSugar.DuckDBCore
- 初始化数据库连接
// 注册 DuckDB DLL(避免运行时缺失)
InstanceFactory.CustomAssemblies = new[] {typeof(SqlSugar.DuckDB.DuckDBProvider).Assembly
};var db = new SqlSugarClient(new ConnectionConfig() {DbType = DbType.DuckDB, // 指定数据库类型ConnectionString = "DataSource=train_services.db", // 数据库文件路径IsAutoCloseConnection = true, // 自动释放连接LanguageType = LanguageType.Default // 语言类型
}, it => {// SQL 日志输出(调试用)it.Aop.OnLogExecuting = (sql, para) => {Console.WriteLine(UtilMethods.GetNativeSql(sql, para));};
});
关键参数解析:
- ConnectionString:支持内存模式(:memory:)或文件路径 。
- IsAutoCloseConnection=true:避免手动管理连接生命周期 。
- DLL 注册必要性:DuckDB 依赖原生库,需显式加载程序集防止运行时错误 。
三、CodeFirst 初始化表结构
通过实体类映射自动创建表:
// 创建数据库(若不存在)
db.DbMaintenance.CreateDatabase(); // 根据实体类生成表
db.CodeFirst.InitTables<UserInfo001>(); // 差异处理:当实体类与表结构不一致时
db.CodeFirst.InitTables<UserInfo002>();
实体类定义规范:
[SugarTable("UserInfo001")] // 指定表名
public class UserInfo001 {[SugarColumn(IsPrimaryKey = true, IsIdentity = true)] // 主键且自增public int UserId { get; set; }[SugarColumn(Length = 50)] // 字段长度限制public string UserName { get; set; }public string Email { get; set; }public decimal Price { get; set; }public DateTime RegistrationDate { get; set; }
}
注意事项:
- InitTables 自动同步实体属性与表字段 。
- 字段差异处理:通过 [SugarColumn] 配置数据类型、长度、主键等 。
四、CRUD 操作实现
- 插入数据
var id = db.Insertable(new UserInfo001() {UserName = "admin",Email = "dfafa@qq.com",Price = 1.1m,Context = "Context",RegistrationDate = DateTime.Now
}).ExecuteReturnIdentity(); // 返回自增主键值
- 查询数据
// 按主键查询
var userInfo = db.Queryable<UserInfo001>().InSingle(id); // 条件查询
var list = db.Queryable<UserInfo001>().Where(u => u.Price > 10).ToList();
- 更新数据
userInfo.Email = "updated@qq.com";
db.Updateable(userInfo).ExecuteCommand();
- 删除数据
db.Deleteable<UserInfo001>().Where(u => u.UserId == id).ExecuteCommand();
性能优化:
- 批量操作使用 db.Fastest().BulkCopy() 提升海量数据写入效率 。
- DuckDB 的向量化引擎加速复杂查询 。
五、常见问题解决方案
- DLL 加载失败
- 使用工具(如金山毒霸 DLL 修复)自动修复 。
- 手动注册:regsvr32 “C:\Path\To\SqlSugar.dll”(管理员权限)。
- 表结构同步异常
- 检查实体类属性与数据库类型的匹配(如 decimal 对应 DECIMAL)。
- 通过 db.Ado.GetDataTable(“SELECT …”) 验证表结构 。
- 连接配置错误
- 确保 DbType = DbType.DuckDB,文件路径权限正确 。
- 内存模式路径设为 “:memory:” 。
六、最佳实践建议
- 适用场景选择
- DuckDB 适合 本地分析型任务(如数据清洗、报表生成),高并发事务场景建议用 SQLite/MySQL。
- 性能调优
- 启用 DuckDB 的 列式压缩 减少存储 。
- 使用 db.Ado.CommandTimeOut=30 设置查询超时 。
- 扩展性
- 通过 MotherDuck 扩展至云端,实现混合查询 。
- 集成 Apache Arrow 实现零拷贝数据交换 。
相关文章:
嵌入式分析利器:DuckDB与SqlSugar实战
一、DuckDB 的核心特性与适用场景 DuckDB 是一款 嵌入式分析型数据库(OLAP) ,专为高效查询设计,主要特点包括: 列式存储与向量化引擎 数据按列存储,提升聚合统计效率(如 SUM/AVG…...
嵌入式学习笔记 - freeRTOS任务设计要点
一 中断函数中不允许操作任务 因为中断函数使用的上下文环境是MSP环境,而非PSP环境,不允许挂起任务,不允许阻塞任务的任何操作。 可以使用FromISR函数进行操作。 二 中断的频率与处理时间 中断的处理时间要远低于任务的运行时间ÿ…...

Linux运维笔记:1010实验室电脑资源规范使用指南
文章目录 一. 检查资源使用情况,避免冲突1. 检查在线用户2. 检查 CPU 使用情况3. 检查 GPU 使用情况4. 协作建议 二. 备份重要文件和数据三. 定期清理硬盘空间四. 退出 ThinLinc 时注销,释放内存五. 校外使用时配置 VPN注意事项 总结 实验室的电脑配备了…...

12:点云处理—调平,角度,平面度,高度,体积
1.调平 2.夹角、平面度 3.高度、体积...
Marketo 集成 8x8 Connect 短信 API 指南
一、🔍 项目背景与目标 在营销自动化流程中,需要在用户完成特定行为(如填写表单、完成注册)后,自动发送一条短信进行提醒、欢迎或验证。 Marketo 原生不具备短信发送能力,但支持通过 Webhook 集成第三方 A…...

【Docker 从入门到实战全攻略(二):核心概念 + 命令详解 + 部署案例】
5. Docker Compose Docker Compose 是一个用于定义和运行多容器 Docker 应用的工具。通过一个 YAML 文件来配置应用服务,然后使用一个命令即可创建并启动所有服务。 基本命令 docker-compose up # 创建并启动所有服务 docker-compose down # 停止并移除容器、网络等…...
Elasticsearch索引(Index)介绍,它与数据库中的表有什么区别?
在Elasticsearch(ES)中,索引(Index)是存储和组织文档(Document)的逻辑容器,类似于关系型数据库(如MySQL)中的“数据库(Database)”或“表(Table)”,但设计理念和实现机制有显著差异。以下从定义、核心特性、与数据库表的对比三方面详细解析。 一、索引的定义与…...
Elasticsearch中什么是分析器(Analyzer)?它由哪些组件组成?
在Elasticsearch(ES)中,分析器(Analyzer)是处理文本的核心组件,负责将原始文本转换为适合索引和搜索的词项(Term)。它直接影响搜索的准确性和性能,是构建高效搜索系统的关键。 一、分析器的核心作用 1. 分词(Tokenization):将文本拆分为独立的词(Token)。 例如…...
使用 SseEmitter 实现 Spring Boot 后端的流式传输和前端的数据接收
1.普通文本消息的发送和接收 GetMapping("/stream")public SseEmitter streamResponse() {SseEmitter emitter new SseEmitter(0L); // 0L 表示永不超时Executors.newSingleThreadExecutor().execute(() -> {try {for (int i 1; i < 5; i) {emitter.send(&q…...
.net Avalonia 在centos部署
.NET Avalonia 在 CentOS 部署指南 在跨平台应用开发中,.NET Avalonia 凭借其强大的功能和灵活性受到了广泛关注。而将基于 .NET Avalonia 开发的应用程序部署到 CentOS 系统上,是很多开发者会面临的任务。下面就为大家详细介绍在 CentOS 上部署 .NET A…...
MyBatis深度解析:XML/注解配置与动态SQL编写实战
引言 在现代Java企业级应用开发中,MyBatis作为一款优秀的持久层框架,因其灵活性和易用性广受开发者喜爱。相比Hibernate等全自动ORM框架,MyBatis提供了更接近SQL的开发体验,同时又不失面向对象的优雅。本文将深入探讨MyBatis的核…...
面试经验 对常用 LLM 工具链(如 LlamaFactory)的熟悉程度和实践经验
面试场景: 你正在面试一个大型语言模型(LLM)工程师或研究员的职位,面试官想了解你对常用 LLM 工具链(如 LlamaFactory)的熟悉程度和实践经验。 面试经验分享:LlamaFactory-CLI 工具实践 面试官…...

【conda配置深度学习环境】
好的!我们从头开始配置一个基于Conda的虚拟环境,覆盖深度学习(如PyTorch)和传统机器学习(如XGBoost),并适配你的显卡(假设为NVIDIA,若为AMD请告知)。以下是完…...

力扣4.寻找两个正序数组的中位数
文章目录 题目介绍题解 题目介绍 题解 题解链接:题解 核心思路:通过二分查找的确定分割点使左右两部分元素数量相等。 class Solution {public double findMedianSortedArrays(int[] nums1, int[] nums2) {int n1 nums1.length;int n2 nums2.length…...

【相机基础知识与物体检测】更新中
参考: 黑马机器人 | 相机标定&物体检测https://robot.czxy.com/docs/camera/ 01-相机基础 相机基础概述 相机是机器视觉的基础,相机直接产生了相机数据。所有视觉算法都是作用在相机数据上的。相机数据的好坏,或者对相机数据的理解方式…...

【前端】性能优化和分类
本页知识点参考:https://zhuanlan.zhihu.com/p/514222781 1. 加载性能优化 1.1 网站性能优化 content方法: 1)减少HTTP请求:合并文件,CSS精灵,inline Image 2)减少DNS查询:DNS缓存&…...

PPO和GRPO算法
verl 是现在非常火的 rl 框架,而且已经支持了多个 rl 算法(ppo、grpo 等等)。 过去对 rl 的理解很粗浅(只知道有好多个角色,有的更新权重,有的不更新),也曾硬着头皮看了一些论文和知…...
ceph 对象存储用户限额满导致无法上传文件
查看日志 kl logs -f rook-ceph-rgw-my-store-a-5cc4c4d5b5-26n6j|grep -i error|head -1Defaulted container "rgw" out of: rgw, log-collector, chown-container-data-dir (init) debug 2025-05-30T19:44:11.573+0000 7fa7b7a6d700...

rk3588 上运行smolvlm-realtime-webcam,将视频转为文字描述
smolvlm-realtime-webcam 是一个开源项目,结合了轻量级多模态模型 SmolVLM 和本地推理引擎 llama.cpp,能够在本地实时处理摄像头视频流,生成自然语言描述, 开源项目地址 https://github.com/ngxson/smolvlm-realtime-webcamhttps…...
某航参数逆向及设备指纹分析
文章目录 1. 写在前面2. 接口分析3. 加密分析4. 算法还原5. 设备指纹风控分析与绕过【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究…...
SQL思路解析:窗口滑动的应用
目录 🎯 问题目标 第一步:从数据中我们能直接得到什么? 第二步:我们想要的“7天窗口”长什么样? 第三步:SQL 怎么表达“某一天的前六天”? 🔍JOIN 比窗口函数更灵活 第四步&am…...

Rust 学习笔记:Box<T>
Rust 学习笔记:Box Rust 学习笔记:Box<T\>Box\<T> 简介使用 Box\<T\> 在堆上存储数据启用带有 box 的递归类型关于 cons 列表的介绍计算非递归类型的大小使用 Box\<T\> 获取大小已知的递归类型 Rust 学习笔记:Box<…...
C# 从 ConcurrentDictionary 中取出并移除第一个元素
C# 从 ConcurrentDictionary 中取出并移除第一个元素 要从 ConcurrentDictionary<byte, int> 中取出并移除第一个元素,需要结合 遍历 和 原子移除操作。由于 ConcurrentDictionary 是无序集合,"第一个元素" 通常是指最早添加的元素&…...

操作系统学习(十三)——Linux
一、Linux Linux 是一种类 Unix 的自由开源操作系统内核,由芬兰人 Linus Torvalds 于 1991 年首次发布。如今它广泛应用于服务器、桌面、嵌入式设备、移动设备(如 Android)等领域。 设计思想: 原则描述模块化与可移植性Linux 内…...

NLP学习路线图(二十二): 循环神经网络(RNN)
在自然语言处理(NLP)的广阔天地中,序列数据是绝对的核心——无论是流淌的文本、连续的语音还是跳跃的时间序列,都蕴含着前后紧密关联的信息。传统神经网络如同面对一幅打散的拼图,无法理解词语间的顺序关系,…...

每日一C(1)C语言的内存分布
目录 代码区 常量区 全局/静态区 初始化数据段(.data) 未初始化数据段(.bss) 堆区 栈区 总结 今天我们学习的是C语言的内存分布,以及这些分区所存储的内容和其特点。今天的思维导图如下。 C语言作为一款直接处…...

Photoshop使用钢笔绘制图形
1、绘制脸部路径 选择钢笔工具,再选择“路径”。 基于两个点绘制一个弯曲的曲线 使用Alt键移动单个点,该点决定了后续的曲线方向 继续绘制第3个点 最后一个点首尾是同一个点,使用钢笔保证是闭合回路。 以同样的方式绘制2个眼睛外框。 使用椭…...

应用层协议:HTTP
目录 HTTP:超文本传输协议 1.1 HTTP报文 1.1.1 请求报文 1.1.2 响应报文 1.2 HTTP请求过程和原理 1.2.1 请求过程 1、域名(DNS)解析 2、建立TCP连接(三次握手) 3、发送HTTP请求 4、服务器处理请求 5、返回H…...

复习——C++
1、scanf和scanf_s区别 2、取地址,输出 char ba; char* p&b; cout<<*p; cout<<p; p(char*)"abc"; cout<<*p; cout<<p; cout<<(void*)p; 取地址,把b的地址给p 输出*p,是输出p的空间内的值…...

SPI通信协议(软件SPI读取W25Q64)
SPI通信协议 文章目录 SPI通信协议1.SPI通信2.SPI硬件和软件规定2.1SPI硬件电路2.2移位示意图2.3SPI基本时序单元2.3.1起始和终止条件2.3.2交换一个字节(模式1) 2.4SPI波形分析(辅助理解)2.4.1发送指令2.4.2指定地址写2.4.3指定地…...