大数据CSV导入MySQL
CSV Import MySQL
- 源码
- 主要特性
- 技术栈
- 快速开始
- 1. 环境要求
- 2. 构建项目
- 3. 使用方式
- 交互式模式
- 命令行模式
- 编程方式使用
- 核心组件
- 1. CsvService
- 2. DatabaseService
- 3. CsvImportService
- 数据类型映射
- 性能优化
- 1. 连接池优化
- 2. 批量操作优化
- 3. MySQL配置优化
- 配置说明
- application.yml配置
- 错误处理
- 最佳实践
- 示例数据
一个高性能的CSV文件导入MySQL数据库的Spring Boot工具,支持自动类型推断、动态建表、流式处理和批量导入。
源码
https://github.com/ShouZhiDuan/easydo/tree/main/csv-import-mysql
主要特性
- 🚀 高性能: 使用HikariCP连接池和批量操作,支持大文件快速导入
- 🧠 智能类型推断: 自动分析CSV数据并推断最适合的MySQL字段类型
- 📊 动态建表: 根据CSV文件结构自动创建对应的MySQL表
- 🔄 流式处理: 边读取CSV边插入数据库,内存占用低
- 📈 批量操作: 支持自定义批次大小的批量插入
- 🔍 自动索引: 支持指定字段自动创建索引
- ⚙️ 灵活配置: 支持动态数据库连接配置
- 🎯 解耦设计: CSV处理和数据库操作完全分离
技术栈
- Spring Boot 2.7.14
- Spring JDBC Template
- HikariCP 连接池
- Apache Commons CSV
- MySQL 8.0+
- Maven
快速开始
1. 环境要求
- Java 11+
- Maven 3.6+
- MySQL 8.0+
2. 构建项目
mvn clean package
3. 使用方式
交互式模式
java -jar target/csv-import-1.0.0.jar --interactive
按提示输入CSV文件路径、数据库连接信息等参数。
命令行模式
java -jar target/csv-import-1.0.0.jar \/path/to/data.csv \"jdbc:mysql://localhost:3306/testdb" \root \password \"id,user_id,created_date" \2000 \1000
参数说明:
- 参数1: CSV文件路径
- 参数2: MySQL数据库URL
- 参数3: 数据库用户名
- 参数4: 数据库密码
- 参数5: 索引列名(可选,多个用逗号分隔)
- 参数6: 批次大小(可选,默认1000)
- 参数7: 样本大小(可选,默认1000)
编程方式使用
@Autowired
private CsvImportService csvImportService;public void importData() {// 配置数据库连接DatabaseConfig config = new DatabaseConfig("jdbc:mysql://localhost:3306/testdb","root","password");// 指定需要创建索引的列List<String> indexColumns = Arrays.asList("id", "user_id");// 执行导入csvImportService.importCsv("/path/to/data.csv", config, indexColumns, 2000, // 批次大小1000 // 样本大小);// 关闭连接csvImportService.closeConnection();
}
核心组件
1. CsvService
负责CSV文件处理:
- 解析CSV文件头部
- 数据类型推断
- 流式数据读取
- 表名提取
2. DatabaseService
负责数据库操作:
- 动态创建数据库连接
- 创建表结构
- 批量数据插入
- 创建索引
3. CsvImportService
主要业务逻辑:
- 整合CSV处理和数据库操作
- 控制导入流程
- 错误处理和日志记录
数据类型映射
CSV数据特征 | 推断的Java类型 | MySQL字段类型 |
---|---|---|
纯整数 | INTEGER | INT |
长整数(10位+) | LONG | BIGINT |
小数 | DOUBLE | DOUBLE |
true/false/yes/no/1/0 | BOOLEAN | BOOLEAN |
日期格式 | DATE | DATE |
日期时间格式 | TIMESTAMP | TIMESTAMP |
其他 | STRING | VARCHAR/TEXT |
性能优化
1. 连接池优化
DatabaseConfig config = new DatabaseConfig(url, username, password);
config.setMaximumPoolSize(50); // 最大连接数
config.setMinimumIdle(20); // 最小空闲连接
config.setConnectionTimeout(30000); // 连接超时
2. 批量操作优化
- 使用
rewriteBatchedStatements=true
参数 - 适当增加批次大小(建议1000-10000)
- 启用预编译语句缓存
3. MySQL配置优化
-- 临时禁用约束检查(导入时)
SET foreign_key_checks = 0;
SET unique_checks = 0;
SET autocommit = 0;-- 调整缓冲区大小
SET innodb_buffer_pool_size = 1G;
SET bulk_insert_buffer_size = 256M;
配置说明
application.yml配置
csv-import:default:batch-size: 1000 # 默认批次大小sample-size: 1000 # 默认样本大小connection-timeout: 30000 # 连接超时时间max-pool-size: 20 # 最大连接池大小min-idle: 5 # 最小空闲连接数performance:enable-batch-rewrite: true # 启用批量重写enable-prep-stmt-cache: true # 启用预编译缓存prep-stmt-cache-size: 250 # 缓存大小
错误处理
- 文件不存在: 检查CSV文件路径是否正确
- 数据库连接失败: 检查数据库URL、用户名、密码
- 类型转换错误: 工具会自动降级为字符串类型
- 内存不足: 减少批次大小或增加JVM堆内存
最佳实践
- 大文件处理: 使用较大的批次大小(5000-10000)
- 类型推断: 增加样本大小提高准确性
- 索引策略: 在数据导入完成后创建索引
- 连接池: 根据并发需求调整连接池大小
- 监控: 关注日志输出,监控导入进度
示例数据
创建测试CSV文件 users.csv
:
id,name,age,salary,is_active,created_date
1,John Doe,25,50000.50,true,2023-01-01
2,Jane Smith,30,60000.75,false,2023-01-02
3,Bob Johnson,35,70000.00,true,2023-01-03
导入命令:
java -jar csv-import-1.0.0.jar \users.csv \"jdbc:mysql://localhost:3306/testdb" \root \password \"id,name"
生成的MySQL表结构:
CREATE TABLE `users` (`id` INT,`name` VARCHAR(255),`age` INT,`salary` DOUBLE,`is_active` BOOLEAN,`created_date` DATE
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;CREATE INDEX `idx_users_id` ON `users` (`id`);
CREATE INDEX `idx_users_name` ON `users` (`name`);
相关文章:

大数据CSV导入MySQL
CSV Import MySQL 源码主要特性技术栈快速开始1. 环境要求2. 构建项目3. 使用方式交互式模式命令行模式编程方式使用 核心组件1. CsvService2. DatabaseService3. CsvImportService 数据类型映射性能优化1. 连接池优化2. 批量操作优化3. MySQL配置优化 配置说明application.yml…...
GitHub 趋势日报 (2025年06月04日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 1757 onlook 870 nautilus_trader 702 ChinaTextbook 582 system-design-primer 4…...
基于sqlite的任务锁(支持多进程/多线程)
前言 介绍 任务锁,在多进程服务间控制耗时任务的锁,确保相同id的耗时任务同时只有一个在执行 依赖 SqliteOp,参考这篇文章 https://blog.csdn.net/weixin_43721000/article/details/137019125 实现方式 utils/taskLock.py import timefrom utils.SqliteOp import Sqli…...

MySQL 索引优化(Explain执行计划) 详细讲解
🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 MySQL 索引优化(Explain执行计划…...

Cad 反应器 cad c#二次开发
在 AutoCAD C# 二次开发中,DocumentCollectionEventHandler 是一个委托(delegate),用于处理与 AutoCAD 文档集合(DocumentCollection)相关的事件。它属于 AutoCAD .NET API 的事件处理机制,本质…...
GitOps 核心思想 - 当 Git 成为唯一信源
GitOps 核心思想 - 当 Git 成为唯一信源 在我们之前的 CI/CD 系列中,我们构建了一条流水线:GitHub Actions 在代码测试和构建通过后,执行 kubectl apply 命令将变更推送 (Push) 到 Kubernetes 集群。这种模式非常普遍且有效,但当系统规模和团队复杂度增加时,它可能会遇到一…...

【websocket】安装与使用
websocket安装与使用 1. 介绍2. 安装3. websocketpp常用接口4. Websocketpp使用4.1 服务端4.2 客户端 1. 介绍 WebSocket 是从 HTML5 开始支持的一种网页端和服务端保持长连接的 消息推送机制。 传统的 web 程序都是属于 “一问一答” 的形式,即客户端给服务器发送…...

【大模型】LogRAG:基于检索增强生成的半监督日志异常检测
文章目录 A 论文出处B 背景B.1 背景介绍B.2 问题提出B.3 创新点 C 模型结构D 实验设计D.1 数据集/评估指标D.2 SOTAD.3 实验结果 E 个人总结E.1 优点E.2 不足 A 论文出处 论文题目:LogRAG: Semi-Supervised Log-based Anomaly Detection with Retrieval-Augmented …...

基于SpringBoot实现的大创管理系统设计与实现【源码+文档】
基于SpringBootVue实现的大创管理系统采用前后端分离架构方式,系统设计了管理员、学生、指导老师、院系管理员两种角色,系统实现了用户登录与注册、个人中心、学生管理、指导老师管理、院系管理员管理、优秀项目管理、项目类型管理、项目信息管理、项目申…...

国产高云FPGA实现视频采集转UDP以太网输出,FPGA网络摄像头方案,提供2套Gowin工程源码和技术支持
目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目国产高云FPGA基础教程国产高云FPGA相关方案推荐我这里已有的以太网方案 3、设计思路框架工程设计原理框图输入Sensor之-->OV7725摄像头输入Sensor之-->OV5640摄…...
【Linux基础知识系列】第十一篇-Linux系统安全
Linux系统安全是指通过一系列技术和管理措施,保护Linux系统免受各种威胁和攻击,确保系统的完整性、可用性和机密性。随着网络攻击手段的多样化和复杂化,Linux系统安全成为了系统管理员和开发者必须面对的重要课题。本文将从用户认证、权限管理…...
02.管理数据库
管理数据库 1. 创建数据库 mysql> create database db1; Query OK, 1 row affected (0.01 sec)mysql> show databases; -------------------- | Database | -------------------- | db1 | | hellodb | | information_schema | | m…...

Webpack依赖
Webpack到底怎么对我们的项目进行打包捏? 在webpack处理应用程序时,会根据命令或者配置文件找到入口文件 从入口开始,会生成一个依赖关系图,这个依赖关系图会包含应用程序中所需的所有模块(.js、css文件、图片、字体…...

自动驾驶科普(百度Apollo)学习笔记
1. 写在前面 在过去的几年里,自动驾驶技术取得飞速发展,人类社会正逐渐走向一个新时代,这个时代中,汽车不仅仅是一个交通工具,更是一个智能的、能够感知环境、做出决策并自主导航的机器伙伴。现在正好也从事这块的工作…...

leetcode_66.加一
题目链接 这道题归类在力扣的数学类中,应该算是一道思维的简单题吧 题是这样的,根据题目我们不难理解,这个题就是在最后一位加 1 然后返回,正如示例所说的那样,当然这很符合我们人的思维,写这种算法题最重要…...

iview-admin静态资源js按需加载配置
iview-admin2.0版本默认加载所有组件的JS,实际情况下,用户访问后台并不会每个页面都浏览。这样就会造成流量及带宽的浪费。可通过修改配置文件vue.config.js来实现按需加载,具体配置如图 image © 著作权归作者所有,转载或内容合作请联系…...
【学习笔记】深入理解Java虚拟机学习笔记——第3章 垃圾收集器与内存分配策略
第3章 垃圾收集器与内存分配策略 3.1 概述 略 3.2 对象已死? “死去”即不可能以任何途径访问到 3.2.1 引用计数算法 每个对象维护一个计数器,引用即加1,引用失效便减1。 3.2.2 可达性分析算法(主流) 即根据GC…...

抖去推--短视频矩阵系统源码开发
一、开发短视频矩阵系统的源码需要以下步骤: 确定系统需求: 根据客户的具体业务目标,明确系统需实现的核心功能模块,例如用户注册登录、视频内容上传与管理、多维度视频浏览与推荐、用户互动(评论、点赞、分享…...
Windows设置之网络路由
在 Windows 系统中,可以通过配置路由表来实现特定 IP 地址通过无线网卡(Wi-Fi)连接,而其他流量通过有线以太网连接。 比如,让101.132.45.129 走无线网卡,其他的走有线以太网的具体步骤如下: 通…...
发送文件脚本源码版本
V1 适配win10和 win11 #SingleInstance Force SendMode Input SetWorkingDir %A_ScriptDir%; Global variables global TaskList : [] global CurrentFileConfig : "current_file.ini" global RemainingFilesConfig : "remaining_files.ini" global File…...

Vue部署到Nginx上及问题解决
一、Vue打包 dist文件即打包文件 二、下载Nginx,将dist内容全部复制到Nginx的html下 三、修改Nginx的nginx.conf配置文件,添加try_files $uri $uri/ /index.html; try_files $uri $uri/ /index.html; 是 Nginx 配置中的一个重要指令,用于处理…...
MCP(Model Context Protocol)与提示词撰写
随着大模型(LLM)在复杂任务中的普及,如何让模型高效调用外部工具和数据成为关键挑战。传统函数调用(Function Calling)依赖开发者手动封装 API,而 MCP(Model Context Protocol) 通过…...
每日一令:Linux 极简通关指南 - 汇总
专栏列表 💻 每日一令:Linux 极简通关指南 (25篇) 【基础】每天掌握一个Linux命令 - nsenter:深入容器与命名空间的利器 发布于 2025-06-08 22:27:04【基础】 每天掌握一个Linux命令 - journalctl:系统日志管理的得力助手 发布于…...

项目-- Json-Rpc框架
目录 项目简介环境搭建Ubuntu-22.04 第三方库使用JsonCppMuduo基础类EventLoop类TcpConnection类Buffer类TcpClient类TcpServer类 服务端基本搭建客户端基本搭建 future 项目设计通用模块设计Rpc功能模块设计发现者设计提供者设计服务注册中心设计 Topic功夫模块设计主题管理中…...

因泰立科技H1X激光雷达:因泰立科技为智慧工业注入新动力
在当今工业领域,精准测量与高效作业是推动产业升级的关键因素。因泰立科技推出的H1X三维轮廓扫描激光雷达,凭借其卓越的性能和广泛的应用场景,正成为智慧工业中不可或缺的高科技装备。 产品简介 H1X三维轮廓扫描激光雷达是因泰立科技基于二维…...
day50 随机函数与广播机制
目录 一、随机张量的生成 1.1 torch.randn() 函数 1.2 其他随机函数 1.3 输出维度测试 二、广播机制 2.1 广播机制的规则 2.2 加法的广播机制 二维张量与一维向量相加 三维张量与二维张量相加 二维张量与标量相加 高维张量与低维张量相加 2.3 乘法的广播机制 批量…...
Codeforces Educational 179(ABCDE)
前言 byd这组题纯靠感觉是吧…^_^ b题赛时举了无数个例子都没想明白,然后一直卡到结束,后面题都没看到,结果补题的时候c题d题直接秒了…-_-|| A. Energy Crystals #include <bits/stdc.h> using namespace std;typedef long long …...
基于 actix-web 框架的简单 demo
以下是一个基于 actix-web 框架的简单 demo, 如果你还没有 Rust,我们建议你使用 rustup 来管理你的 Rust 安装。官方 Rust 指南有一个很棒的入门部分。 Actix Web 目前支持的最低 Rust 版本 (MSRV) 为 1.72。运行 rustup update…...

python:Tkinter 开发邮件客户端,能编写邮件,发送邮件带附件
Python Tkinter 邮件客户端 下面是一个使用 Python Tkinter 开发的简单邮件客户端,支持编写邮件和发送邮件功能: 功能说明 这个邮件客户端包含以下功能: 邮件编写功能: 收件人地址输入抄送地址输入邮件主题输入邮件正文编辑区&…...
CMake基础:gcc/g++编译选项详解
目录 1.编译步骤 2.gcc 与 g 区别 3.gcc 命令的常用选项 3.1.基础编译选项 3.2.优化选项 3.3.调试与分析选项 3.4.链接选项 3.5.语言特性选项(C 特化) 3.6.安全增强选项 3.7.架构与指令集优化 3.8.其他常用选项 4.常见编译组合示例 5.常用环…...