doris: CSV导入数据
本文介绍如何在 Doris 中导入 CSV 格式的数据文件。Doris 支持灵活的 CSV 格式配置,包括自定义分隔符、字段包围符等,并提供多种导入方式以满足不同场景的数据导入需求。
导入方式
Doris 支持以下方式导入 CSV 格式数据:
- Stream Load
- Broker Load
- Routine Load
- MySQL Load
- INSERT INTO FROM S3 TVF
- INSERT INTO FROM HDFS TVF
参数配置
参数支持情况
下表列出了各种导入方式支持的 CSV 格式参数:
| 参数 | 默认值 | Stream Load | Broker Load | Routine Load | MySQL Load | TVF |
|---|---|---|---|---|---|---|
| 行分隔符 | \n | line_delimiter | LINES TERMINATED BY | 不支持 | LINES TERMINATED BY | line_delimiter |
| 列分隔符 | \t | column_separator | COLUMNS TERMINATED BY | COLUMNS TERMINATED BY | COLUMNS TERMINATED BY | column_separator |
| 包围符 | 无 | enclose | PROPERTIES.enclose | PROPERTIES.enclose | PROPERTIES.enclose | enclose |
| 转义符 | \ | escape | PROPERTIES.escape | PROPERTIES.escape | PROPERTIES.escape | escape |
| 跳过行数 | 0 | skip_lines | PROPERTIES.skip_lines | 不支持 | IGNORE LINES | skip_lines |
| 裁剪双引号 | false | trim_double_quotes | 不支持 | PROPERTIES.trim_double_quotes | 不支持 | trim_double_quotes |
| 压缩格式 | plain | compress_type | PROPERTIES.compress_type | 不支持 | 不支持 | compress_type |
注意
- Stream Load:参数直接通过 HTTP Header 指定,如:
-H "line_delimiter:\n" - Broker Load:参数通过 SQL 语句指定,其中:
- 分隔符通过
COLUMNS TERMINATED BY,LINES TERMINATED BY指定 - 其他参数通过
PROPERTIES指定,如:PROPERTIES("compress_type"="gz")
- 分隔符通过
- Routine Load:参数通过 SQL 语句指定,其中:
- 分隔符通过
COLUMNS TERMINATED BY指定 - 其他参数通过
PROPERTIES指定,如:PROPERTIES("enclose"="\"")
- 分隔符通过
- MySQL Load:参数通过 SQL 语句指定,其中:
- 分隔符通过
LINES TERMINATED BY,COLUMNS TERMINATED BY指定 - 其他参数通过
PROPERTIES指定,如:PROPERTIES("escape"="\\")
- 分隔符通过
- TVF:参数通过 TVF 语句指定,如:
S3("line_delimiter"="\n")
参数说明
行分隔符
- 作用:指定导入文件中的换行符
- 默认值:
\n - 特点:支持多个字符组合作为换行符
- 使用场景和示例:
- Linux/Unix 系统文件:
数据文件: 张三,25\n 李四,30\n参数设置: line_delimiter:\n (默认值,可不设置) - Windows 系统文件:
数据文件: 张三,25\r\n 李四,30\r\n参数设置: line_delimiter:\r\n - 特殊程序生成文件:
数据文件: 张三,25\r 李四,30\r参数设置: line_delimiter:\r - 自定义多字符分隔符:
数据文件: 张三,25|| 李四,30||参数设置: line_delimiter:||
- Linux/Unix 系统文件:
列分隔符
- 作用:指定导入文件中的列分隔符
- 默认值:
\t(制表符) - 特点:
- 支持可见和不可见字符
- 支持多字符组合
- 不可见字符需要使用
\x前缀的十六进制表示
- MySQL 协议特殊处理:
- 不可见字符需要额外增加反斜线
- 如 Hive 的
\x01在 Broker Load 中需要写成\\x01
- 使用场景和示例:
- 常见可见字符:
数据文件: 张三,25,北京 李四,30,上海参数设置: column_separator:, - 制表符(默认):
数据文件: 张三 25 北京 李四 30 上海参数设置: column_separator:\t (默认值,可不设置) - Hive 文件(Stream Load):
数据文件: 张三\x0125\x01北京 李四\x0130\x01上海参数设置: column_separator:\x01 - Hive 文件(Broker Load):
数据文件: 张三\x0125\x01北京 李四\x0130\x01上海参数设置: PROPERTIES("column_separator"="\\x01") - 多字符分隔符:
数据文件: 张三||25||北京 李四||30||上海参数设置: column_separator:||
- 常见可见字符:
包围符
- 作用:保护包含特殊字符的字段,防止被错误解析
- 限制:仅支持单字节字符
- 常用字符:
- 单引号:
' - 双引号:
"
- 单引号:
- 使用场景和示例:
- 字段包含列分隔符:
数据:a,'b,c',d 列分隔符:, 包围符:' 解析结果:3个字段 [a] [b,c] [d] - 字段包含行分隔符:
数据:a,'b\nc',d 列分隔符:, 包围符:' 解析结果:3个字段 [a] [b\nc] [d] - 字段既包含列分隔符又包含行分隔符:
数据:a,'b,c\nd,e',f 列分隔符:, 包围符:' 解析结果:3个字段 [a] [b,c\nd,e] [f]
- 字段包含列分隔符:
转义符
- 作用:转义字段中与包围符相同的字符
- 限制:仅支持单字节字符,默认为
\ - 使用场景和示例:
- 字段包含包围符:
数据:a,'b,\'c',d 列分隔符:, 包围符:' 转义符:\ 解析结果:3个字段 [a] [b,'c] [d] - 字段包含多个包围符:
数据:a,"b,\"c\"d",e 列分隔符:, 包围符:" 转义符:\ 解析结果:3个字段 [a] [b,"c"d] [e] - 字段包含转义符本身:
数据:a,'b\\c',d 列分隔符:, 包围符:' 转义符:\ 解析结果:3个字段 [a] [b\c] [d]
- 字段包含包围符:
跳过行数
-
作用:跳过 CSV 文件的前几行
-
类型:整数类型
-
默认值:0
-
特殊说明:
- 当 format 为
csv_with_names时,系统会自动跳过首行(列名),忽略 skip_lines 参数 - 当 format 为
csv_with_names_and_types时,系统会自动跳过前两行(列名和类型),忽略 skip_lines 参数
- 当 format 为
-
使用场景和示例:
- 跳过标题行:
数据文件: 姓名,年龄,城市 张三,25,北京 李四,30,上海参数设置: skip_lines:1 结果:跳过标题行,导入后续数据 - 跳过注释行:
数据文件: # 用户信息表 # 创建时间: 2024-01-01 张三,25,北京 李四,30,上海参数设置: skip_lines:2 结果:跳过注释行,导入后续数据 - 使用 csv_with_names 格式:
数据文件: name,age,city 张三,25,北京 李四,30,上海参数设置: format:csv_with_names 结果:系统自动跳过首行列名 - 使用 csv_with_names_and_types 格式:
数据文件: name,age,city string,int,string 张三,25,北京 李四,30,上海参数设置: format:csv_with_names_and_types 结果:系统自动跳过前两行的列名和类型信息
- 跳过标题行:
裁剪双引号
- 作用:裁剪掉 CSV 文件每个字段最外层的双引号
- 类型:布尔类型
- 默认值:false
- 使用场景和示例:
- 裁剪双引号:
数据文件: "张三","25","北京" "李四","30","上海"参数设置: trim_double_quotes:true 结果: 张三,25,北京 李四,30,上海
- 裁剪双引号:
压缩格式
- 作用:指定导入文件的压缩格式
- 类型:字符串, 忽略大小写
- 默认值:plain
- 支持的压缩格式:
- plain:不压缩(默认)
- bz2:BZIP2 压缩
- deflate:DEFLATE 压缩
- gz:GZIP 压缩
- lz4:LZ4 Frame 格式压缩
- lz4_block:LZ4 Block 格式压缩
- lzo:LZO 压缩
- lzop:LZOP 压缩
- snappy_block:SNAPPY Block 格式压缩
- 注意事项:
- tar 是一种文件打包格式,不属于压缩格式,因此不支持 .tar 文件
- 如需使用 tar 打包的文件,请先解包后再导入
使用示例
本节展示了不同导入方式下的 CSV 格式使用方法。
Stream Load 导入
# 指定分隔符
curl --location-trusted -u root: \-H "column_separator:," \-H "line_delimiter:\n" \-T example.csv \http://<fe_host>:<fe_http_port>/api/test_db/test_table/_stream_load# 处理带引号的数据
curl --location-trusted -u root: \-H "column_separator:," \-H "enclose:\"" \-H "escape:\\" \-T example.csv \http://<fe_host>:<fe_http_port>/api/test_db/test_table/_stream_load# 导入压缩文件
curl --location-trusted -u root: \-H "compress_type:gz" \-T example.csv.gz \http://<fe_host>:<fe_http_port>/api/test_db/test_table/_stream_load
Broker Load 导入
-- 指定分隔符
LOAD LABEL test_db.test_label
(DATA INFILE("s3://bucket/example.csv")INTO TABLE test_tableCOLUMNS TERMINATED BY ","LINES TERMINATED BY "\n"
)
WITH S3
(...
);-- 处理带引号的数据
LOAD LABEL test_db.test_label
(DATA INFILE("s3://bucket/example.csv")INTO TABLE test_tablePROPERTIES("enclose" = "\"","escape" = "\\")
)
WITH S3
(...
);-- 导入压缩文件
LOAD LABEL test_db.test_label
(DATA INFILE("s3://bucket/example.csv.gz")INTO TABLE test_tablePROPERTIES("compress_type" = "gz")
)
WITH S3
(...
);
Routine Load 导入
-- 指定分隔符
CREATE ROUTINE LOAD test_db.test_job ON test_table
COLUMNS TERMINATED BY ","
FROM KAFKA
(...
);-- 处理带引号的数据
CREATE ROUTINE LOAD test_db.test_job ON test_table
COLUMNS TERMINATED BY ","
PROPERTIES
("enclose" = "\"","escape" = "\\"
)
FROM KAFKA
(...
);
MySQL Load 导入
-- 指定分隔符
LOAD DATA LOCAL INFILE 'example.csv'
INTO TABLE test_table
COLUMNS TERMINATED BY ','
LINES TERMINATED BY '\n';-- 处理带引号的数据
LOAD DATA LOCAL INFILE 'example.csv'
INTO TABLE test_table
COLUMNS TERMINATED BY ','
LINES TERMINATED BY '\n'
PROPERTIES
("enclose" = "\"","escape" = "\\"
);-- 跳过表头
LOAD DATA LOCAL INFILE 'example.csv'
INTO TABLE test_table
COLUMNS TERMINATED BY ','
LINES TERMINATED BY '\n'
IGNORE 1 LINES;
TVF 导入
-- 指定分隔符
INSERT INTO test_table
SELECT *
FROM S3
("uri" = "s3://bucket/example.csv","format" = "csv","column_separator" = ",","line_delimiter" = "\n"...
);-- 处理带引号的数据
INSERT INTO test_table
SELECT *
FROM S3
("uri" = "s3://bucket/example.csv","format" = "csv","column_separator" = ",","enclose" = "\"","escape" = "\\"...
);-- 导入压缩文件
INSERT INTO test_table
SELECT *
FROM S3
("uri" = "s3://bucket/example.csv.gz","format" = "csv","compress_type" = "gz"...
);
相关文章:
doris: CSV导入数据
本文介绍如何在 Doris 中导入 CSV 格式的数据文件。Doris 支持灵活的 CSV 格式配置,包括自定义分隔符、字段包围符等,并提供多种导入方式以满足不同场景的数据导入需求。 导入方式 Doris 支持以下方式导入 CSV 格式数据: Stream LoadBro…...
FastStone Image Viewer图像处理软件安装步骤(百度网盘链接)
软件简介:一款小巧便捷的添加水印、特效、图片处理软件,让使用者可以通过它的操作界面来浏览图片,且还支持了幻灯播放的功能,让使用者能够轻松的浏览目录中的所有图片。 网盘链接:https://pan.baidu.com/s/1Zvrx7fXwb6…...
Kafka 深入服务端 — 时间轮
Kafka中存在大量的延迟操作,比如延时生产、延时拉取和延时删除等。Kafka基于时间轮概念自定义实现了一个用于延时功能的定时器,来完成这些延迟操作。 1 时间轮 Kafka没有使用基于JDK自带的Timer或DelayQueue来实现延迟功能,因为它们的插入和…...
网络爬虫学习:应用selenium获取Edge浏览器版本号,自动下载对应版本msedgedriver,确保Edge浏览器顺利打开。
一、前言 我从24年11月份开始学习网络爬虫应用开发,经过2个来月的努力,于1月下旬完成了开发一款网络爬虫软件的学习目标。这里对本次学习及应用开发进行一下回顾总结。 前几天我已经发了一篇日志(网络爬虫学习:应用selenium从搜…...
【go语言】结构体
一、type 关键字的用法 在 go 语言中,type 关键字用于定义新的类型,他可以用来定义基础类型、结构体类型、接口类型、函数类型等。通过 type 关键字,我们可以为现有类型创建新的类型别名或者自定义新的类型。 1.1 类型别名 使用 type 可以为…...
Spring Boot是什么及其优点
简介 Spring Boot是基于Spring框架开发的全新框架,其设计目的是简化Spring应用的初始化搭建和开发过程。 Spring Boot整合了许多框架和第三方库配置,几乎可以达到“开箱即用”。 优点 可快速构建独立的Spring应用。 直接嵌入Tomcat、Jetty和Underto…...
谷氨酸:大脑功能的多面手
标题:谷氨酸:大脑功能的多面手 文章信息摘要: 谷氨酸是大脑中最主要的兴奋性神经递质,参与了90%以上的神经元激活,在蛋白质合成、味觉(鲜味)以及神经可塑性中发挥重要作用。它与GABA、多巴胺等…...
SpringCloudGateWay和Sentinel结合做黑白名单来源控制
假设我们的分布式项目,admin是8087,gateway是8088,consumer是8086 我们一般的思路是我们的请求必须经过我们的网关8088然后网关转发到我们的分布式项目,那我要是没有处理我们绕过网关直接访问项目8087和8086不也是可以࿱…...
HTML新春烟花
系列文章 序号目录1HTML满屏跳动的爱心(可写字)2HTML五彩缤纷的爱心3HTML满屏漂浮爱心4HTML情人节快乐5HTML蓝色爱心射线6HTML跳动的爱心(简易版)7HTML粒子爱心8HTML蓝色动态爱心9HTML跳动的爱心(双心版)10…...
【Elasticsearch】中数据流需要配置索引模板吗?
是的,数据流需要配置索引模板。在Elasticsearch中,数据流(Data Streams)是一种用于处理时间序列数据的高级结构,它背后由多个隐藏的索引组成,这些索引被称为后备索引(Backing Indices࿰…...
Git进阶之旅:Git 配置信息 Config
Git 配置级别: 仓库级别:local [ 优先级最高 ]用户级别:global [ 优先级次之 ]系统级别:system [ 优先级最低 ] 配置文件位置: git 仓库级别对应的配置文件是当前仓库下的 .git/configgit 用户级别对应的配置文件时用…...
buu-pwn1_sctf_2016-好久不见29
这个也是栈溢出,不一样的点是,有replace替换,要输入0x3c字符(60),Iyou 所以,20个I就行,找后面函数 输出提示信息,要求用户输入关于自己的信息。 使用fgets函数从标准输入…...
ES2021+新特性、常用函数
一、ES2021新特性 ES2021 数字分隔符 let num 1234567 let num2 1_234_567 Promise.any 与 Promise.all 类似,Promise.any 也接受一个 Promise 的数组。当其中任何一个 Promise 完成(fullfill)时,就返回那个已经有完成值的 …...
STM32——LCD
一、引脚配置 查看引脚 将上述引脚都设置为GPIO_Output 二、导入驱动文件 将 LCD 驱动的 Inc 以及 Src 中的 fonts.h,lcd.h 和 lcd.c 导入到自己工程的驱动文件中。 当然,后面 lcd 的驱动学习可以和 IMX6U 一块学。 三、LCD函数 void LCD_Clear(u16 Color); 功能…...
【redis进阶】分布式锁
目录 一、什么是分布式锁 二、分布式锁的基础实现 三、引入过期时间 四、引入校验 id 五、引入lua 六、引入 watch dog (看门狗) 七、引入 Redlock 算法 八、其他功能 redis学习🥳 一、什么是分布式锁 在一个分布式的系统中,也会涉及到多个节点访问同一…...
园区管理系统如何提升企业核心竞争力与资产管理智能化水平
内容概要 在当今快节奏的商业环境中,园区管理系统正成为企业的重要合作伙伴,尤其在工业园、产业园、物流园、写字楼和公寓等多种类型的物业管理中。这个系统不仅仅是一个管理工具,它还是提升企业运营效率和核心竞争力的关键因素。通过智能化…...
AI大模型开发原理篇-3:词向量和词嵌入
简介 词向量是用于表示单词意义的向量, 并且还可以被认为是单词的特征向量或表示。 将单词映射到实向量的技术称为词嵌入。在实际应用中,词向量和词嵌入这两个重要的NLP术语通常可以互换使用。它们都表示将词汇表中的单词映射到固定大小的连续向量空间中…...
高精度算法:高精度减法
P2142 高精度减法 - 洛谷 | 计算机科学教育新生态 我们两个整数一定要是大数减去小数,所以这个点我们需要特判一下,那我们两个字符串表示的整型怎么判断大小呢,我们字典序比较大小和真实的数字比较大小是一样的,比如我们的‘21’…...
Java创建项目准备工作
新建项目 新建空项目 每一个空项目创建好后都要检查jdk版本 检查SDK和语言级别——Apply——OK 检查当前项目的Maven路径,如果已经配置好全局,就是正确路径不用管 修改项目字符集编码,将所有编码都调整为UTF-8 创建Spingboot工程 创建Spring…...
基于STM32的智能宠物喂食器设计
目录 引言系统设计 硬件设计软件设计 系统功能模块 定时喂食模块远程控制与视频监控模块食物存量检测与报警模块语音互动与用户交互模块数据记录与智能分析模块 控制算法 定时与手动投喂算法食物存量检测与低存量提醒算法数据记录与远程反馈算法 代码实现 喂食控制代码存量检测…...
Android Wi-Fi 连接失败日志分析
1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分: 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析: CTR…...
调用支付宝接口响应40004 SYSTEM_ERROR问题排查
在对接支付宝API的时候,遇到了一些问题,记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...
解锁数据库简洁之道:FastAPI与SQLModel实战指南
在构建现代Web应用程序时,与数据库的交互无疑是核心环节。虽然传统的数据库操作方式(如直接编写SQL语句与psycopg2交互)赋予了我们精细的控制权,但在面对日益复杂的业务逻辑和快速迭代的需求时,这种方式的开发效率和可…...
[ICLR 2022]How Much Can CLIP Benefit Vision-and-Language Tasks?
论文网址:pdf 英文是纯手打的!论文原文的summarizing and paraphrasing。可能会出现难以避免的拼写错误和语法错误,若有发现欢迎评论指正!文章偏向于笔记,谨慎食用 目录 1. 心得 2. 论文逐段精读 2.1. Abstract 2…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院查看报告小程序
一、开发环境准备 工具安装: 下载安装DevEco Studio 4.0(支持HarmonyOS 5)配置HarmonyOS SDK 5.0确保Node.js版本≥14 项目初始化: ohpm init harmony/hospital-report-app 二、核心功能模块实现 1. 报告列表…...
微信小程序云开发平台MySQL的连接方式
注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...
深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南
🚀 C extern 关键字深度解析:跨文件编程的终极指南 📅 更新时间:2025年6月5日 🏷️ 标签:C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言🔥一、extern 是什么?&…...
[Java恶补day16] 238.除自身以外数组的乘积
给你一个整数数组 nums,返回 数组 answer ,其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法,且在 O(n) 时间复杂度…...
2023赣州旅游投资集团
单选题 1.“不登高山,不知天之高也;不临深溪,不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...
