当前位置: 首页 > news >正文

doris:JSON导入数据

本文介绍如何在 Doris 中导入 JSON 格式的数据文件。Doris 支持导入标准 JSON 格式数据,通过配置相关参数,可以灵活地处理不同的 JSON 数据结构,并支持从 JSON 数据中抽取字段、处理嵌套结构等场景。

导入方式​

以下导入方式支持 JSON 格式的数据导入:

  • Stream Load
  • Broker Load
  • Routine Load
  • INSERT INTO FROM S3 TVF
  • INSERT INTO FROM HDFS TVF

支持的 JSON 格式​

Doris 支持以下三种 JSON 格式:

以 Array 表示的多行数据​

适用于批量导入多行数据,要求:

  • 根节点必须是数组
  • 数组中每个元素是一个对象,表示一行数据
  • 必须设置 strip_outer_array=true

示例数据:

[{"id": 123, "city": "beijing"},{"id": 456, "city": "shanghai"}
]// 支持嵌套结构
[{"id": 123, "city": {"name": "beijing", "region": "haidian"}},{"id": 456, "city": {"name": "beijing", "region": "chaoyang"}}
]

以 Object 表示的单行数据​

适用于单行数据导入,要求:

  • 根节点必须是对象
  • 整个对象表示一行数据

示例数据:

{"id": 123, "city": "beijing"}// 支持嵌套结构
{"id": 123, "city": {"name": "beijing", "region": "haidian"}}

注意

通常用于 Routine Load 导入方式,如 Kafka 中的单条消息。

以固定分隔符分隔的多行 Object 数据​

适用于批量导入多行数据,要求:

  • 每行是一个完整的 JSON 对象
  • 必须设置 read_json_by_line=true
  • 可通过 line_delimiter 参数指定行分隔符,默认为 \n

示例数据:

{"id": 123, "city": "beijing"}
{"id": 456, "city": "shanghai"}

参数配置​

参数支持情况​

下表列出了各种导入方式支持的 JSON 格式参数:

参数默认值Stream LoadBroker LoadRoutine LoadTVF
json pathsjsonpathsproperties.jsonpathsproperties.jsonpathsjsonpaths
json rootjson_rootproperties.json_rootproperties.json_rootjson_root
strip outer arrayfalsestrip_outer_arrayproperties.strip_outer_arrayproperties.strip_outer_arraystrip_outer_array
read json by linefalseread_json_by_line不支持配置,都为true不支持read_json_by_line, 默认为true
fuzzy parsefalsefuzzy_parseproperties.fuzzy_parse不支持fuzzy_parse
num as stringfalsenum_as_stringproperties.num_as_stringproperties.num_as_stringnum_as_string

注意

  1. Stream Load:参数直接通过 HTTP Header 指定,如:-H "jsonpaths: $.data"
  2. Broker Load:参数通过 PROPERTIES 指定,如:PROPERTIES("jsonpaths"="$.data")
  3. Routine Load:参数通过 PROPERTIES 指定,如:PROPERTIES("jsonpaths"="$.data")
  4. TVF:参数通过 TVF 语句指定,如:S3("jsonpaths"="$.data")

参数说明​

JSON Path​
  • 作用:指定如何从 JSON 数据中抽取字段
  • 类型:字符串数组
  • 默认值:无,默认使用列名匹配
  • 使用示例:
    -- 基本用法
    ["$.id", "$.city"]-- 嵌套结构
    ["$.id", "$.info.city", "$.data[0].name"]
    

JSON Root​
  • 作用:指定 JSON 数据的解析起点
  • 类型:字符串
  • 默认值:无,默认从根节点开始解析
  • 使用示例:
    -- 原始数据
    {"data": {"id": 123,"city": "beijing"}
    }-- 设置 json_root
    json_root = $.data
    

Strip Outer Array​
  • 作用:指定是否去除最外层的数组结构
  • 类型:布尔值
  • 默认值:false
  • 使用示例:
    -- 原始数据
    [{"id": 1, "city": "beijing"},{"id": 2, "city": "shanghai"}
    ]-- 设置 strip_outer_array=true
    

Read JSON By Line​
  • 作用:指定是否按行读取 JSON 数据
  • 类型:布尔值
  • 默认值:false
  • 使用示例:
    -- 原始数据(每行一个完整的 JSON 对象)
    {"id": 1, "city": "beijing"}
    {"id": 2, "city": "shanghai"}-- 设置 read_json_by_line=true
    

Fuzzy Parse​
  • 作用:加速 JSON 数据的导入效率
  • 类型:布尔值
  • 默认值:false
  • 限制:
    • Array 中每行数据的字段顺序必须完全一致
    • 通常与 strip_outer_array 配合使用
  • 性能:可提升 3-5 倍导入效率
Num As String​
  • 作用:指定是否将 JSON 中的数值类型以字符串形式解析
  • 类型:布尔值
  • 默认值:false
  • 使用场景:
    • 处理超出数值范围的大数
    • 避免数值精度损失
  • 使用示例:
    -- 原始数据
    {"id": "12345678901234567890","price": "99999999.999999"
    }
    -- 设置 num_as_string=true, price 字段将以字符串形式解析

JSON Path 和 Columns 的关系​

在数据导入过程中,JSON Path 和 Columns 各自承担不同的职责:

JSON Path:定义数据抽取规则

  • 从 JSON 数据中按指定路径抽取字段
  • 抽取的字段按 JSON Path 中定义的顺序进行重排列

Columns:定义数据映射规则

  • 将抽取的字段映射到目标表的列
  • 可以进行列的重排和转换

这两个参数的处理过程是串行的:首先 JSON Path 从源数据中抽取字段并形成有序的数据集,然后 Columns 将这些数据映射到表的列中。如果不指定 Columns,抽取的字段将按照表的列顺序直接映射。

使用示例​
仅使用 JSON Path​

表结构和数据:

-- 表结构
CREATE TABLE example_table (k2 int,k1 int
);-- JSON 数据
{"k1": 1, "k2": 2}

导入命令:

curl -v ... -H "format: json" \-H "jsonpaths: [\"$.k2\", \"$.k1\"]" \-T example.json \http://<fe_host>:<fe_http_port>/api/db_name/table_name/_stream_load

导入结果:

+------+------+
| k1   | k2   |
+------+------+
|    2 |    1 | 
+------+------+

使用 JSON Path + Columns​

使用相同的表结构和数据,添加 columns 参数:

导入命令:

curl -v ... -H "format: json" \-H "jsonpaths: [\"$.k2\", \"$.k1\"]" \-H "columns: k2, k1" \-T example.json \http://<fe_host>:<fe_http_port>/api/db_name/table_name/_stream_load

导入结果:

+------+------+
| k1   | k2   |
+------+------+
|    1 |    2 | 
+------+------+

字段重复使用​

表结构和数据:

-- 表结构
CREATE TABLE example_table (k2 int,k1 int,k1_copy int
);-- JSON 数据
{"k1": 1, "k2": 2}

导入命令:

curl -v ... -H "format: json" \-H "jsonpaths: [\"$.k2\", \"$.k1\", \"$.k1\"]" \-H "columns: k2, k1, k1_copy" \-T example.json \http://<fe_host>:<fe_http_port>/api/db_name/table_name/_stream_load

导入结果:

+------+------+---------+
| k2   | k1   | k1_copy |
+------+------+---------+
|    2 |    1 |       1 |
+------+------+---------+

嵌套字段映射​

表结构和数据:

-- 表结构
CREATE TABLE example_table (k2 int,k1 int,k1_nested1 int,k1_nested2 int
);-- JSON 数据
{"k1": 1,"k2": 2,"k3": {"k1": 31,"k1_nested": {"k1": 32}}
}

导入命令:

curl -v ... -H "format: json" \-H "jsonpaths: [\"$.k2\", \"$.k1\", \"$.k3.k1\", \"$.k3.k1_nested.k1\"]" \-H "columns: k2, k1, k1_nested1, k1_nested2" \-T example.json \http://<fe_host>:<fe_http_port>/api/db_name/table_name/_stream_load

导入结果:

+------+------+------------+------------+
| k2   | k1   | k1_nested1 | k1_nested2 |
+------+------+------------+------------+
|    2 |    1 |         31 |         32 |
+------+------+------------+------------+

使用示例​

本节展示了不同导入方式下的 JSON 格式使用方法。

Stream Load 导入​

# 使用 JSON Path
curl --location-trusted -u <user>:<passwd> \-H "format: json" \-H "jsonpaths: [\"$.id\", \"$.city\"]" \-T example.json \http://<fe_host>:<fe_http_port>/api/example_db/example_table/_stream_load# 指定 JSON root
curl --location-trusted -u <user>:<passwd> \-H "format: json" \-H "json_root: $.events" \-T example.json \http://<fe_host>:<fe_http_port>/api/example_db/example_table/_stream_load# 按行读取 JSON
curl --location-trusted -u <user>:<passwd> \-H "format: json" \-H "read_json_by_line: true" \-T example.json \http://<fe_host>:<fe_http_port>/api/example_db/example_table/_stream_load

Broker Load 导入​

-- 使用 JSON Path
LOAD LABEL example_db.example_label
(DATA INFILE("s3://bucket/path/example.json")INTO TABLE example_tableFORMAT AS "json"PROPERTIES("jsonpaths" = "[\"$.id\", \"$.city\"]")
)
WITH S3 
(...
);-- 指定 JSON root
LOAD LABEL example_db.example_label
(DATA INFILE("s3://bucket/path/example.json")INTO TABLE example_tableFORMAT AS "json"PROPERTIES("json_root" = "$.events")
)
WITH S3 
(...
);

Routine Load 导入​

-- 使用 JSON Path
CREATE ROUTINE LOAD example_db.example_job ON example_table
PROPERTIES
("format" = "json","jsonpaths" = "[\"$.id\", \"$.city\"]"
)
FROM KAFKA
(...
);

TVF 导入​

-- 使用 JSON Path
INSERT INTO example_table
SELECT *
FROM S3
("uri" = "s3://bucket/example.json","format" = "json","jsonpaths" = "[\"$.id\", \"$.city\"]",...
);-- 指定 JSON root 
INSERT INTO example_table
SELECT *
FROM S3
("uri" = "s3://bucket/example.json","format" = "json","json_root" = "$.events",...
);

相关文章:

doris:JSON导入数据

本文介绍如何在 Doris 中导入 JSON 格式的数据文件。Doris 支持导入标准 JSON 格式数据&#xff0c;通过配置相关参数&#xff0c;可以灵活地处理不同的 JSON 数据结构&#xff0c;并支持从 JSON 数据中抽取字段、处理嵌套结构等场景。 导入方式​ 以下导入方式支持 JSON 格式…...

Ubuntu18.04 搭建DHCP服务器

在Ubuntu系统中&#xff0c;DHCP&#xff08;动态主机配置协议&#xff09;服务通常由isc-dhcp-server软件包提供。要配置和使用DHCP服务&#xff0c;你可以按照以下步骤操作&#xff1a; 1. 安装DHCP服务器 首先&#xff0c;你需要安装isc-dhcp-server。打开终端并输入以下命…...

Spring Boot 邂逅Netty:构建高性能网络应用的奇妙之旅

一、引言 在当今数字化时代&#xff0c;构建高效、可靠的网络应用是开发者面临的重要挑战。Spring Boot 作为一款强大的 Java 开发框架&#xff0c;以其快速开发、简洁配置和丰富的生态支持&#xff0c;深受广大开发者喜爱。而 Netty 作为高性能、异步的网络通信框架&#xff…...

【云安全】云原生-Docker(五)容器逃逸之漏洞利用

漏洞利用逃逸 通过漏洞利用实现逃逸&#xff0c;主要分为以下两种方式&#xff1a; 1、操作系统层面的内核漏洞 这是利用宿主机操作系统内核中的安全漏洞&#xff0c;直接突破容器的隔离机制&#xff0c;获得宿主机的权限。 攻击原理&#xff1a;容器本质上是通过 Linux 的…...

九、CSS工程化方案

一、PostCSS介绍 二、PostCSS插件的使用 项目安装 - npm install postcss-cli 全局安装 - npm install postcss-cli -g postcss-cli地址&#xff1a;GitHub - postcss/postcss-cli: CLI for postcss postcss地址&#xff1a;GitHub - postcss/postcss: Transforming styles…...

gradle创建springboot单项目和多模块项目

文章目录 gradle创建springboot项目gradle多模块项目创建 gradle创建springboot项目 适用IDEA很简单&#xff0c;如下图 gradle多模块项目创建 首选创建父项目&#xff0c;然后删除无用内容至下图 选择父项目目录&#xff0c;右键选择模块&#xff0c;创建子项目&#xff08…...

Vue实现div滚动,并且支持top动态滚动

如果你知道距离目标 div 顶部的像素值&#xff0c;并希望通过传入 top 参数来实现滚动到对应区域&#xff0c;可以使用 window.scrollTo 方法。 编写滚动方法 const scrollToDiv (targetDiv, top) > {if (targetDiv) {top top * targetDiv.value.scrollHeight / data.he…...

Elasticsearch 中,分片(Shards)数量上限?副本的数量?

概念 ElasticSearch高可用集群架构实战 分片数量1 在 Elasticsearch 中&#xff0c;分片&#xff08;Shards&#xff09;是数据存储和索引的基本单位。创建分片时需要考虑多个因素&#xff0c;包括集群的配置、硬件资源&#xff08;如磁盘空间、内存等&#xff09;以及性能要…...

Unity入门1

安装之后无法获得许可证&#xff0c;可以考虑重装 新建项目 单击空白处生成脚本 双击c#文件 会自动打开vstudio 检查引用 如果没有引用&#xff0c;重开vstu&#xff0c;或者重新加载项目 hierarchy层级 scenes场景 assets资产 inspector督察 icon图标 资源链接&…...

网络模型简介:OSI七层模型与TCP/IP模型

计算机网络是现代信息社会的基石&#xff0c;而网络通信的基础在于理解网络模型。网络模型是对通信过程的抽象&#xff0c;它帮助我们理解数据从源到目的地的传输过程。常见的网络模型有 OSI 七层模型 和 TCP/IP 模型&#xff0c;这两种模型在理论和实践中都起着重要作用。 一、…...

软件测试压力太大了怎么办?

本文其实是知乎上针对一个问题的回答&#xff1a; 目前在做软件测试&#xff0c;主要负责的是手机端的项目测试&#xff0c;项目迭代很快&#xff0c;每次上线前验正式都会发现一些之前验测试包时候没有发现的问题&#xff0c;压力太大了&#xff0c;应该怎么调整 看过我之前其…...

微信小程序-点餐(美食屋)02开发实践

目录 概要 整体架构流程 &#xff08;一&#xff09;用户注册与登录 &#xff08;二&#xff09;菜品浏览与点餐 &#xff08;三&#xff09;订单管理 &#xff08;四&#xff09;后台管理 部分代码展示 1.index.wxml 2.list.wxml 3.checkout.wxml 4.detail.wxml 小结优点 概要…...

转换算术表达式

文章目录 构造二叉树表示的算术表达式&#xff1a;按先序次序输入二叉树中结点的值(操作数及运算符均以一位字符表示&#xff0c;注意转换)&#xff0c; #字符表示空树&#xff0c;如上图的算术表达式 输入2##*3##4## 输入格式 第一行输入表示要计算的算术表达式的二叉树结点的…...

99.17 金融难点通俗解释:归母净利润

目录 0. 承前1. 简述2. 比喻&#xff1a;小明家的小卖部2.1 第一步&#xff1a;计算收到的所有钱2.2 第二步&#xff1a;减去各种支出2.3 第三步&#xff1a;计算能带回家的钱 3. 生活中的例子3.1 好的经营情况3.2 一般的经营情况3.3 不好的经营情况 4. 小朋友要注意4.1 为什么…...

【Flutter】旋转元素(Transform、RotatedBox )

这里写自定义目录标题 Transform旋转元素可以改变宽高约束的旋转 - RotatedBox Transform旋转元素 说明&#xff1a;Transform旋转操作改变了元素的方向&#xff0c;但并没有改变它的布局约束。因此&#xff0c;虽然视觉上元素看起来是旋转了&#xff0c;但它仍然遵循原始的宽…...

MYSQL学习笔记(六):聚合函数、sql语句执行原理简要分析

前言&#xff1a; 学习和使用数据库可以说是程序员必须具备能力&#xff0c;这里将更新关于MYSQL的使用讲解&#xff0c;大概应该会更新30篇&#xff0c;涵盖入门、进阶、高级(一些原理分析);这一篇是内容较少&#xff0c;主要讲解&#xff1a;聚合函数和简要介绍sql语句执行过…...

thinkphp6+swoole使用rabbitMq队列

安装think-swoole安装 composer require php-amqplib/php-amqplib,以支持rabbitMq使用安装rabbitMq延迟队列插件 安装 rabbitmq_delayed_message_exchange 插件&#xff0c;按照以下步骤操作&#xff1a; 下载插件&#xff1a;https://github.com/rabbitmq/rabbitmq-delayed-…...

大模型开发 | RAG在实际开发中可能遇到的坑

近年来&#xff0c;大语言模型 (LLM) 的飞速发展令人瞩目&#xff0c;它们在各个领域展现出强大的应用潜力。然而&#xff0c;LLM 也存在一些固有的局限性&#xff0c;例如知识更新滞后、信息编造 (幻觉) 等问题。为了克服这些挑战&#xff0c;检索增强生成 (Retrieval-Augment…...

mybatis是什么?有什么作用?mybatis的简单使用

mybatis是什么&#xff1f; MyBatis 是一个持久层框架。 有什么作用&#xff1f; 简化了对数据库数据的操作。 如何简化数据操作的&#xff1f; MyBatis 通过提供 SQL 映射、动态 SQL、结果映射、事务管理等功能&#xff0c;我们直接去用就可以了。 怎么使用&#xff1f;&…...

求平均年龄(信息学奥赛一本通-1059)

【题目描述】 班上有学生若干名&#xff0c;给出每名学生的年龄&#xff08;整数&#xff09;&#xff0c;求班上所有学生的平均年龄&#xff0c;保留到小数点后两位。 【输入】 第一行有一个整数n&#xff08;1≤n≤100&#xff09;&#xff0c;表示学生的人数。其后n行每行有…...

XCTF-web-easyupload

试了试php&#xff0c;php7&#xff0c;pht&#xff0c;phtml等&#xff0c;都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接&#xff0c;得到flag...

【入坑系列】TiDB 强制索引在不同库下不生效问题

文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言&#xff1a; 在人工智能快速发展的浪潮中&#xff0c;快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型&#xff08;LLM&#xff09;。该模型代表着该领域的重大突破&#xff0c;通过独特方式融合思考与非思考…...

腾讯云V3签名

想要接入腾讯云的Api&#xff0c;必然先按其文档计算出所要求的签名。 之前也调用过腾讯云的接口&#xff0c;但总是卡在签名这一步&#xff0c;最后放弃选择SDK&#xff0c;这次终于自己代码实现。 可能腾讯云翻新了接口文档&#xff0c;现在阅读起来&#xff0c;清晰了很多&…...

uniapp 开发ios, xcode 提交app store connect 和 testflight内测

uniapp 中配置 配置manifest 文档&#xff1a;manifest.json 应用配置 | uni-app官网 hbuilderx中本地打包 下载IOS最新SDK 开发环境 | uni小程序SDK hbulderx 版本号&#xff1a;4.66 对应的sdk版本 4.66 两者必须一致 本地打包的资源导入到SDK 导入资源 | uni小程序SDK …...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

自然语言处理——文本分类

文本分类 传统机器学习方法文本表示向量空间模型 特征选择文档频率互信息信息增益&#xff08;IG&#xff09; 分类器设计贝叶斯理论&#xff1a;线性判别函数 文本分类性能评估P-R曲线ROC曲线 将文本文档或句子分类为预定义的类或类别&#xff0c; 有单标签多类别文本分类和多…...

算法打卡第18天

从中序与后序遍历序列构造二叉树 (力扣106题) 给定两个整数数组 inorder 和 postorder &#xff0c;其中 inorder 是二叉树的中序遍历&#xff0c; postorder 是同一棵树的后序遍历&#xff0c;请你构造并返回这颗 二叉树 。 示例 1: 输入&#xff1a;inorder [9,3,15,20,7…...

实战设计模式之模板方法模式

概述 模板方法模式定义了一个操作中的算法骨架&#xff0c;并将某些步骤延迟到子类中实现。模板方法使得子类可以在不改变算法结构的前提下&#xff0c;重新定义算法中的某些步骤。简单来说&#xff0c;就是在一个方法中定义了要执行的步骤顺序或算法框架&#xff0c;但允许子类…...

数据结构第5章:树和二叉树完全指南(自整理详细图文笔记)

名人说&#xff1a;莫道桑榆晚&#xff0c;为霞尚满天。——刘禹锡&#xff08;刘梦得&#xff0c;诗豪&#xff09; 原创笔记&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 上一篇&#xff1a;《数据结构第4章 数组和广义表》…...