在Autonomous DB中创建训练数据集
在Autonomous DB中创建训练数据集
- 概述
- 背景
- 步骤解析
- 1. 定义公司术语表
- 2. 使用SQL将数据转换为JSON格式
- 3. 使用SPool命令将SQL查询结果输出为JSON文件
- 4. 查看生成的JSON文件
- 结果示例
- 结论
概述
在机器学习中,构建高质量的训练数据集是模型成功的关键,尤其当需要利用公司内部数据时。如何高效、灵活地构建这些数据集是每个数据工程师面临的重要问题。本文将详细介绍如何在Autonomous DB中创建学习数据集,并结合SQL和JSON格式生成适用于训练的样本数据。
背景
假设我们需要为机器学习模型构建一个包含公司内部术语的训练数据集。比如,我们希望将“客户成功经理”(Customer Success Manager)相关的数据与公司术语表结合进行训练。本文将演示如何使用Autonomous DB和SQL,将数据表中的术语信息转换为JSON格式,并生成训练数据集。
步骤解析
1. 定义公司术语表
首先,我们需要定义一个包含公司术语及其解释说明的表。以下是一个示例数据表:
| 术语/用语 | 解释说明 |
|---|---|
| ADB | 客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。 |
| CSM | 客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。 |
| CSE | 云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。 |
2. 使用SQL将数据转换为JSON格式
接下来,我们使用SQL将表中的每一行数据转换为JSON格式。在SQL中,我们可以使用JSON_OBJECT函数来构造JSON格式的输出。以下是具体的SQL查询语句:
SELECT JSON_OBJECT('prompt' VALUE '问题:当社独自用语「'|| TERM ||'」是什么?' || CHR(10) || '回答:','completion' VALUE || EXPLANATION
) AS json_line
FROM TERM_DICT;
这条SQL查询会将表TERM_DICT中的每一行转换为类似以下格式的JSON数据:
{"prompt": "问题:当社独自用语「CSM」是什么?\n回答:","completion": "客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「ADB」是什么?\n回答:","completion": "客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「CSE」是什么?\n回答:","completion": "云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。"
}
这些JSON数据将作为机器学习模型的输入。
3. 使用SPool命令将SQL查询结果输出为JSON文件
为了将SQL查询的结果保存为文件,我们可以使用SQL的SPool功能。SPool命令允许我们将查询结果输出到指定的文件中,便于后续使用。
以下是具体操作步骤:
-
开启SPool命令:首先,通过
SPOOL命令指定输出文件路径。例如,我们将结果保存为output.json文件。SPOOL /path/to/output.json -
执行SQL查询:执行将数据转换为JSON格式的SQL查询。
SELECT JSON_OBJECT('prompt' VALUE '问题:当社独自用语「'|| TERM ||'」是什么?' || CHR(10) || '回答:','completion' VALUE || EXPLANATION ) AS json_line FROM TERM_DICT; -
关闭SPool命令:执行完查询后,关闭SPool命令,保存输出文件。
SPOOL OFF;
这样,查询结果会被保存在指定的文件路径中,且格式为JSON,便于后续机器学习任务使用。
4. 查看生成的JSON文件
通过SPool命令生成的output.json文件将包含格式化的JSON数据,如下所示:
{"prompt": "问题:当社独自用语「CSM」是什么?\n回答:","completion": "客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「ADB」是什么?\n回答:","completion": "客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「CSE」是什么?\n回答:","completion": "云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。"
}
结果示例
通过以上操作,我们已经成功地将术语表中的数据转换为JSON格式,并将其保存为一个文件。该文件可以作为机器学习模型的训练数据。
结论
本文介绍了如何使用Autonomous DB和SQL创建适用于机器学习的训练数据集。通过结合SQL的JSON_OBJECT函数和SPool命令,我们能够将公司术语表的数据转换为JSON格式,并高效地输出为文件。这种方法非常适合需要处理大量内部数据并生成训练集的情况。
希望这篇博客能帮助你更好地理解如何在Autonomous DB中创建学习数据集,并通过SQL与JSON的结合提高数据处理的效率。
相关文章:
在Autonomous DB中创建训练数据集
在Autonomous DB中创建训练数据集 概述背景步骤解析1. 定义公司术语表2. 使用SQL将数据转换为JSON格式3. 使用SPool命令将SQL查询结果输出为JSON文件4. 查看生成的JSON文件 结果示例结论 概述 在机器学习中,构建高质量的训练数据集是模型成功的关键,尤其…...
Adapting to Length Shift: FlexiLength Network for Trajectory Prediction
概要 轨迹预测在各种应用中发挥着重要作用,包括自动驾驶、机器人技术和场景理解。现有方法通常采用标准化的输入时长,集中于开发紧凑神经网络,以提高在公共数据集上的预测精度。然而,当这些模型在不同观测长度下进行评估时&#…...
张量循环运算:内存溢出原因及解决
写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 内存溢出解决方法致谢 内存溢出 使用AlexNet遍历大量图像进行指标运算(LP…...
【Qt】:概述(下载安装、认识 QT Creator)
🌈 个人主页:Zfox_ 🔥 系列专栏:Qt 目录 一:🔥 介绍 🦋 什么是 QT🦋 QT 发展史🦋 Qt版本🦋 QT 优点 一:🔥 搭建Qt开发环境 ǹ…...
11、《Web开发性能优化:静态资源处理与缓存控制深度解析》
Web开发性能优化:静态资源处理与缓存控制深度解析 一、性能优化的核心战场:静态资源处理 现代Web应用静态资源体积占比普遍超过70%,以典型Vue项目为例: dist/ ├─ css/ # 38% 体积 ├─ js/ # 45% 体积 └─ img…...
【Linux】多线程 -> 从线程概念到线程控制
线程概念 在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一个进程内部的控制序列”。一切进程至少都有一个执行线程。线程在进程内部运行,本质是在进程地址空间内运行。在Linux系统中,在CPU眼…...
用什么办法能实现ubuntu里面运行的自己开发的python程序能自动升级。
要实现Ubuntu中自己开发的Python程序自动升级,可以通过以下几种方式: 1. 使用 Git 仓库 定时任务 如果你的Python程序托管在Git仓库中,可以通过定时拉取最新代码来实现自动升级。 步骤: 确保Python程序在Git仓库中。在Ubuntu上…...
java处理pgsql的text[]类型数据问题
背景 公司要求使用磐维数据库,于是去了解了这个是基于PostgreSQL构建的,在使用时有场景一条图片数据中可以投放到不同的页面,由于简化设计就放在数组中,于是使用了text[]类型存储;表结构 #这是一个简化版表结构&…...
LeetCode 热门100题-字母异位词分组
2.字母异位词分组 题目描述: 给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan&q…...
耐张线夹压接图片智能识别
目录 一、图片压接部位定位1、图像准备2、人工标注3、训练4、推理5、UI界面 压接状态智能识别 一、图片压接部位定位 ,往往X射线照片是一个大图,进行图片压接部位定位目的是先找到需识别的部位,再进行识别时可排除其他图像部位的干扰&#x…...
ADC 的音频实验,无线收发模块( nRF24L01)
nRF24L01 采用 QFN20 封装,有 20 个引脚,以下是各引脚的详细介绍: 1. 电源引脚 ◦ VDD:电源输入端,一般接 3V 电源,为芯片提供工作电压,供电电压范围为 1.9V~3.6V。 ◦ VSS…...
企业SSL 证书管理指南
文章从以下几个部分展开 SSL证书的用途和使用场景SSL证书的申请类型和实现方式SSL证书的管理SSL证书的续签 一、SSL 证书的用途和使用场景 1.1 为什么要使用 SSL 证书? 1. 数据安全 🛡️- 在 HTTP 传输中,TCP 包可以被截获,攻…...
Python Pandas(7):Pandas 数据清洗
数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。数据清洗与预处理的常见步骤: 缺失值处理:识别并…...
南京观海微电子----整流滤波电路实用
01 变压电路 通常直流稳压电源使用电源变压器来改变输入到后级电路的电压。电源变压器由初级绕组、次级绕组和铁芯组成。初级绕组用来输入电源交流电压,次级绕组输出所需要的交流电压。通俗的说,电源变压器是一种电→磁→电转换器件。即初级的交流电转化…...
【python】向Jira测试计划下,附件中增加html测试报告
【python】连接Jira获取token以及jira对象 # 往 jira 测试计划下面,上传测试结果html def put_jira_file(plain_id):# 配置连接jiraconn ConnJira()jira conn.jira_login()[2]path jira.issue(O45- plain_id)attachments_dir os.path.abspath(..) \\test_API…...
探索ChatGPT背后的前端黑科技
由于图片和格式解析问题,可前往 阅读原文 在人工智能与互联网技术飞速发展的今天,像ChatGPT这样的智能对话系统已经成为科技领域的焦点。它不仅能够进行自然流畅的对话,还能以多种格式展示内容,为用户带来高效且丰富的交互体验。然…...
Agents Go Deep 智能体深入探索
Agents Go Deep 智能体深入探索 核心事件 OpenAI发布了一款先进的智能体“深度研究”,它能借助网络搜索和推理生成研究报告。 最新进展 功能特性:该智能体依据数百个在线资源生成详细报告,目前仅支持文本输出,不过很快会增加对图…...
DeepSeek全生态接入指南:官方通道+三大云平台
DeepSeek全生态接入指南:官方通道三大云平台 一、官方资源入口 1.1 核心交互平台 🖥️ DeepSeek官网: https://chat.deepseek.com/ (体验最新对话模型能力) 二、客户端工具 OllamaChatboxCherry StudioAnythingLLM …...
c++TinML转html
cTinML转html 前言解析解释转译html类定义开头html 结果这是最终效果(部分):  前言 在python.tkinter设计标记语言(转译2-html)中提到了将Ti…...
STM32硬件SPI函数解析与示例
1. SPI 简介 SPI(Serial Peripheral Interface)即串行外设接口,是一种高速、全双工、同步的通信总线,常用于微控制器与各种外设(如传感器、存储器等)之间的通信。STM32 系列微控制器提供了多个 SPI 接口&a…...
conda相比python好处
Conda 作为 Python 的环境和包管理工具,相比原生 Python 生态(如 pip 虚拟环境)有许多独特优势,尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处: 一、一站式环境管理:…...
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命
在华东塑料包装行业面临限塑令深度调整的背景下,江苏艾立泰以一场跨国资源接力的创新实践,重新定义了绿色供应链的边界。 跨国回收网络:废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点,将海外废弃包装箱通过标准…...
苍穹外卖--缓存菜品
1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...
第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
均衡后的SNRSINR
本文主要摘自参考文献中的前两篇,相关文献中经常会出现MIMO检测后的SINR不过一直没有找到相关数学推到过程,其中文献[1]中给出了相关原理在此仅做记录。 1. 系统模型 复信道模型 n t n_t nt 根发送天线, n r n_r nr 根接收天线的 MIMO 系…...
Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)
引言 工欲善其事,必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后,我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集,就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...
django blank 与 null的区别
1.blank blank控制表单验证时是否允许字段为空 2.null null控制数据库层面是否为空 但是,要注意以下几点: Django的表单验证与null无关:null参数控制的是数据库层面字段是否可以为NULL,而blank参数控制的是Django表单验证时字…...
Kafka主题运维全指南:从基础配置到故障处理
#作者:张桐瑞 文章目录 主题日常管理1. 修改主题分区。2. 修改主题级别参数。3. 变更副本数。4. 修改主题限速。5.主题分区迁移。6. 常见主题错误处理常见错误1:主题删除失败。常见错误2:__consumer_offsets占用太多的磁盘。 主题日常管理 …...
