当前位置: 首页 > news >正文

在Autonomous DB中创建训练数据集

在Autonomous DB中创建训练数据集

      • 概述
      • 背景
      • 步骤解析
        • 1. 定义公司术语表
        • 2. 使用SQL将数据转换为JSON格式
        • 3. 使用SPool命令将SQL查询结果输出为JSON文件
        • 4. 查看生成的JSON文件
      • 结果示例
      • 结论

概述

在机器学习中,构建高质量的训练数据集是模型成功的关键,尤其当需要利用公司内部数据时。如何高效、灵活地构建这些数据集是每个数据工程师面临的重要问题。本文将详细介绍如何在Autonomous DB中创建学习数据集,并结合SQL和JSON格式生成适用于训练的样本数据。

背景

假设我们需要为机器学习模型构建一个包含公司内部术语的训练数据集。比如,我们希望将“客户成功经理”(Customer Success Manager)相关的数据与公司术语表结合进行训练。本文将演示如何使用Autonomous DB和SQL,将数据表中的术语信息转换为JSON格式,并生成训练数据集。

步骤解析

1. 定义公司术语表

首先,我们需要定义一个包含公司术语及其解释说明的表。以下是一个示例数据表:

术语/用语解释说明
ADB客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。
CSM客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。
CSE云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。
2. 使用SQL将数据转换为JSON格式

接下来,我们使用SQL将表中的每一行数据转换为JSON格式。在SQL中,我们可以使用JSON_OBJECT函数来构造JSON格式的输出。以下是具体的SQL查询语句:

SELECT JSON_OBJECT('prompt' VALUE '问题:当社独自用语「'|| TERM ||'」是什么?' || CHR(10) || '回答:','completion' VALUE || EXPLANATION
) AS json_line
FROM TERM_DICT;

这条SQL查询会将表TERM_DICT中的每一行转换为类似以下格式的JSON数据:

{"prompt": "问题:当社独自用语「CSM」是什么?\n回答:","completion": "客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「ADB」是什么?\n回答:","completion": "客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「CSE」是什么?\n回答:","completion": "云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。"
}

这些JSON数据将作为机器学习模型的输入。

3. 使用SPool命令将SQL查询结果输出为JSON文件

为了将SQL查询的结果保存为文件,我们可以使用SQL的SPool功能。SPool命令允许我们将查询结果输出到指定的文件中,便于后续使用。

以下是具体操作步骤:

  1. 开启SPool命令:首先,通过SPOOL命令指定输出文件路径。例如,我们将结果保存为output.json文件。

    SPOOL /path/to/output.json
    
  2. 执行SQL查询:执行将数据转换为JSON格式的SQL查询。

    SELECT JSON_OBJECT('prompt' VALUE '问题:当社独自用语「'|| TERM ||'」是什么?' || CHR(10) || '回答:','completion' VALUE || EXPLANATION
    ) AS json_line
    FROM TERM_DICT;
    
  3. 关闭SPool命令:执行完查询后,关闭SPool命令,保存输出文件。

    SPOOL OFF;
    

这样,查询结果会被保存在指定的文件路径中,且格式为JSON,便于后续机器学习任务使用。

4. 查看生成的JSON文件

通过SPool命令生成的output.json文件将包含格式化的JSON数据,如下所示:

{"prompt": "问题:当社独自用语「CSM」是什么?\n回答:","completion": "客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「ADB」是什么?\n回答:","completion": "客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「CSE」是什么?\n回答:","completion": "云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。"
}

结果示例

通过以上操作,我们已经成功地将术语表中的数据转换为JSON格式,并将其保存为一个文件。该文件可以作为机器学习模型的训练数据。

结论

本文介绍了如何使用Autonomous DB和SQL创建适用于机器学习的训练数据集。通过结合SQL的JSON_OBJECT函数和SPool命令,我们能够将公司术语表的数据转换为JSON格式,并高效地输出为文件。这种方法非常适合需要处理大量内部数据并生成训练集的情况。

希望这篇博客能帮助你更好地理解如何在Autonomous DB中创建学习数据集,并通过SQL与JSON的结合提高数据处理的效率。

相关文章:

在Autonomous DB中创建训练数据集

在Autonomous DB中创建训练数据集 概述背景步骤解析1. 定义公司术语表2. 使用SQL将数据转换为JSON格式3. 使用SPool命令将SQL查询结果输出为JSON文件4. 查看生成的JSON文件 结果示例结论 概述 在机器学习中,构建高质量的训练数据集是模型成功的关键,尤其…...

Adapting to Length Shift: FlexiLength Network for Trajectory Prediction

概要 轨迹预测在各种应用中发挥着重要作用,包括自动驾驶、机器人技术和场景理解。现有方法通常采用标准化的输入时长,集中于开发紧凑神经网络,以提高在公共数据集上的预测精度。然而,当这些模型在不同观测长度下进行评估时&#…...

张量循环运算:内存溢出原因及解决

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 内存溢出解决方法致谢 内存溢出 使用AlexNet遍历大量图像进行指标运算(LP…...

【Qt】:概述(下载安装、认识 QT Creator)

🌈 个人主页:Zfox_ 🔥 系列专栏:Qt 目录 一:🔥 介绍 🦋 什么是 QT🦋 QT 发展史🦋 Qt版本🦋 QT 优点 一:🔥 搭建Qt开发环境 &#x1f9…...

11、《Web开发性能优化:静态资源处理与缓存控制深度解析》

Web开发性能优化:静态资源处理与缓存控制深度解析 一、性能优化的核心战场:静态资源处理 现代Web应用静态资源体积占比普遍超过70%,以典型Vue项目为例: dist/ ├─ css/ # 38% 体积 ├─ js/ # 45% 体积 └─ img…...

【Linux】多线程 -> 从线程概念到线程控制

线程概念 在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一个进程内部的控制序列”。一切进程至少都有一个执行线程。线程在进程内部运行,本质是在进程地址空间内运行。在Linux系统中,在CPU眼…...

用什么办法能实现ubuntu里面运行的自己开发的python程序能自动升级。

要实现Ubuntu中自己开发的Python程序自动升级,可以通过以下几种方式: 1. 使用 Git 仓库 定时任务 如果你的Python程序托管在Git仓库中,可以通过定时拉取最新代码来实现自动升级。 步骤: 确保Python程序在Git仓库中。在Ubuntu上…...

java处理pgsql的text[]类型数据问题

背景 公司要求使用磐维数据库,于是去了解了这个是基于PostgreSQL构建的,在使用时有场景一条图片数据中可以投放到不同的页面,由于简化设计就放在数组中,于是使用了text[]类型存储;表结构 #这是一个简化版表结构&…...

LeetCode 热门100题-字母异位词分组

2.字母异位词分组 题目描述: 给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan&q…...

耐张线夹压接图片智能识别

目录 一、图片压接部位定位1、图像准备2、人工标注3、训练4、推理5、UI界面 压接状态智能识别 一、图片压接部位定位 ,往往X射线照片是一个大图,进行图片压接部位定位目的是先找到需识别的部位,再进行识别时可排除其他图像部位的干扰&#x…...

ADC 的音频实验,无线收发模块( nRF24L01)

nRF24L01 采用 QFN20 封装,有 20 个引脚,以下是各引脚的详细介绍: 1. 电源引脚 ◦ VDD:电源输入端,一般接 3V 电源,为芯片提供工作电压,供电电压范围为 1.9V~3.6V。 ◦ VSS&#xf…...

企业SSL 证书管理指南

文章从以下几个部分展开 SSL证书的用途和使用场景SSL证书的申请类型和实现方式SSL证书的管理SSL证书的续签 一、SSL 证书的用途和使用场景 1.1 为什么要使用 SSL 证书? 1. 数据安全 🛡️- 在 HTTP 传输中,TCP 包可以被截获,攻…...

Python Pandas(7):Pandas 数据清洗

数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。数据清洗与预处理的常见步骤: 缺失值处理:识别并…...

南京观海微电子----整流滤波电路实用

01 变压电路 通常直流稳压电源使用电源变压器来改变输入到后级电路的电压。电源变压器由初级绕组、次级绕组和铁芯组成。初级绕组用来输入电源交流电压,次级绕组输出所需要的交流电压。通俗的说,电源变压器是一种电→磁→电转换器件。即初级的交流电转化…...

【python】向Jira测试计划下,附件中增加html测试报告

【python】连接Jira获取token以及jira对象 # 往 jira 测试计划下面,上传测试结果html def put_jira_file(plain_id):# 配置连接jiraconn ConnJira()jira conn.jira_login()[2]path jira.issue(O45- plain_id)attachments_dir os.path.abspath(..) \\test_API…...

探索ChatGPT背后的前端黑科技

由于图片和格式解析问题,可前往 阅读原文 在人工智能与互联网技术飞速发展的今天,像ChatGPT这样的智能对话系统已经成为科技领域的焦点。它不仅能够进行自然流畅的对话,还能以多种格式展示内容,为用户带来高效且丰富的交互体验。然…...

Agents Go Deep 智能体深入探索

Agents Go Deep 智能体深入探索 核心事件 OpenAI发布了一款先进的智能体“深度研究”,它能借助网络搜索和推理生成研究报告。 最新进展 功能特性:该智能体依据数百个在线资源生成详细报告,目前仅支持文本输出,不过很快会增加对图…...

DeepSeek全生态接入指南:官方通道+三大云平台

DeepSeek全生态接入指南:官方通道三大云平台 一、官方资源入口 1.1 核心交互平台 🖥️ DeepSeek官网: https://chat.deepseek.com/ (体验最新对话模型能力) 二、客户端工具 OllamaChatboxCherry StudioAnythingLLM …...

c++TinML转html

cTinML转html 前言解析解释转译html类定义开头html 结果这是最终效果(部分): ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6cf6c3e3c821446a84ae542bcc2652d4.png) 前言 在python.tkinter设计标记语言(转译2-html)中提到了将Ti…...

STM32硬件SPI函数解析与示例

1. SPI 简介 SPI(Serial Peripheral Interface)即串行外设接口,是一种高速、全双工、同步的通信总线,常用于微控制器与各种外设(如传感器、存储器等)之间的通信。STM32 系列微控制器提供了多个 SPI 接口&a…...

Cursor编辑器使用统计工具:量化开发效率与AI辅助深度分析

1. 项目概述:一个为开发者量身定制的Cursor使用统计工具如果你和我一样,日常开发重度依赖Cursor这款AI代码编辑器,那你肯定也好奇过:我到底有多“卷”?每天在编辑器里花了多少时间?最常用的功能是哪些&…...

强化学习在推测执行漏洞挖掘中的应用与实践

1. 推测执行漏洞与安全挑战现代处理器中的推测执行技术通过预测分支路径提前执行指令,大幅提升了指令级并行性。当处理器遇到条件分支时,它会根据历史记录预测分支走向,并提前执行预测路径上的指令。如果预测正确,可以节省约10-15…...

做电力仪器选显示屏踩坑3年,终于摸透这四个选型标准

我是电力仪器设备厂的生产测试主管,干这行快7年了,前前后后负责过继保测试仪、变比测试仪、互感器校验仪等七八款产品的配件选型,光显示屏就换过四家供应商,踩过强电磁下跳数、低温黑屏、交期拖垮项目的坑,直到用上恒域…...

本地AI智能体框架NagaAgent:基于开源大模型的规划与工具调用实践

1. 项目概述:一个被低估的本地AI智能体框架最近在折腾本地大模型应用,特别是想搞点能自己跑起来的智能体(Agent),发现了一个挺有意思但讨论度不高的项目——RTGS2017/NagaAgent。乍一看这个标题,可能会觉得…...

如何高效管理Zotero插件:一站式插件市场完整指南

如何高效管理Zotero插件:一站式插件市场完整指南 【免费下载链接】zotero-addons Zotero Add-on Market | Zotero插件市场 | Browsing, installing, and reviewing plugins within Zotero 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-addons 还在为…...

Thermal Clad金属基板设计与成本优化实战指南

1. 电路设计基础与Thermal Clad特性解析在电子工程领域,电路板设计直接决定了最终产品的性能、可靠性和成本。作为一名有十年硬件设计经验的工程师,我深刻体会到优秀的设计需要在电气性能、热管理和机械强度之间取得平衡。Thermal Clad(热覆金…...

为什么给 Claude Code 加上 CLAUDE.md 后,它就像换了一个脑子?

我是张大鹏,有十多年 AI 人工智能项目的开发经验,带过不少项目。说实话,最难的不是写代码,是让 AI 真正理解你想要什么。最近给项目加了一份 CLAUDE.md,效果立竿见影——Claude Code 从"莽撞乱撞"变成了&quo…...

五分钟 熟悉所有Claude Code指令

废话不多说&#xff0c;直接上干货&#xff0c;点赞收藏一、 启动与退出cd xx #进入你的项目 claude start # 启动 Claude Code claude exit # 退出二、查看帮助claude /help # 显示所有命令及使用说明 claude /status # 查看当前会话状态三、文件操作claude /add <file&g…...

企业知识管理新方案:OpenCorpo开源项目部署与RAG架构实践

1. 项目概述与核心价值最近在折腾一个挺有意思的开源项目&#xff0c;叫 OpenCorpo。这名字听起来有点“高大上”&#xff0c;但说白了&#xff0c;它就是一个帮你把公司内部那些零散、混乱的文档、知识、流程给“盘活”的工具。想象一下&#xff0c;你公司里是不是有无数个共享…...

5分钟快速掌握:Sonar CNES Report代码质量报告生成终极指南

5分钟快速掌握&#xff1a;Sonar CNES Report代码质量报告生成终极指南 【免费下载链接】sonar-cnes-report Generates analysis reports from SonarQube web API. 项目地址: https://gitcode.com/gh_mirrors/so/sonar-cnes-report 你是否曾为向团队展示代码质量数据而烦…...