当前位置: 首页 > news >正文

在Autonomous DB中创建训练数据集

在Autonomous DB中创建训练数据集

      • 概述
      • 背景
      • 步骤解析
        • 1. 定义公司术语表
        • 2. 使用SQL将数据转换为JSON格式
        • 3. 使用SPool命令将SQL查询结果输出为JSON文件
        • 4. 查看生成的JSON文件
      • 结果示例
      • 结论

概述

在机器学习中,构建高质量的训练数据集是模型成功的关键,尤其当需要利用公司内部数据时。如何高效、灵活地构建这些数据集是每个数据工程师面临的重要问题。本文将详细介绍如何在Autonomous DB中创建学习数据集,并结合SQL和JSON格式生成适用于训练的样本数据。

背景

假设我们需要为机器学习模型构建一个包含公司内部术语的训练数据集。比如,我们希望将“客户成功经理”(Customer Success Manager)相关的数据与公司术语表结合进行训练。本文将演示如何使用Autonomous DB和SQL,将数据表中的术语信息转换为JSON格式,并生成训练数据集。

步骤解析

1. 定义公司术语表

首先,我们需要定义一个包含公司术语及其解释说明的表。以下是一个示例数据表:

术语/用语解释说明
ADB客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。
CSM客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。
CSE云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。
2. 使用SQL将数据转换为JSON格式

接下来,我们使用SQL将表中的每一行数据转换为JSON格式。在SQL中,我们可以使用JSON_OBJECT函数来构造JSON格式的输出。以下是具体的SQL查询语句:

SELECT JSON_OBJECT('prompt' VALUE '问题:当社独自用语「'|| TERM ||'」是什么?' || CHR(10) || '回答:','completion' VALUE || EXPLANATION
) AS json_line
FROM TERM_DICT;

这条SQL查询会将表TERM_DICT中的每一行转换为类似以下格式的JSON数据:

{"prompt": "问题:当社独自用语「CSM」是什么?\n回答:","completion": "客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「ADB」是什么?\n回答:","completion": "客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「CSE」是什么?\n回答:","completion": "云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。"
}

这些JSON数据将作为机器学习模型的输入。

3. 使用SPool命令将SQL查询结果输出为JSON文件

为了将SQL查询的结果保存为文件,我们可以使用SQL的SPool功能。SPool命令允许我们将查询结果输出到指定的文件中,便于后续使用。

以下是具体操作步骤:

  1. 开启SPool命令:首先,通过SPOOL命令指定输出文件路径。例如,我们将结果保存为output.json文件。

    SPOOL /path/to/output.json
    
  2. 执行SQL查询:执行将数据转换为JSON格式的SQL查询。

    SELECT JSON_OBJECT('prompt' VALUE '问题:当社独自用语「'|| TERM ||'」是什么?' || CHR(10) || '回答:','completion' VALUE || EXPLANATION
    ) AS json_line
    FROM TERM_DICT;
    
  3. 关闭SPool命令:执行完查询后,关闭SPool命令,保存输出文件。

    SPOOL OFF;
    

这样,查询结果会被保存在指定的文件路径中,且格式为JSON,便于后续机器学习任务使用。

4. 查看生成的JSON文件

通过SPool命令生成的output.json文件将包含格式化的JSON数据,如下所示:

{"prompt": "问题:当社独自用语「CSM」是什么?\n回答:","completion": "客户成功经理负责推动客户的成功支持,提供服务的有效性和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「ADB」是什么?\n回答:","completion": "客户成功经理负责客户的成功支持,推动服务的有效利用和客户满意度提升。"
}
{"prompt": "问题:当社独自用语「CSE」是什么?\n回答:","completion": "云解决方案工程师负责公司云平台的设计与构建,支持公司内外部技术需求。"
}

结果示例

通过以上操作,我们已经成功地将术语表中的数据转换为JSON格式,并将其保存为一个文件。该文件可以作为机器学习模型的训练数据。

结论

本文介绍了如何使用Autonomous DB和SQL创建适用于机器学习的训练数据集。通过结合SQL的JSON_OBJECT函数和SPool命令,我们能够将公司术语表的数据转换为JSON格式,并高效地输出为文件。这种方法非常适合需要处理大量内部数据并生成训练集的情况。

希望这篇博客能帮助你更好地理解如何在Autonomous DB中创建学习数据集,并通过SQL与JSON的结合提高数据处理的效率。

相关文章:

在Autonomous DB中创建训练数据集

在Autonomous DB中创建训练数据集 概述背景步骤解析1. 定义公司术语表2. 使用SQL将数据转换为JSON格式3. 使用SPool命令将SQL查询结果输出为JSON文件4. 查看生成的JSON文件 结果示例结论 概述 在机器学习中,构建高质量的训练数据集是模型成功的关键,尤其…...

Adapting to Length Shift: FlexiLength Network for Trajectory Prediction

概要 轨迹预测在各种应用中发挥着重要作用,包括自动驾驶、机器人技术和场景理解。现有方法通常采用标准化的输入时长,集中于开发紧凑神经网络,以提高在公共数据集上的预测精度。然而,当这些模型在不同观测长度下进行评估时&#…...

张量循环运算:内存溢出原因及解决

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 内存溢出解决方法致谢 内存溢出 使用AlexNet遍历大量图像进行指标运算(LP…...

【Qt】:概述(下载安装、认识 QT Creator)

🌈 个人主页:Zfox_ 🔥 系列专栏:Qt 目录 一:🔥 介绍 🦋 什么是 QT🦋 QT 发展史🦋 Qt版本🦋 QT 优点 一:🔥 搭建Qt开发环境 &#x1f9…...

11、《Web开发性能优化:静态资源处理与缓存控制深度解析》

Web开发性能优化:静态资源处理与缓存控制深度解析 一、性能优化的核心战场:静态资源处理 现代Web应用静态资源体积占比普遍超过70%,以典型Vue项目为例: dist/ ├─ css/ # 38% 体积 ├─ js/ # 45% 体积 └─ img…...

【Linux】多线程 -> 从线程概念到线程控制

线程概念 在一个程序里的一个执行路线就叫做线程(thread)。更准确的定义是:线程是“一个进程内部的控制序列”。一切进程至少都有一个执行线程。线程在进程内部运行,本质是在进程地址空间内运行。在Linux系统中,在CPU眼…...

用什么办法能实现ubuntu里面运行的自己开发的python程序能自动升级。

要实现Ubuntu中自己开发的Python程序自动升级,可以通过以下几种方式: 1. 使用 Git 仓库 定时任务 如果你的Python程序托管在Git仓库中,可以通过定时拉取最新代码来实现自动升级。 步骤: 确保Python程序在Git仓库中。在Ubuntu上…...

java处理pgsql的text[]类型数据问题

背景 公司要求使用磐维数据库,于是去了解了这个是基于PostgreSQL构建的,在使用时有场景一条图片数据中可以投放到不同的页面,由于简化设计就放在数组中,于是使用了text[]类型存储;表结构 #这是一个简化版表结构&…...

LeetCode 热门100题-字母异位词分组

2.字母异位词分组 题目描述: 给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan&q…...

耐张线夹压接图片智能识别

目录 一、图片压接部位定位1、图像准备2、人工标注3、训练4、推理5、UI界面 压接状态智能识别 一、图片压接部位定位 ,往往X射线照片是一个大图,进行图片压接部位定位目的是先找到需识别的部位,再进行识别时可排除其他图像部位的干扰&#x…...

ADC 的音频实验,无线收发模块( nRF24L01)

nRF24L01 采用 QFN20 封装,有 20 个引脚,以下是各引脚的详细介绍: 1. 电源引脚 ◦ VDD:电源输入端,一般接 3V 电源,为芯片提供工作电压,供电电压范围为 1.9V~3.6V。 ◦ VSS&#xf…...

企业SSL 证书管理指南

文章从以下几个部分展开 SSL证书的用途和使用场景SSL证书的申请类型和实现方式SSL证书的管理SSL证书的续签 一、SSL 证书的用途和使用场景 1.1 为什么要使用 SSL 证书? 1. 数据安全 🛡️- 在 HTTP 传输中,TCP 包可以被截获,攻…...

Python Pandas(7):Pandas 数据清洗

数据清洗是对一些没有用的数据进行处理的过程。很多数据集存在数据缺失、数据格式错误、错误数据或重复数据的情况,如果要使数据分析更加准确,就需要对这些没有用的数据进行处理。数据清洗与预处理的常见步骤: 缺失值处理:识别并…...

南京观海微电子----整流滤波电路实用

01 变压电路 通常直流稳压电源使用电源变压器来改变输入到后级电路的电压。电源变压器由初级绕组、次级绕组和铁芯组成。初级绕组用来输入电源交流电压,次级绕组输出所需要的交流电压。通俗的说,电源变压器是一种电→磁→电转换器件。即初级的交流电转化…...

【python】向Jira测试计划下,附件中增加html测试报告

【python】连接Jira获取token以及jira对象 # 往 jira 测试计划下面,上传测试结果html def put_jira_file(plain_id):# 配置连接jiraconn ConnJira()jira conn.jira_login()[2]path jira.issue(O45- plain_id)attachments_dir os.path.abspath(..) \\test_API…...

探索ChatGPT背后的前端黑科技

由于图片和格式解析问题,可前往 阅读原文 在人工智能与互联网技术飞速发展的今天,像ChatGPT这样的智能对话系统已经成为科技领域的焦点。它不仅能够进行自然流畅的对话,还能以多种格式展示内容,为用户带来高效且丰富的交互体验。然…...

Agents Go Deep 智能体深入探索

Agents Go Deep 智能体深入探索 核心事件 OpenAI发布了一款先进的智能体“深度研究”,它能借助网络搜索和推理生成研究报告。 最新进展 功能特性:该智能体依据数百个在线资源生成详细报告,目前仅支持文本输出,不过很快会增加对图…...

DeepSeek全生态接入指南:官方通道+三大云平台

DeepSeek全生态接入指南:官方通道三大云平台 一、官方资源入口 1.1 核心交互平台 🖥️ DeepSeek官网: https://chat.deepseek.com/ (体验最新对话模型能力) 二、客户端工具 OllamaChatboxCherry StudioAnythingLLM …...

c++TinML转html

cTinML转html 前言解析解释转译html类定义开头html 结果这是最终效果(部分): ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/6cf6c3e3c821446a84ae542bcc2652d4.png) 前言 在python.tkinter设计标记语言(转译2-html)中提到了将Ti…...

STM32硬件SPI函数解析与示例

1. SPI 简介 SPI(Serial Peripheral Interface)即串行外设接口,是一种高速、全双工、同步的通信总线,常用于微控制器与各种外设(如传感器、存储器等)之间的通信。STM32 系列微控制器提供了多个 SPI 接口&a…...

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容:参考网站: PID算法控制 PID即:Proportional(比例)、Integral(积分&…...

逻辑回归:给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告(肿瘤大小、血液指标),你需要做出一个**决定性判断**:恶性还是良性?这种“非黑即白”的抉择,正是**逻辑回归(Logistic Regression)** 的战场&a…...

抖音增长新引擎:品融电商,一站式全案代运营领跑者

抖音增长新引擎:品融电商,一站式全案代运营领跑者 在抖音这个日活超7亿的流量汪洋中,品牌如何破浪前行?自建团队成本高、效果难控;碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

Nginx server_name 配置说明

Nginx 是一个高性能的反向代理和负载均衡服务器,其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机(Virtual Host)。 1. 简介 Nginx 使用 server_name 指令来确定…...

数据链路层的主要功能是什么

数据链路层(OSI模型第2层)的核心功能是在相邻网络节点(如交换机、主机)间提供可靠的数据帧传输服务,主要职责包括: 🔑 核心功能详解: 帧封装与解封装 封装: 将网络层下发…...

成都鼎讯硬核科技!雷达目标与干扰模拟器,以卓越性能制胜电磁频谱战

在现代战争中,电磁频谱已成为继陆、海、空、天之后的 “第五维战场”,雷达作为电磁频谱领域的关键装备,其干扰与抗干扰能力的较量,直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器,凭借数字射…...

今日学习:Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

文章目录 优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义 使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因 常见解决方法更好的解决方法设计精妙之处 登录续期登录续期常见实现方式特…...

无人机侦测与反制技术的进展与应用

国家电网无人机侦测与反制技术的进展与应用 引言 随着无人机(无人驾驶飞行器,UAV)技术的快速发展,其在商业、娱乐和军事领域的广泛应用带来了新的安全挑战。特别是对于关键基础设施如电力系统,无人机的“黑飞”&…...

免费数学几何作图web平台

光锐软件免费数学工具,maths,数学制图,数学作图,几何作图,几何,AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)

macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 🍺 最新版brew安装慢到怀疑人生?别怕,教你轻松起飞! 最近Homebrew更新至最新版,每次执行 brew 命令时都会自动从官方地址 https://formulae.…...