当前位置: 首页 > article >正文

【助睿ETL】实验作业1——订单利润分流数据加工

目录一、实验背景1.1 实验目的1.2 实验环境1.3 业务场景1.4 数据加工流程二、实验步骤2.1 登录实验平台2.2 基本概念了解2.3 团队管理2.4 创建实验项目2.5 同步数据流2.6 新建转换流2.7 添加组件2.8 配置组件信息2.8.1 表输入组件配置2.8.2 记录集连接组件配置2.8.3 字段选择组件配置2.8.4 过滤记录组件配置2.8.5 Excel 输出组件配置2.9 执行转换2.10 查看执行日志2.11 查看结果三、实验结果四、核心组件说明五、问题与解决六、实验总结一、实验背景1.1 实验目的本次实验旨在熟悉助睿零代码数据集成平台ETL平台的核心功能和操作方法具体包括掌握新建转换、添加组件、配置组件信息、执行转换等基本操作流程熟悉表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的配置方法理解多表关联、数据过滤与分流处理的ETL设计思路通过本次实验我们能够独立使用助睿平台完成常见的数据加工任务为后续更复杂的数据处理场景打下基础。1.2 实验环境零代码在线实验平台本次实验使用助睿数智Uniplore作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。产品官网为https://www.uniplore.com/本次实验的访问地址为https://lab.guilian.cn/。数据库MySQL含订单数据和产品信息表数据准备订单表business_anaylsis.order_detail、产品表business_anaylsis.product1.3 业务场景在企业的经营分析中我们经常需要将多张表关联起来计算利润并按利润正负对订单进行分类存储。本实验以订单利润分流为例通过零代码拖拽方式完成这一数据处理任务。1.4 数据加工流程二、实验步骤2.1 登录实验平台打开贵兰在线PC端链接地址https://www.guilan.cn/home点击登录进入登录页面输入账号和密码即可登录未注册用户需先学号登录。登录成功后点击【我的学习】→ 选择【实训平台】→ 进入平台首页。进入实验平台首页如下图所示。2.2 基本概念了解助睿平台是什么 ——助睿平台是一款 AI 驱动的一站式大数据智能全流程服务产品本次实验所用到的数据集成平台可以通过可视化方式实现数据ETL抽取、转换、加载。基本概念如下概念说明Pipeline转换面向数据流处理数据的一个功能单元由多个Transform组成Workflow作业面向任务完成一件完整的事由多个Action组成必须包含开始项Transform步骤转换内的最小单元如“表输入”、“字段选择”每个步骤独立线程运行Action任务项作业的执行单位如“启动”、“发送邮件”Hops节点连接数据传输通道连接步骤或任务项2.3 团队管理点击【数据集成板块】选择【团队管理】点击【新增团队】创建自己的协作团队。在弹框中填写“团队名称” 和 “团队描述”点击【确认】即可完成团队的创建点击三个点选择【添加成员】。输入用户名称可快速查询选择好后点击【添加】即可完成团队成员的添加。完成后可以看到成员已经加入了我们的团队。2.4 创建实验项目切换至【我的项目】模块选择【所属团队】点击【新建项目】。填写好“项目名称” 点击【确定】。返回后即可在数据集成页面查看到新建的项目。2.5 同步数据流点击项目卡片右上角的三个小点选择【打开项目】。项目操作页面如下资源库用于管理工作流包括新建、删除、修改、查看工作流的信息导出和导入工作空间调度管理等操作。文件库用于保存工作流中需要用到的文件和工作流中产生的文件。元数据元数据管理是数据集成的重要基石为工作流定义“运行配置”、“数据库”、“flink集群”等配置。首先我们需要获取本次实验的数据集选择菜单【元数据】→ 右键【关系数据库】→ 点击【同步数据源】点击其他菜单再切换回【元数据】菜单即可看到成功同步的“线上公告数据源(Readonly)”。2.6 新建转换流为了实现本次实验的目标我们将创建“订单利润分流处理”转换流实现订单数据与产品信息的关联删除冗余字段后根据利润的正负将数据分流为盈利订单和亏损订单分别输出到Excel文件中。整体实验逻辑订单明细表 →左外连接产品信息表 → 移除重复的ID字段 → 根据利润profit的正负分流 → 输出盈利订单表/亏损订单表切换到菜单【资源库】右键项目的根目录点击【新建转换流】。在弹框中输入 “转换流名称”点击【确定】。在目录中选中我们的转换流右键点击【打开】进入转换流的设计画布。每次进入画布都处于锁定状态需要点击解锁才可编辑画布。2.7 添加组件点击组件库查找所需组件也可通过关键词快速检索。组件作用表输入读取原始数据记录集连接根据产品ID关联两张表字段选择移除重复的ID字段过滤记录根据利润正负分流Excel输出分别输出盈利订单/亏损订单1添加表输入组件2个—— 本次实验需要将两类数据进行合并计算需要读取2个不同表的数据。搜索并将两个表输入组件拖拽到画布中。右键表输入组件点击【编辑组件】。修改该 “步骤名称” 为“详细订单”同样地将另一表输入组件的 “步骤名称” 改为“产品信息”。2添加记录集连接组件—— 本次实验在使用表输入组件读取数据后需要通过记录集连接组件将表输入组件得到的数据进关联。搜索并将记录集连接组件拖拽到画布中。点击表输入组件创建表输入组件到记录集连接组件的连线。在建立连接线时会出现“排序需要”的提示。这是由于记录集连接组件是按接收数据的顺序进行记录关联的如果接受的数据是无序的可能会造成记录连接结果出错。3添加字段选择组件—— 两个表数据进行连接后会出现重复的字段“产品ID”。我们可以通过“字段选择”组件移除这个多余的字段。搜索并拖拽添加字段选择组件到画布。我们可以右键字段选择组件点击【编辑组件】将步骤名称改为“移除产品ID字段”。创建记录集连接组件到字段选择移除产品ID字段组件的连线。4添加过滤记录组件—— 本次实验需要根据订单的利润情况对订单进行分流处理。所以借助于“过滤记录”组件可以根据记录中的某个字段值对记录进行分流。搜索并拖拽过滤记录组件到画布中。创建字段选择字段组件到过滤记录组件的连线在弹出的系统提示中选择连接线类型为【主输出步骤】。5添加Excel输出组件2个—— 记录经过“过滤记录”组件后会根据条件被分成2个记录流。我们可以根据业务需求将2个记录输出到指定位置。在本次实验中我们选择将记录分别输出到2个 Excel 文件中。搜索并拖拽2个 excel 输出组件到画布中。右键点击【编辑组件】将两个组件的“步骤名称”分别改为盈利订单、亏损订单。创建过滤记录组件到Excel输出组件的连线并选择连接线类型为True输出→ 盈利订单、False输出→ 亏损订单至此本次实验的任务转换流程构建完毕如下图所示。2.8 配置组件信息在添加完组件搭建完整体转换流程后我们需要对每个组件进行相应的配置。2.8.1 表输入组件配置双击详细订单组件弹出组件配置页面。在“数据库连接”的下拉框中选择已同步的“线上公共数据源Readonly”如下图所示点击【获取SQL查询语句】自动生成SQL语句。点开“线上公共数据源” - “表”目录下滑找到“business_anaylsis.order_detail”并点击它点击【确定】。或直接在搜索栏输入关键词查找在弹出的 “是否在SQL中包含字段名” 提示中选择【确认】。之后可以看到系统自动填充了完整的SQL查询语句若系统给出的语句无法满足业务需求时也可手动在文本框中编写自定义语句。表输入组件的其他参数保持默认即可。另一表输入组件产品信息的配置也参照上述步骤获取“business_anaylsis.product”的SQL查询语句。2.8.2 记录集连接组件配置双击记录集连接组件在下拉列表中选择需要连接的数据来源“第一个Transform” 选择详细订单“第二个Transform” 选择产品信息“连接类型” 选择LEFT OUTER。点击第一个Transform的连接字段【获取连接字段】按钮即可看到在详细订单中查询到的字段。同样地获取第二个Transform的连接字段。接下来我们仅保留第一个Transform的连接字段product_id与第二个Transform的连接字段id进行左外连接。删除其余字段。2.8.3 字段选择组件配置数据经记录集连接后我们发现字段product_id与字段id内容相同只需要保留一个。因此我们接下来使用字段选择组件“移除产品ID字段”的移除选项来移除字段 id 。双击字段选择“移除产品ID字段”组件点击【移除】并右键点击【获取字段】。将获取得到的字段中除了“id”之外的字段都删掉。确认只剩下 id 字段后点击【确认】。2.8.4 过滤记录组件配置根据业务要求我们需要将盈利订单和亏损订单分开存储两个订单表可以使用利润字段profit来区分。双击过滤记录组件在弹窗的下拉列表中选择将结果发送给不同的后续处理步骤。选择profitNumber字段作为判断字段field点击【确定】。选择作为判断条件点击【确定】。点击【Value】类型选择Integer值输入0点击【确定】。完整的过滤记录组件配置如下图所示2.8.5 Excel 输出组件配置为了将接收到的结果正确地写入到Excel表中我们需要对 excel 输出组件进行配置。双击盈利订单 excel 表输出组件在配置弹窗中将 “文件名” 设置为盈利订单选择文件 “拓展名” 为xlsx [Excel 2007 and above]。点击【输出字段】右键点击【获取字段】字段成功获取后点击【确认】。同样地对亏损订单 excel 表输出组件进行上述同样的配置。2.9 执行转换将组件都配置完成后我们就可以点击启动按钮执行转换任务了。流程图中的组件上出现✔️号证明已经成功运行了。2.10 查看执行日志任务执行过程中相关的操作会记录到日志中任务执行完毕后我们可以查看执行结果及日志。2.11 查看结果点击【文件库】菜单右键根目录【刷新】即可看到得到的输出结果盈利订单和亏损订单可以右键下载到本地查看具体内容。三、实验结果输出文件内容说明盈利订单profit≥0的订单可用于进一步分析高利润产品亏损订单profit0的订单可用于追踪产品亏损的源因四、核心组件说明组件作用本实验的配置要点表输入读取数据库表配置数据源和SQL自动获取字段记录集连接多表关联选择连接类型和连接字段字段选择字段筛选与重命名移除重复的 id字段过滤记录按条件分流设置判断条件为profit≥0Excel 输出导出结果配置文件名和输出字段五、问题与解决本次实验过程中我们遇到了一个问题问题Excel 输出组件文件名未正确配置导致结果未实现分流所有数据仅生成单个默认文件导致功能失效解决方法配置两个 Excel 输出组件执行转换后仅在文件库中生成了一个名为file的表格文件分流功能未实现且系统执行逻辑异常。经检查发现编写输出组件配置时仅修改了组件的步骤名称未修改组件的输出文件名两个组件均保留了默认的file文件名导致不同分支的数据被写入了同一个文件中平台无法区分不同分支的输出。将两个输出组件的 “文件名” 分别修改为对应业务的名称后重新执行转换成功实现了数据分流两个分支的数据分别生成了独立的文件功能恢复正常。六、实验总结通过本次实验我们熟悉了助睿ETL平台的一些基本操作方法具体包括创建团队、创建项目、同步数据源、新建转换流、添加和配置组件、构建完整的转换流程图、执行转换及查看结果。掌握了表输入、记录集连接、字段选择、过滤记录、Excel输出等组件的配置方法。理解了数据处理在实际业务场景下的应用以及如何通过构建转化流实现我们的数据处理需求比如本次实验中我们就用到了多表连接左外连接、去除冗余数据、条件分流等在数据处理中的应用。相较于传统的编写SQL脚本实现数据处理助睿平台的零代码操作界面对于我们而言更加清晰友好整体的数据流向以及实现步骤都非常直观也可以快速定位和调试。

相关文章:

【助睿ETL】实验作业1——订单利润分流数据加工

目录 一、实验背景 1.1 实验目的 1.2 实验环境 1.3 业务场景 1.4 数据加工流程 二、实验步骤 2.1 登录实验平台 2.2 基本概念了解 2.3 团队管理 2.4 创建实验项目 2.5 同步数据流 2.6 新建转换流 2.7 添加组件 2.8 配置组件信息 2.8.1 表输入组件配置 2.8.2 记…...

嵌入式编程学习日记(一)——C语言篇(文件分析库函数版)

一、core文件夹存储上电后第一个执行的文件,负责初始化堆栈、中断向量表、跳转到 main()。标准库工程里这个文件是固定的,别动它。二、FWLIB 文件夹存储 STM32 官方提供的标准外设库(固件库),里面包含所有外设的驱动文…...

ESP32内存告急?手把手教你用ESP-IDF的cJSON库避免内存泄漏(附实战代码)

ESP32内存告急?手把手教你用ESP-IDF的cJSON库避免内存泄漏(附实战代码) 在ESP32开发中,处理JSON数据是物联网设备与服务器通信的常见需求。cJSON作为轻量级的JSON解析库,因其高效和易用性被广泛采用。然而&#xff0c…...

AI无所不能的时代,我们该学什么?

原文:AI小揭秘 当AI能写代码、作诗歌、解难题,很多人开始迷茫:“我们的学习还有意义吗?” 在这个AI狂飙的时代,何楚涵博士的一场演讲,或许能为我们拨开迷雾——AI再厉害,也替代不了人的思考、温…...

答辩前3小时,我用百考通AI高效搞定毕业答辩PPT

写在前面:毕业季的答辩周,总能看到凌晨三点的宿舍亮着灯。有人对着空白的PPT页面发呆,有人在各种免费模板网站间来回切换,却始终找不到符合学术答辩风格的模板。毕业论文答辩PPT,从来不是论文的简单搬运,而…...

WRF输出变量管理避坑指南:从iofields配置到多流输出,一次讲清常见错误

WRF输出变量管理避坑指南:从iofields配置到多流输出,一次讲清常见错误 当你在深夜盯着WRF运行日志,发现关键变量莫名其妙消失时,那种抓狂感我深有体会。作为经历过无数次iofields配置翻车的老司机,今天我要分享的不仅…...

风控特征缓存怎么设计?一次讲清热点特征、批量查询、缓存失效与一致性边界

风控特征缓存怎么做才不拖主链路?热点特征、批量查询、失效与一致性取舍 这篇直接按风控特征缓存来拆,不只讲“Redis 缓一下”,而是把缓存分层、失效、一致性和降级边界讲清楚。 目标是你看完后,能把风控缓存从一层 Redis&#xf…...

两个线程循环打印奇偶数

题目要求:两个线程循环打印奇偶数。1.示例1:输入:7输出:OddThread: 1 EvenThread: 2 OddThread: 3 EvenThread: 4 OddThread: 5 EvenThread: 6 OddThread: 72.示例2:输入:5输出:OddThread: 1 Ev…...

算法训练营第十六天 | 反转字符串 II

今日训练题:541. 反转字符串 II 思路: 把字符串按「每 2k 个字符」分成一段一段,每一段里,只反转前 k 个字符,后 k 个保持不变;如果最后一段不足 2k 个字符,就按规则处理。 代码如下&#xff1a…...

Win11笔记本耳机没弹窗?手把手教你修复Realtek Audio Console的RPC连接问题

Win11耳机弹窗消失?深度解析Realtek音频驱动RPC连接修复指南 引言:当科技便利变成日常烦恼 清晨七点,小王习惯性戴上耳机准备开始一天的工作,却发现笔记本毫无反应——那个熟悉的设备选择弹窗消失了。这不是个例,自Win…...

Pandas可视化

目录 一.单变量可视化 1.柱状图 2.折线图 3.面积图 4.直方图 5.饼状图 二.双变量可视化 1.散点图 2.蜂窝图 3.堆叠图 4.折线图 pandas提供了非常方便的绘图功能,可以直接在DataFrame或Series上调用plot()方法来生成各种类型的图表。底层实现依赖于Matplo…...

OO第二单元博客

第二单元 多线程电梯 学习总结报告 一、三次作业同步块设置、锁的选择及锁与代码逻辑的关系 回顾本单元三次电梯迭代作业,我对于锁的概念与使用、临界区保护、线程共享和资源竞争有了完整的实践理解。 在整体代码结构中,我主要采用对象锁的方式进行并发控…...

如何快速搭建本地语音识别系统:高效隐私保护的完整指南

如何快速搭建本地语音识别系统:高效隐私保护的完整指南 【免费下载链接】TMSpeech 腾讯会议摸鱼工具 项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech TMSpeech是一款完全本地化的Windows实时语音转文字工具,通过创新的插件化架构和多源音…...

LLM作为AI对话评估裁判的实践与优化

1. 项目背景与核心问题去年参与一个AI对话系统评测项目时,我们遇到一个棘手问题:人工评估成本太高,不同评审员的标准差异大。当时团队尝试用GPT-4作为辅助裁判,意外发现它在某些维度比人类评审更稳定。这个发现促使我系统性地研究…...

LongWayToGo

1. 什么是 Apache SeaTunnel? Apache SeaTunnel 是一个非常易于使用、高性能、支持实时流式和离线批处理的海量数据集成平台。它的目标是解决常见的数据集成问题,如数据源多样性、同步场景复杂性以及资源消耗高的问题。 核心特性 丰富的数据源支持&#…...

跟着 MDN 学 HTML day_3:(表单CSS美化实战与盒子模型三大核心属性详解)

一、学习前言 本次是跟着MDN官方文档零基础攻坚HTML前端系列的第三天学习打卡。前两天我们已经完整吃透原生表单语义结构、全套实用表单控件、表单name和value键值对提交底层原理,能独立手写合规可提交的原生基础表单。 原生默认表单自带浏览器原生丑陋样式&#xf…...

用MATLAB复现MIMO信道容量仿真:从瑞利信道建模到注水法代码详解

MIMO信道容量仿真实战:从瑞利建模到注水算法的MATLAB实现解析 在无线通信系统的演进历程中,多输入多输出(MIMO)技术堪称是突破性的创新。它通过在收发两端配置多个天线,巧妙利用空间维度资源,实现了通信容量…...

AlphaOPT:基于LLM自改进经验库的智能优化框架

1. 项目概述AlphaOPT是一个基于自改进大语言模型(LLM)经验库的优化程序构建框架。这个项目最吸引我的地方在于它创造性地将LLM的自我学习能力与传统优化算法相结合,形成了一种新型的智能优化范式。在实际工程优化问题中,我们常常会遇到传统算法收敛慢、易…...

抖音下载神器:5分钟掌握批量无水印下载技巧

抖音下载神器:5分钟掌握批量无水印下载技巧 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音批…...

苹果微软双修党福音:Navicat如何熟悉Mac版专属快捷键_硬核实战技巧

Cmd Y 新建查询窗口,Cmd R 运行全部,F8 运行选中或当前行,Cmd Shift R 仅运行选中部分;双击表名或 Cmd D 跳转结构页;Ctrl Shift 数字秒开收藏对象;Shift Cmd C 打开数据库原生命令行。Mac版Navic…...

如何用Faster-Whisper-GUI实现高效音频视频转文字

如何用Faster-Whisper-GUI实现高效音频视频转文字 【免费下载链接】faster-whisper-GUI faster_whisper GUI with PySide6 项目地址: https://gitcode.com/gh_mirrors/fa/faster-whisper-GUI 你是否曾为整理会议录音、制作视频字幕或转录课程内容而烦恼?手动…...

开源色彩管理革命:OpenColorIO配置为ACES的终极指南

开源色彩管理革命:OpenColorIO配置为ACES的终极指南 【免费下载链接】OpenColorIO-Config-ACES 项目地址: https://gitcode.com/gh_mirrors/op/OpenColorIO-Config-ACES 在数字内容创作领域,色彩一致性是专业制作的生命线。OpenColorIO配置为ACE…...

STL核心:vector动态数组完全指南

一、STL 整体介绍STL 是 C 标准模板库,三大核心组件:容器:存放数据(vector、string、list、map 等)算法:排序、查找、遍历、交换迭代器:容器通用访问指针STL 优势:无需手动造轮子&am…...

保姆级教程:Ubuntu 20.04/18.04系统下Atlas 300i Pro/T 芯片驱动、CANN 6.3.RC1及MindSpore 2.0环境配置详解

昇腾AI开发环境全栈配置指南:Ubuntu系统下的Atlas 300i Pro/T芯片实战 在AI算力需求爆炸式增长的今天,企业级AI加速卡的环境配置效率直接决定了算法团队的研发效能。本文将深入解析基于Ubuntu 18.04/20.04的昇腾Atlas 300i Pro/T系列加速卡全栈开发环境搭…...

ChatGPT机器人集成实战:从API调用到生产级对话系统构建

1. 项目概述:一个为机器人开发者准备的ChatGPT文档库如果你正在开发一个聊天机器人、智能客服,或者任何需要接入自然语言对话能力的应用,那么你大概率已经听说过ChatGPT的API。它的能力毋庸置疑,但官方文档更多是面向通用场景的AP…...

AI也有“失忆症“?Kenotic Labs提出的“连续性层“或许是彻底的解法

这项由Kenotic Labs独立研究机构发布的论文,于2026年4月以预印本形式公开,编号为arXiv:2604.17273,作者为该机构创始人Samuel Sameer Tanguturi。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。每次打开一个AI对话窗口&#xff…...

从‘遗忘’到‘更新’:用PyTorch拆解GRU的门控逻辑,可视化理解它为何比LSTM更简单

从‘遗忘’到‘更新’:用PyTorch拆解GRU的门控逻辑,可视化理解它为何比LSTM更简单 循环神经网络(RNN)在处理序列数据时表现出色,但在面对长序列时常常会遇到梯度消失或爆炸的问题。为了解决这个问题,研究者…...

基于Alexa与GPT-4构建智能语音助手:从架构设计到部署实践

1. 项目概述与核心价值 最近在折腾智能家居和语音助手,发现一个挺有意思的开源项目,叫 alexandremendoncaalvaro/skill-alexa-chatgpt4 。简单来说,这是一个能让你的亚马逊 Alexa 设备(比如 Echo 音箱)直接调用 Cha…...

IBM Plex字体:企业级开源字体解决方案完全指南

IBM Plex字体:企业级开源字体解决方案完全指南 【免费下载链接】plex The package of IBM’s typeface, IBM Plex. 项目地址: https://gitcode.com/gh_mirrors/pl/plex 你是否曾为寻找一款既专业又免费、既美观又实用的字体而烦恼?🤔 …...

Vernclaw Connect CLI:命令行网络隧道与连接管理的瑞士军刀

1. 项目概述与核心价值 最近在折腾一些需要跨网络、跨设备进行安全通信和管理的自动化脚本时,遇到了一个痛点:如何在不依赖复杂图形界面和重型管理平台的情况下,快速、安全地建立点到点的连接,并执行远程命令或文件传输&#xff1…...