当前位置：首页 > news >正文

六种主流ETL工具的比较与Kettle的实践练习指南--MySQL、hive、hdfs等之间的数据迁移

news 2026/5/30 22:38:00

在数据集成和数据仓库建设中，ETL（Extract, Transform, Load）工具扮演着至关重要的角色。本文将对六种主流ETL工具进行比较，并深入探讨Kettle的实践应用。

一、六种主流ETL工具比较

1. DataPipeline

设计及架构：专为超大数据量、高度复杂的数据链路设计的灵活、可扩展的数据交换平台。
使用方式：全流程图形化界面，Cloud Native架构，所有操作在浏览器内完成，无需额外开发。
底层架构：分布式集群高可用架构，自动调节任务在节点间分配，适用于大数据场景。

2. Kettle

设计及架构：面向数据仓库建模的传统ETL工具。
使用方式：C/S客户端模式，开发和生产环境需要独立部署，任务编写、调试、修改都在本地。
底层架构：主从结构非高可用，扩展性差，不适用大数据场景。

3. Oracle Goldengate

设计及架构：主要用于数据备份、容灾。
使用方式：没有图形化界面，操作皆为命令行方式，可配置能力差。
底层架构：可做集群部署，依赖于外部环境，如Oracle RAC等。

4. Informatica

设计及架构：面向数据仓库建模的传统ETL工具。
使用方式：C/S客户端模式，学习成本较高，一般需要受过专业培训的工程师才能使用。

5. Talend

设计及架构：面向数据仓库建模的传统ETL工具。
使用方式：C/S客户端模式，开发和生产环境需要独立部署。

6. DataX

设计及架构：面向数据仓库建模的传统ETL工具。
使用方式：DataX是以脚本的方式执行任务的，需要完全吃透源码才可以调用。

二、Kettle实践指njie

1. MySQL到MySQL数据迁移

任务描述：将一个表中的数据t_user导入到另一个表中t_user2。

操作步骤：

选择“表输入”步骤，连接MySQL数据库，选择t_user表。

选择“表输出”步骤，连接MySQL数据库，选择t_user2表。

确保字段映射正确，执行转换。

2. 根据条件导出到不同的Excel

任务描述：根据字段值导出到不同的Excel文件。

操作步骤：

使用“选择”步骤，根据字段值进行条件筛选。

第一个Excel输出选择带有 defalut的字样的，第二个Excel中选择带有 new 字样的选项。

使用“写入Excel文件”步骤，将筛选后的数据写入不同的Excel文件。

3. 执行SQL脚本

任务描述：使用Kettle执行SQL脚本，如truncate table t_user2。

操作步骤：

使用“SQL执行”步骤，输入SQL脚本并执行。

sql语句：
truncate table t_user2

4. Hive数据导出到MySQL

任务描述：将Hive的数据导出到MySQL。

操作步骤：

使用“表输入”步骤，连接Hive数据库。

报错：

配置如下：

如何找到hive-jdbc的jar包？

使用“表输出”步骤，连接MySQL数据库。

当预览hive中的数据失败时：

在hive中的字段名字要和数据库的字段名字一样，不能在建数据库的时候，修改列的名字，否则不照样，会失败，建表语句中varchar类型后面，记得添加长度。

5. MySQL数据导入Hive

任务描述：将MySQL的数据导入Hive。

操作步骤：

使用“表输入”步骤，连接MySQL数据库。按上文操作

使用“表输出”步骤，连接Hive数据库。按上文操作

输入是表输入，使用 mysql ,输出是表输出，使用 hive

如果直接做，报错！

2024/09/11 17:19:29 - 表输出.0 - Caused by: org.pentaho.di.core.exception.KettleDatabaseException: 
2024/09/11 17:19:29 - 表输出.0 - Error setting value #9 [Date] on prepared statement
2024/09/11 17:19:29 - 表输出.0 - Method not supported
2024/09/11 17:19:29 - 表输出.0 - 
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.row.value.ValueMetaBase.setPreparedStatementValue(ValueMetaBase.java:5477)
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.database.Database.setValue(Database.java:1080)
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.database.Database.setValues(Database.java:1096)
2024/09/11 17:19:29 - 表输出.0 - 	... 4 more
2024/09/11 17:19:29 - 表输出.0 - Caused by: java.sql.SQLFeatureNotSupportedException: Method not supported
2024/09/11 17:19:29 - 表输出.0 - 	at org.apache.hive.jdbc.HivePreparedStatement.setDate(HivePreparedStatement.java:460)
2024/09/11 17:19:29 - 表输出.0 - 	at org.pentaho.di.core.row.value.ValueMetaBase.setPreparedStatementValue(ValueMetaBase.java:5412)
2024/09/11 17:19:29 - 表输出.0 - 	... 6 more

通过查看错误，发现是 Date 类型的错误，所以，修改表输入中的 SQL 语句：

SELECTid
, name
, age
, gender
, province
, city
, region
, phone
, date_format(birthday,'%Y-%m-%d') birthday
, hobby
, date_format(register_date,'%Y-%m-%d %h:%i:%s') register_date
FROM kettle_demo.t_user

问题解决！！

有时候，运行成功，有时候只能导入 2 条数据，然后报错，可以在 hive 的 conf 下的 .hiverc 下，添加如下：

set hive.stats.column.autogather=false;

然后不需要重启 hiveserver2 以及 kettle，直接运行即可。

如果还不行，直接修改 hive-site.xml

把里面的true改为false 重启hive和kettle 。

6. 将MySQL数据导入HDFS

任务描述：将MySQL的数据导入HDFS。

操作步骤：

使用“表输入”步骤，连接MySQL数据库。按上文操作

使用“Hadoop文件输出”步骤，配置HDFS路径和权限。

重启 kettle，进入之后：

查看报告：

假如你使用了 hdfs 自带的文件夹，比如/home，会报没有权限的错误

报错内容：

2024/09/12 09:48:08 - Hadoop file output.0 - Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Administrator, access=WRITE, inode="/home":root:supergroup:drwxr-xr-xat org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:504)at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:336)at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:242)at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1939)at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1923)at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1882)

解决办法：修改 hdfs 中的文件夹的权限：

hdfs dfs -chmod -R 777 /home

假如你使用的是一个全新的路径，是不会报权限错误的。

7. Job任务

任务描述：使用Kettle的Job功能进行任务编排。

操作步骤：

在新建中，选择【作业】即可进入作业编辑界面

根据需求添加相应的步骤和转换。

Start 如果不想定时执行，什么都可以不用设置；

完成：什么都不用设置

复杂的job 图表展示：有点类似于我们之前的任务编排（编排的是转换）。

如果出现如下问题：

在job 这个任务保存的时候，不要保存在中文路径下。保存在非中文路径下。其他ETL工具：

三、总结

ETL工具的选择应根据项目需求、数据量、易用性、稳定性等因素综合考虑。Kettle作为一款开源的ETL工具，具有强大的数据处理能力和灵活的配置选项，适合各种规模的数据集成任务。通过本文的实践指南，希望能帮助大家更好地理解和使用Kettle。

参考链接

六种主流ETL工具的比较
闫哥大数据--73-kettle的介绍和安装_哔哩哔哩_bilibili

六种主流ETL工具的比较与Kettle的实践练习指南--MySQL、hive、hdfs等之间的数据迁移

在数据集成和数据仓库建设中，ETL（Extract, Transform, Load）工具扮演着至关重要的角色。本文将对六种主流ETL工具进行比较，并深入探讨Kettle的实践应用。一、六种主流ETL工具比较 1. DataPipeline 设计及架构：专为…...

编程日记 2024/9/22 7:26:54

一天一道算法题day07

找出字符中第一个匹配的下标题目描述给你两个字符串 haystack 和 needle ，请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标（下标从 0 开始）。如果 needle 不是 haystack 的一部分，则返回 -1 。示例 1&#…...

编程日记 2024/9/22 7:25:53

电机学习-有感BLDC开环控制（六步换相）

文章目录 1. 简介2. 六步换向控制3. 机械角度和电角度4.转子位置获取5.霍尔传感器读取测试6.速度开环控制6.1 PWM设置6.2死区时间 1. 简介 BLDC的反电动势一般是梯形的反电动势，所以采用方波控制。如图2-1所示，是一个简化的内转子无刷直流电机。我们通过…...

编程日记 2024/9/22 7:24:52

《深度学习》PyTorch框架优化器、激活函数讲解

目录一、深度学习核心框架的选择 1、TensorFlow 1）概念 2）优缺点 2、PyTorch 1）概念 2）优缺点 3、Keras 1）概念 2）优缺点 4、Caffe 1）概念 2）优缺点二、pytorch安装 1、安装 2、…...

编程日记 2024/9/22 7:22:50

Linux：进程（四）

目录一、进程优先级二、Linux调度与切换 1.背景 2.进程切换一、进程优先级背景：在计算机中，软硬件资源是有限的，而进程想要访问某一种资源，就得通过排队来保证访问资源的过程是有条不紊的。 Linux下对优先级的定义。执行命…...

编程日记 2024/9/22 7:21:48

CTC loss 博客转载

论文地址： https://www.cs.toronto.edu/~graves/icml_2006.pdf 为了对应这个图，我们假设一种符合的模型情况： 英文OCR，37个类别（26个小写字母10个汉字空格），最大输出长度8个字符模型预测结果…...

编程日记 2024/9/22 7:20:47

TryHackMe 第3天 | Pre Security (中)

该学习路径讲解了网络安全入门的必备技术知识，比如计算机网络、网络协议、Linux命令、Windows设置等内容。上一篇中简短介绍了计算机网络相关的知识，本篇博客将记录网络协议部分。 How the web works? DNS in detail DNS (Domain name system&…...

编程日记 2024/9/22 7:18:45

c语言中“qsort函数”和“结构体成员访问变量”

qsort函数： qsort是c语言中的库函数，这个函数是对数据进行排序（对任意） 冒泡排序中排列整数顺序用的函数只适用于整形，而qsort函数适用与所有数据排序算法冒泡排序插入选择快速 void qsort{ void * base&…...

编程日记 2024/9/22 7:17:43

【MySQL】在MySQL中STR_TO_DATE()

1.在MySQL中STR_TO_DATE() 在MySQL中，STR_TO_DATE() 函数用于将字符串转换为日期格式。这个函数非常有用，当你需要将文本数据转换为可由MySQL日期和时间函数处理的格式时。 1.1 语法 STR_TO_DATE() 函数的基本语法如下： STR_TO_DATE(date…...

编程日记 2024/9/22 7:15:42

PCIE集成验证(五）MSI/MSI-X中断

PCI 总线最早采用的中断机制是 INTx，这是基于边带信号的。后续的 PCI/PCI-X版本，为了消除边带信号，降低系统的硬件设计复杂度，逐渐采用了 MSI(Message Signaled Interrupt)/MSI-X（消息信号中断）的中断机制。…...

编程日记 2024/9/22 7:09:37

leetcode 380.O(1) 时间插入、删除和获取随机元素

实现RandomizedSet 类： RandomizedSet() 初始化 RandomizedSet 对象bool insert(int val) 当元素 val 不存在时，向集合中插入该项，并返回 true ；否则，返回 false 。bool remove(int val) 当元素 val 存在时&#xff0…...

编程日记 2024/9/22 7:08:36

基于MicroPython的ESP8266控制PS2摇杆模块的设计方案

以下是一个基于MicroPython的ESP8266控制PS2摇杆模块的设计方案： 一、硬件准备： 1. 一块ESP8266开发板，如NodeMCU 2. 一个带有X、Y轴模拟输出和Z轴(按钮)数字输出的PS2摇杆模块 3. 杜邦线若干 4. 3.3V直流电源二、硬件连接&#xff1a…...

编程日记 2024/9/22 7:07:35

Spring Boot 3项目使用Swagger3教程

Spring Boot 3项目使用Swagger3教程 Swagger：自动生成接口文档添加依赖(pom.xml) <dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-openapi3-jakarta-spring-boot-starter</artifactId><version>4.1…...

编程日记 2024/9/22 7:05:32

linux-系统备份与恢复-系统恢复

Linux 系统备份与恢复：系统恢复 1. 概述 Linux 系统的恢复是系统管理的重要组成部分，它指的是在系统崩溃、硬件故障、误操作或安全问题后，恢复系统到可用状态的过程。良好的系统恢复计划可以有效避免数据丢失和业务中断，并确保系…...

编程日记 2024/9/22 7:04:31

【Rust语言】std::collections::HashMap用法

HashMap用法文档文章目录创建键的要求增删改查增: insert删: remove/remove_entry改单点修改 get_mut整体修改 values_mut/iter_mut 查集增改于一身的entry 遍历只读遍历into_values() 与 into_keys()容量、实际长度、判空导出清除重定容量 use std::collections::HashMap;创…...

编程日记 2024/9/22 7:03:30

使用SoapUI、Postman工具调用Webservice方法

SoapUI工具更适合调用Webservice使用。 1.使用SoapUI工具调用Webservice 创建“New SOAP Project” 自行定义一个项目名称，输入wsdl地址： 在左侧列表找到方法名，双击“Request 1”, 在请求数据中，添加对应的参数，然…...

编程日记 2024/9/22 7:01:29

js 与 C++引用和指针的关系

js 与 C引用和指针的关系 js 中既有引用的影子, 也有指针的影子。 1、引用用法这里相当于C 中的引用, b是a的引用, 修改b ,a也改变。 var a { 1: 1 }var b a;a null;b[2] 2;console.error(b); // { 1: 1, 2: 2 }2、指针用法这里 a,b应该按照指针理解。 var a undef…...

编程日记 2024/9/22 6:58:26

python --PyAibote自动化

官文: https://www.pyaibote.com/ 下载安卓集成环境: 可以看到开发的一些信息...

编程日记 2024/9/22 6:57:25

一，Android源码编译环境搭建 1 安装Java Development Kit (JDK) sudo apt-get update sudo apt-get install openjdk-8-jdk 2,确认JDK安装成功 java -version 3,安装编译所需的依赖项 sudo apt-get install git-core gnupg flex bison gperf build-essential zip cu…...

编程日记 2024/9/22 6:55:22

lvs-dr模式实验详解

华子目录 lvs-dr（企业当中最常用）dr模式数据逻辑dr模式数据传输过程dr模式的特点实验拓扑实验主机准备解决vip响应问题限制响应级别:arp_ignore限制通告级别:arp_announce 实验步骤1.client的ip设定2.router上的ip设定3.router开启路由转发功能4.lvs主机…...

编程日记 2024/9/22 6:52:18

Qwen3-Coder-30B-A3B-Instruct-FP8：终极代码模型对比分析指南

Qwen3-Coder-30B-A3B-Instruct-FP8：终极代码模型对比分析指南【免费下载链接】Qwen3-Coder-30B-A3B-Instruct-FP8 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8 在当今AI代码生成领域，Qwen3-Coder-30B-…...

编程新知 2026/5/26 4:42:23

酒店门锁V10SDK接口说明-幽冥大陆(一百23)—东方仙盟

相关文件系统环境C# :NET.20,NET3.5,NET4,NET4.5,NET 5.0C:VS2005,VS2012,VS2015操作系统：未来之窗VOSWEB:CHROME43核心代码完整代码using System; using System.Collections.Generic; using System.Text; using System.Collections.Specialized;using System.Windo…...

编程新知 2026/5/26 3:13:58

DMA-330地址空间限制与扩展方案解析

1. DMA-330地址空间限制解析DMA-330作为Arm CoreLink系列中的直接内存访问控制器，其物理寻址能力直接由AxADDR信号宽度决定。这个32位地址总线宽度意味着它原生仅支持4GB（2^32字节）的物理地址空间访问。在实际嵌入式系统设计中，这…...

编程新知 2026/5/26 3:11:57

Java数组工具类实战：设计不可实例化的静态工具类

实现一个工具类 MathUtils，满足以下要求： 1. 所有方法均为静态，且该类不能从外部实例化（提示：使用私有构造器）。 2. 提供三个静态方法：- maxArray(int[] arr)：返回较大值&#xff1b…...

编程新知 2026/5/26 1:51:13

【深度解析】AI Coding 模型竞速：从 Claude Mythos 安全编码到 GPT-5.6 传闻，如何落地代码审查智能体

摘要 AI 编码模型正在从“代码补全”进入“复杂代码库理解、漏洞发现与自动修复”阶段。本文结合 Claude Mythos、Claude Opus 4.8 与 GPT-5.6 相关信息，解析新一代 Coding Agent 的技术趋势，并给出基于大模型 API 的代码安全审查实战方案。背景介绍&…...

编程新知 2026/5/25 23:31:41

Codex使用API Key授权无法使用插件？

小伙伴们，大家好，我是小溪，见字如面。对于没有ChatGPT账号的小伙伴来说，虽然可以通过API Key授权的方式使用Codex桌面端，但是会有一些限制。比如无法使用插件功能，无法使用Codex移动端进行远程控制等。为了…...

编程新知 2026/5/25 21:15:35

【Lindy营销自动化工作流终极指南】：20年实战验证的7大反脆弱性设计原则，92%企业漏掉的关键衰减阈值

更多请点击： https://intelliparadigm.com 第一章：Lindy营销自动化工作流的基本范式与历史验证 Lindy效应指出，一个事物的预期剩余寿命与其当前年龄成正比——在营销自动化领域，Lindy范式体现为：经时间检验仍被广泛采…...

编程新知 2026/5/25 20:53:11

终极免费音乐解锁工具：打破平台枷锁，让音乐重获自由

终极免费音乐解锁工具：打破平台枷锁，让音乐重获自由【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地…...

编程新知 2026/5/25 20:01:41

UE4SS终极指南：从零开始掌握虚幻引擎脚本系统

UE4SS终极指南：从零开始掌握虚幻引擎脚本系统【免费下载链接】RE-UE4SS Injectable LUA scripting system, SDK generator, live property editor and other dumping utilities for UE4/5 games 项目地址: https://gitcode.com/gh_mirrors/re/RE-UE4SS UE4S…...

编程新知 2026/5/26 20:05:55

【小白快速上手】 OpenClaw 安装部署全流程（含安装包）

OpenClaw 一键安装包｜一键部署，告别复杂环境配置适配系统：Windows10/11 64 位当前版本：v2.7.5（虾壳云版）核心优势：全程可视化操作，无需命令行、无需手动配置 Python/Node.js&#…...

编程新知 2026/5/25 15:26:05

一、六种主流ETL工具比较

1. DataPipeline

2. Kettle

3. Oracle Goldengate

4. Informatica

5. Talend

6. DataX

二、Kettle实践指njie

1. MySQL到MySQL数据迁移

2. 根据条件导出到不同的Excel

3. 执行SQL脚本

4. Hive数据导出到MySQL

5. MySQL数据导入Hive

6. 将MySQL数据导入HDFS

7. Job任务

三、总结

参考链接

相关文章：