当前位置: 首页 > article >正文

大数据 ETL 工具 Sqoop 深度解析与实战指南

一、Sqoop 核心理论与应用场景

1.1 设计思想与技术定位

Sqoop 是 Apache 旗下的开源数据传输工具,核心设计基于MapReduce 分布式计算框架,通过并行化的 Map 任务实现高效的数据批量迁移。其特点包括:

批处理特性:基于 MapReduce 作业实现导入 / 导出,适合大规模离线数据迁移,不支持实时数据同步

异构数据源连接:支持关系型数据库(如 MySQL、Oracle)与 Hadoop 生态(HDFS、Hive、HBase)间的数据流转。

1.2 业务数据的本质

业务数据指系统正常运行过程中产生的结构化数据,例如:

银行办卡场景:用户提交的身份信息、申请表单等数据写入银行核心系统。

电商交易:订单详情、用户行为日志等构成业务数据主体。
这类数据通常存储在关系型数据库中,需通过 Sqoop 导入大数据平台进行分析。

二、Sqoop 安装与环境配置

2.1 安装步骤

  1. 上传与解压

    tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /opt/installs/
    
  2. 重命名与环境变量配置

    mv /opt/installs/sqoop-1.4.7.bin__hadoop-2.6.0 /opt/installs/sqoop
    vi /etc/profile
    
     

    在文件末尾添加:

    export SQOOP_HOME=/opt/installs/sqoop
    export PATH=$PATH:$SQOOP_HOME/bin
    
     

    使配置生效:

    source /etc/profile
    
  3. 驱动包配置

    • 将 MySQL 8.0 驱动包(mysql-connector-java-8.0.26.jar)复制到$SQOOP_HOME/lib/目录。
    • 若缺少依赖(如commons-lang),可通过以下命令查找并复制:

      bash

      find /opt/installs -name commons-lang-*.jar
      cp xxx.jar $SQOOP_HOME/lib/
      

三、核心功能实战指南

3.1 基础连接与元数据操作

  1. 查看数据库列表

    sqoop list-databases \
    --connect jdbc:mysql://localhost:3306/ \
    --username root --password 123456
    
  2. 参数文件化(免密执行)
    创建配置文件a.conf

    --connect jdbc:mysql://localhost:3306/
    --username root
    --password 123456
    
     

    执行:

    sqoop --options-file a.conf list-databases
    

3.2 数据导入(Import)

3.2.1 从 MySQL 到 HDFS

命令示例

sqoop import \
--connect jdbc:mysql://localhost:3306/sqoop \
--username root --password 123456 \
--table emp \
--num-mappers 4 \          # 指定4个Map任务并行导入
--where "deptno=10" \      # 过滤条件
--target-dir /user/root/emp \
--as-textfile              # 输出为文本格式(默认)

关键参数解析

参数说明
--split-by指定分片列(默认使用主键,无主键时需显式指定)
--fetch-size单次从数据库读取的记录数,提升 IO 效率
--compress启用压缩(默认 gzip)

注意事项

输出文件以part-m-开头,数量由--num-mappers决定。

数据切割基于分片列取值范围,可能导致分布不均(如主键非连续)。

3.2.2 从 MySQL 到 Hive

命令示例

sqoop import \
--connect jdbc:mysql://localhost:3306/sqoop \
--username root --password 123456 \
--table emp \
--hive-import \              # 启用Hive导入
--hive-table default.emp_hive \  # 指定Hive表名(数据库需提前创建)
--create-hive-table          # 自动创建Hive表(存在则失败)

常见问题

ClassNotFoundException:删除 HDFS 目标目录(hdfs dfs -rm -R /user/root/emp)。

缺少 Hive 依赖:确保$SQOOP_HOME/lib/包含 Hive 相关 Jar 包。

3.3 数据导出(Export)

3.3.1 从 HDFS 到 MySQL

前提条件:MySQL 目标表需提前创建,字段与 HDFS 数据匹配。

sqoop export \
--connect jdbc:mysql://localhost:3306/sqoop \
--username root --password 123456 \
--table emp_export \
--export-dir /user/root/emp \  # HDFS数据源路径
--input-fields-terminated-by ','  # 指定字段分隔符(默认逗号)
--columns "empno,ename,deptno"  # 显式指定列顺序(避免字段错位)
3.3.2 从 Hive 到 MySQL(分析结果落地)

命令示例

sqoop export \
--connect jdbc:mysql://localhost:3306/sqoop \
--username root --password 123456 \
--table emp_analysis \
--hcatalog-database default \  # Hive数据库名
--hcatalog-table emp_hive \    # Hive表名
--input-fields-terminated-by '\001'  # 处理Hive默认分隔符(^A)

配置要点

sqoop-env.sh中添加:export HCAT_HOME=/opt/installs/hive/hcatalog

若遇 JSON 解析错误,需在$SQOOP_HOME/lib/中添加java-json.jar

四、常见问题与解决方案

4.1 连接超时

现象:长时间无操作后连接断开。
解决:修改 MySQL 配置文件/etc/my.cnf,添加:

[mysqld]
wait_timeout=86400  # 设置超时时间为1天(秒)
interactive_timeout=86400

重启 MySQL 服务:systemctl restart mysqld

4.2 无主键表导入

报错java.lang.RuntimeException: No primary key could be found
解决

为表添加主键或唯一索引。

强制指定分片列:--split-by column_name

4.3 列顺序不一致

现象:导出数据与目标表字段错位。
解决:使用--columns "col1,col2,col3"显式指定列顺序。

相关文章:

大数据 ETL 工具 Sqoop 深度解析与实战指南

一、Sqoop 核心理论与应用场景 1.1 设计思想与技术定位 Sqoop 是 Apache 旗下的开源数据传输工具,核心设计基于MapReduce 分布式计算框架,通过并行化的 Map 任务实现高效的数据批量迁移。其特点包括: 批处理特性:基于 MapReduc…...

【学习记录】Django Channels + WebSocket 异步推流开发常用命令汇总

文章目录 📌 摘要🧰 虚拟环境管理✅ 创建虚拟环境✅ 删除虚拟环境✅ 激活/切换虚拟环境 🛠️ Django 项目管理✅ 查看 Django 版本✅ 创建 Django 项目✅ 创建 Django App 💬 Channels 常用操作✅ 查看 Channels 版本 &#x1f50…...

(四)动手实现多层感知机:深度学习中的非线性建模实战

1 多层感知机(MLP) 多层感知机(Multilayer Perceptron, MLP)是一种前馈神经网络,包含一个或多个隐藏层。它能够学习数据中的非线性关系,广泛应用于分类和回归任务。MLP的每个神经元对输入信号进行加权求和…...

HTTP连接管理——短连接,长连接,HTTP 流水线

连接管理是一个 HTTP 的关键话题:打开和保持连接在很大程度上影响着网站和 Web 应用程序的性能。在 HTTP/1.x 里有多种模型:短连接、_长连接_和 HTTP 流水线。 下面分别来详细解释 短连接 HTTP 协议最初(0.9/1.0)是个非常简单的…...

【免费】2004-2020年各省电力消费量数据

2004-2020年各省电力消费量数据 1、时间:2004-2020年 2、来源:国家统计局、统计年鉴 3、指标:行政区划代码、地区、年份、电力消费量(亿千瓦小时) 4、范围:31省 5、指标说明:电力消费量是指在一定时期内&#xff…...

Python编程基础(四) | if语句

引言:很久没有写 Python 了,有一点生疏。这是学习《Python 编程:从入门到实践(第3版)》的课后练习记录,主要目的是快速回顾基础知识。 练习1:条件测试 编写一系列条件测试,将每个条…...

登录的写法,routerHook具体配置,流程

routerHook挂在在index.js/main.js下的,找不到可以去那边看一下 vuex需要做的: //创建token的sate,从本地取 let token window.localStorage.getItem(token) // 存储用户登录信息let currentUserInfo reactive({userinfo: {}}) //存根据不…...

Java-IO流之字节输出流详解

Java-IO流之字节输出流详解 一、Java字节输出流基础概念1.1 Java IO体系与字节输出流的位置1.2 字节输出流的核心类层次结构 二、OutputStream接口核心方法详解2.1 void write(int b)2.2 void write(byte[] b)2.3 void write(byte[] b, int off, int len)2.4 void flush()2.5 v…...

工作服/反光衣检测算法AI智能分析网关V4安全作业风险预警方案:筑牢矿山/工地/工厂等多场景安全防线

一、方案背景​ 在工地、矿山、工厂等高危作业场景,反光衣是保障人员安全的必备装备。但传统人工巡查存在效率低、易疏漏等问题,难以实现实时监管。AI智能分析网关V4基于人工智能技术,可自动识别人员着装状态,精准定位未穿反光衣…...

采摘机器人项目

采摘对象特点 表皮组织比较柔软,很容易损伤蔬菜或者水果生长的位置具有随机性。挂果的位置是随机的,没有一定的规律果实的成熟期是不具备一致性的。同一颗树上的果实有的熟透了,有的还没成熟果实的大小和形状不一样。成熟度不一样&#xff0…...

malloc 内存分配机制:brk 与 mmap

一、malloc的两种内存分配策略 malloc 并非直接的系统调用&#xff0c;而是C标准库封装的内存管理函数。它根据应用程序请求的内存大小&#xff0c;智能地选择两种不同的底层机制向操作系统申请内存&#xff1a; 小块内存分配 (< 128KB)&#xff1a;brk() / sbrk() 系统调用…...

设计模式——中介者设计模式(行为型)

摘要 文章详细介绍了中介者设计模式&#xff0c;这是一种行为型设计模式&#xff0c;通过中介者对象封装多个对象间的交互&#xff0c;降低系统耦合度。文中阐述了其核心角色、优缺点、适用场景&#xff0c;并通过类图、时序图、实现方式、实战示例等多方面进行讲解&#xff0…...

MinGW-w64的安装详细步骤(c_c++的编译器gcc、g++的windows版,win10、win11真实可用)

文章目录 1、MinGW的定义2、MinGW的主要组件3、MinGW-w64下载与安装 3.1、下载解压安装地址3.2、MinGW-w64环境变量的设置 4、验证MinGW是否安装成功5、编写一段简单的代码验证下6、总结 1、MinGW的定义 MinGW&#xff08;Minimalist GNU for Windows&#xff09; 是一个用…...

LabVIEW磁悬浮轴承传感器故障识别

针对工业高端装备中主动磁悬浮轴承&#xff08;AMB&#xff09;的位移传感器故障检测需求&#xff0c;基于 LabVIEW 平台构建了一套高精度故障识别系统。通过集成品牌硬件与 LabVIEW 的信号处理能力&#xff0c;实现了传感器探头故障的实时监测与精准定位&#xff0c;解决了传统…...

MongoDB-6.0.24 主从复制搭建和扩容缩容详解

目录 1 操作系统信息 2 MongoDB 集群架构图 3 MongoDB 软件安装及配置 4 初始化存储集群和配置 5 MongoDB主从复制集群测试 6 MongoDB运维管理 7 主从复制集群扩容一个secondary节点 8 主从复制集群缩容一个节点 1 操作系统信息 rootu24-mongo-70:~# cat /etc/issue Ub…...

Resend React Email:用React组件化思维重塑电子邮件开发

在数字化沟通中&#xff0c;电子邮件仍是企业与用户建立联系的核心渠道。然而传统邮件开发依赖繁琐的HTML表格布局和行内样式&#xff0c;效率低下且兼容性难以保障。Resend团队推出的React Email开源框架&#xff08;https://github.com/resend/react-email&#xff09;正通过…...

UNION 与 UNION ALL 的区别

UNION 与 UNION ALL 的区别 1. 基本概念 1.1 UNION 操作符 UNION 是SQL中用于合并两个或多个SELECT语句结果集的操作符,它会自动去除重复行并按照默认规则排序。 go专栏:https://duoke360.com/tutorial/path/golang SELECT column1 FROM table1 UNION SELECT column1 FRO…...

多线程1(Thread)

认识线程&#xff08;Thread&#xff09; 在进程中&#xff0c;要创建一个进程和销毁一个进程所消耗的硬件和软件资源是巨大的&#xff0c;因此为了优化上述过程&#xff0c;我们引入了“线程”。 线程是系统调度的基本单位。 1&#xff09;线程和进程的关系 可以认为进程包…...

NVIDIA DOCA 3.0:引领AI基础设施革命的引擎简析

引言 在当今快速发展的AI时代,大规模AI模型的训练和部署对数据中心基础设施提出了前所未有的挑战。传统的CPU-centric架构已经难以满足超大规模AI工作负载对性能、效率和安全性的需求。NVIDIA于2025年4月正式发布了DOCA 3.0软件框架,这一创新性平台彻底改变了AI基础设施的设计…...

小家电外贸出口新利器:WD8001低成本风扇智能控制方案全解析

低成本单节电池风扇解决方案WD8001 用途 低成本单节电池风扇解决方案WD8001用于小功率风扇供电及控制&#xff0c;具有三个档位调节、自动停机及锁机功能。 基本参数 充电参数&#xff1a;输入5V/500mA&#xff0c;满电4.2V&#xff0c;充电指示灯亮&#xff0c;满电后熄灭…...

【软件测试】web自动化:Pycharm+Selenium+Firefox(一)

步骤&#xff1a;配置Pycharm&#xff0c;Firefox安装Selenium IDE插件&#xff0c;下载geckodriver插件&#xff0c;安装至Firefox目录下。https://blog.csdn.net/weixin_61926199/article/details/148383668?fromshareblogdetail&sharetypeblogdetail&sharerId14838…...

C++实现汉诺塔游戏用户交互

目录 一、模型调整(一)模型定义(二)模型实现1.电脑自动完成部分2.SDL图形显示2.1拿起放下盘子的函数2.2左右移动手指的函数 二、处理用户输入&#xff0c;进行人机分流三、总结四、源码下载 上篇文章使用C语言实现汉诺塔游戏电脑自动完成的步骤&#xff0c;还没有实现用户交互&…...

谷歌地图手机版(Google maps)v11.152.0100安卓版 - 前端工具导航

谷歌地图(Google maps)是由谷歌官方推出的一款手机地图应用。软件功能强大&#xff0c;支持本地搜索查找世界各地的地址、地点和商家&#xff1b;支持在街景视图中查看世界各地的360度全景图&#xff1b;支持查找乘坐火车、公交车和地铁的路线&#xff0c;或者查找步行路线等 …...

AJAX对于XML和JSON的处理

这是book.xml文件&#xff1a; <?xml version"1.0" encoding"ISO-8859-1"?><bookstore><book category"children"><title>Harry Potter</title> <author>J K. Rowling</author> <year>2005&…...

C++核心编程_关系运算符重载

4.5.5 关系运算符重载 作用&#xff1a;重载关系运算符&#xff0c;可以让两个自定义类型对象进行对比操作 /*#### 4.5.5 关系运算符重载 **作用&#xff1a;**重载关系运算符&#xff0c;可以让两个自定义类型对象进行对比操作 */class Person { public:Person(string name, …...

NIO知识点

一、Java NIO 基础概念 Java NIO&#xff08;New Input/Output&#xff09;是从 Java 1.4 版本开始引入的新的 IO API&#xff0c;它提供了与标准 IO 不同的工作方式。主要特点包括&#xff1a; 面向缓冲区&#xff1a;数据读取到一个稍后处理的缓冲区&#xff0c;需要时可在…...

T/CCSA 663-2025《医疗科研云平台技术要求》标准解读与深度分析

参考地址:https://www.doc88.com/p-30280431175529.html 引言 随着医疗信息化建设的深入推进,医疗行业正经历从"业务驱动"向"数据驱动"的转型。在这一背景下,中国通信标准化协会(CCSA)于2025年发布了T/CCSA 663-2025《医疗科研云平台技术要求》标准,并…...

win11回收站中出现:查看回收站中是否有以下项: WPS云盘回收站

好久没更新了&#xff0c;首先祝所有大朋友、小朋友六一儿童节快乐&#xff0c;真的希望我们永远都不会长大呀&#xff0c;长大真的好累呀(•_•) 免责声明 笔者先来个免责声明吧&#xff0c;被网上的阴暗面吓到了 若读者参照笔者的这篇文章所执行的操作中途或后续出现的任何…...

Nginx+Tomcat 负载均衡群集

一、Tomcat 基础与案例部署 &#xff08;一&#xff09;Tomcat 概述与应用场景 起源与命名 Tomcat 最初由 Sun 公司的詹姆斯・邓肯・戴维森开发&#xff0c;后贡献给 Apache 软件基金会。项目早期名为 “Catalina”&#xff0c;因此安装目录中包含大量与 Catalina 相关的文件…...

SCDN如何同时保障网站加速与DDoS防御?

在互联网时代&#xff0c;网站既要面对用户访问量的激增&#xff0c;又要抵御层出不穷的网络攻击&#xff0c;特别是DDoS攻击的威胁。SCDN&#xff08;安全内容分发网络&#xff09;作为融合加速与安全的解决方案&#xff0c;如何实现“加速”与“防御”的双重保障&#xff1f;…...