当前位置: 首页 > news >正文

Sqoop 数据迁移

Sqoop 数据迁移

  • 一、Sqoop 概述
  • 二、Sqoop 优势
  • 三、Sqoop 的架构与工作机制
  • 四、Sqoop Import 流程
  • 五、Sqoop Export 流程
  • 六、Sqoop 安装部署
    • 6.1 下载解压
    • 6.2 修改 Sqoop 配置文件
    • 6.3 配置 Sqoop 环境变量
    • 6.4 添加 MySQL 驱动包
    • 6.5 测试运行 Sqoop
      • 6.5.1 查看Sqoop命令语法
      • 6.5.2 测试数据库连接
  • 七、案例实践:Sqoop 迁移Hive出库数据
    • 7.1 数据导出:Hive 导入 MySQL
    • 7.2 数据导出:MySQL 导入 Hive

一、Sqoop 概述

Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据迁移。用户可以在Sqoop的帮助下,轻松地将RDBMS中的数据导入到Hadoop或者与其相关的系统(如HBase和Hive)中;同时也可以将数据从Hadoop系统导出到RDBMS。因此,可以说Sqoop就是一个桥梁,连接了RDBMS与Hadoop。

在这里插入图片描述

二、Sqoop 优势

  • Sqoop可以高效地、可控地利用资源,可以通过调整任务数来控制任务的并发度。另外它还可以配置数据库的访问时间。

  • Sqoop可以自动地完成数据库与Hadoop系统中数据类型的映射与转换,

  • Sqoop支持多种数据库,比如,MySQL、0racle和PostgreSQL等数据库。

三、Sqoop 的架构与工作机制

客户端提交脚本,调用Map Task ,将关系数据库导入到 Hadoop 平台的HDFS/HBase/Hive,同时也可以将 Hadoop 平台的HDFS/HBase/Hive数据通过 Map Task 导入到 关系数据库中。
在这里插入图片描述

四、Sqoop Import 流程

在这里插入图片描述

五、Sqoop Export 流程

在这里插入图片描述

六、Sqoop 安装部署

6.1 下载解压

下载地址:https://archive.apache.org/dist/sqoop/

上传到 /usr/local/,进行解压

[root@hadoop1 local]# tar -zxvf /usr/local/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 

创建软连接

[root@hadoop1 local]# ln -s sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop

在这里插入图片描述

6.2 修改 Sqoop 配置文件

进入 Sqoop 的 conf 目录下修改 sqoop-env.sh 配置文件,修改内容如下:

将配置模板拷贝一份,命名为 sqoop-env.sh

[root@hadoop1 conf]# cp /usr/local/sqoop/conf/sqoop-env-template.sh /usr/local/sqoop/conf/sqoop-env.sh

编辑 sqoop-env.sh

export HADOOP_COMMON_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
export ZOOCFGDIR=/usr/local/zookeeper

6.3 配置 Sqoop 环境变量

添加 Sqoop 的环境变量,添加内容如下:

[root@hadoop1 conf]# vim /etc/profile

添加如下内容:

# 添加 Sqoop 环境变量
SQOOP_HOME=/usr/local/sqoop
PATH=$SQOOP_HOME/bin:$PATH
export SQOOP_HOME PATH

更新环境

[root@hadoop1 conf]# source /etc/profile

6.4 添加 MySQL 驱动包

将对应的 MySQL 驱动包上传到 /usr/local/sqoop/lib 目录下
在这里插入图片描述

6.5 测试运行 Sqoop

6.5.1 查看Sqoop命令语法

在Sqoop安装目录下,使用help命令查看Sqoop的基本用法,具体操作如下:

[root@hadoop1 sqoop]# /usr/local/sqoop/bin/sqoop help

在这里插入图片描述

6.5.2 测试数据库连接

[root@hadoop1 bin]# /usr/local/sqoop/bin/sqoop list-databases --connect jdbc:mysql://192.168.220.151 --username hive --password hive

在这里插入图片描述

七、案例实践:Sqoop 迁移Hive出库数据

7.1 数据导出:Hive 导入 MySQL

  • 准备 Hive 数据源
create table mean_temperature as select id, sum(temperature)/count(*) from temperature group by id;

在这里插入图片描述

  • MySQL 建表
CREATE TABLE IF NOT EXISTS `mean_temperature`(
`id` VARCHAR(20) NOT NULL,
`average` VARCHAR(20) NOT NULL,
PRIMARY KEY (`id`)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;

在这里插入图片描述

  • hive数据导出到 mysql 脚本
/usr/local/sqoop/bin/sqoop export \
--connect 'jdbc:mysql://hadoop1/hive?useUnicode=true&characterEncoding=utf-8' \
--username hive \
--password hive \
--table mean_temperature \
--export-dir /user/hive/warehouse/mydb/mean_temperature \
--input-fields-terminated-by "\001" \
-m 1;

出现如下报错:Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Access denied for user ‘hive’@‘%’ to database ‘hive’
在这里插入图片描述
hive 用户只授权了 hadoop1 能够访问mysql,需求开启远程访问
修复方法:登录 root 用户,执行如下脚本

mysql> grant all on *.* to 'hive'@'%' identified by 'hive';
mysql> flush privileges;

再次执行如下脚本:

/usr/local/sqoop/bin/sqoop export \
--connect 'jdbc:mysql://hadoop1/hive?useUnicode=true&characterEncoding=utf-8' \
--username hive \
--password hive \
--table mean_temperature \
--export-dir /user/hive/warehouse/mydb/mean_temperature \
--input-fields-terminated-by "\001" \
-m 1;

在这里插入图片描述
在 mysql 查看 mean_temperature 表
在这里插入图片描述

7.2 数据导出:MySQL 导入 Hive

执行如下脚本:

/usr/local/sqoop/bin/sqoop import \
--connect 'jdbc:mysql://hadoop1/hive?useUnicode=true&characterEncoding=utf-8' \
--username hive \
--password hive \
--table mean_temperature \
--fields-terminated-by ',' \
--delete-target-dir \
-m 1 \
--hive-import \
--hive-database weather \
--hive-table ods_mean_temperature;

在这里插入图片描述
查看 Hive 数据库的 ods_mean_temperature

hive> select * from ods_mean_temperature limit 10;

在这里插入图片描述
可以看到 自动创建表 ods_mean_temperature 并有数据。

相关文章:

Sqoop 数据迁移

Sqoop 数据迁移 一、Sqoop 概述二、Sqoop 优势三、Sqoop 的架构与工作机制四、Sqoop Import 流程五、Sqoop Export 流程六、Sqoop 安装部署6.1 下载解压6.2 修改 Sqoop 配置文件6.3 配置 Sqoop 环境变量6.4 添加 MySQL 驱动包6.5 测试运行 Sqoop6.5.1 查看Sqoop命令语法6.5.2 测…...

【数据结构】排序算法系列——希尔排序(附源码+图解)

希尔排序 算法思想 希尔排序(Shell Sort)是一种改进的插入排序算法,希尔排序的创造者Donald Shell想出了这个极具创造力的改进。其时间复杂度取决于步长序列(gap)的选择。我们在插入排序中,会发现是对整体…...

c++(继承、模板进阶)

一、模板进阶 1、非类型模板参数 模板参数分类类型形参与非类型形参。 类型形参即:出现在模板参数列表中,跟在class或者typename之类的参数类型名称。 非类型形参,就是用一个常量作为类(函数)模板的一个参数,在类(函数)模板中…...

【机器学习】从零开始理解深度学习——揭开神经网络的神秘面纱

1. 引言 随着技术的飞速发展,人工智能(AI)已从学术研究的实验室走向现实应用的舞台,成为推动现代社会变革的核心动力之一。而在这一进程中,深度学习(Deep Learning)因其在大规模数据处理和复杂问题求解中的卓越表现,迅速崛起为人工智能的最前沿技术。深度学习的核心是…...

WebLogic 笔记汇总

WebLogic 笔记汇总 一、weblogic安装 1、创建用户和用户组 groupadd weblogicuseradd -g weblogic weblogic # 添加用户,并用-g参数来制定 web用户组passwd weblogic # passwd命令修改密码# 在文件末尾增加以下内容 cat >>/etc/security/limits.conf<<EOF web…...

leetcode:2710. 移除字符串中的尾随零(python3解法)

难度&#xff1a;简单 给你一个用字符串表示的正整数 num &#xff0c;请你以字符串形式返回不含尾随零的整数 num 。 示例 1&#xff1a; 输入&#xff1a;num "51230100" 输出&#xff1a;"512301" 解释&#xff1a;整数 "51230100" 有 2 个尾…...

Python GUI入门详解-学习篇

一、简介 GUI就是图形用户界面的意思&#xff0c;在Python中使用PyQt可以快速搭建自己的应用&#xff0c;自己的程序看上去就会更加高大上。 有时候使用 python 做自动化运维操作&#xff0c;开发一个简单的应用程序非常方便。程序写好&#xff0c;每次都要通过命令行运行 pyt…...

QT5实现https的post请求(QNetworkAccessManager、QNetworkRequest和QNetworkReply)

QT5实现https的post请求 前言一、一定要有sslErrors处理1、问题经过2、代码示例 二、要利用抓包工具1、问题经过2、wireshark的使用3、利用wireshark查看服务器地址4、利用wireshark查看自己构建的请求报文 三、返回数据只能读一次1、问题描述2、部分代码 总结 前言 QNetworkA…...

vscode 使用git bash,路径分隔符缺少问题

window使用bash --login -i 使用bash时候&#xff0c;在系统自带的terminal里面进入&#xff0c;测试conda可以正常输出&#xff0c;但是在vscode里面输入conda发现有问题 bash: C:\Users\marswennaconda3\Scripts: No such file or directory实际路径应该要为 C:\Users\mars…...

F12抓包10:UI自动化 - Elements(元素)定位页面元素

​课程大纲 1、前端基础 1.1 元素 元素是构成HTML文档的基本组成部分之一&#xff0c;定义了文档的结构和内容&#xff0c;比如段落、标题、链接等。 元素大致分为3种&#xff1a;基本结构、自闭合元素&#xff08;self-closing element&#xff09;、嵌套元素。 1、基本结构&…...

android 删除系统原有的debug.keystore,系统运行的时候,重新生成新的debug.keystore,来完成App的运行。

1、先上一个图&#xff1a;这个是keystore无效的原因 之前在安装这个旧版本android studio的时候呢&#xff0c;安装过一版最新的android studio&#xff0c;然后通过模拟器跑过测试的demo。 2、运行旧的项目到模拟器的时候&#xff0c;就报错了&#xff1a; Execution failed…...

SQL入门题

作者SQL入门小白&#xff0c;此栏仅是记录一些解题过程 1、题目 用户访问表users&#xff0c;记录了用户id&#xff08;usr_id&#xff09;和访问日期&#xff08;log_date&#xff09;,求出连续3天以上访问的用户id。 2、解答过程 2.1数据准备 通过navicat创建数据&#xf…...

Python实战:实战练习案例汇总

Python实战&#xff1a;实战练习案例汇总 **Python世界系列****Python实践系列****Python语音处理系列** 本文逆序更新&#xff0c;汇总实践练习案例。 Python世界系列 Python世界&#xff1a;力扣题43大数相乘算法实践Python世界&#xff1a;求解满足某完全平方关系的整数实…...

zabbix之钉钉告警

钉钉告警设置 我们可以将同一个运維组的人员加入到同一个钉钉工作群中&#xff0c;当有异常出现后&#xff0c;Zabbix 将告警信息发送到钉钉的群里面&#xff0c;此时&#xff0c;群内所有的运维人员都能在第一时间看到这则告警详细。 Zabbix 监控系统默认没有开箱即用…...

《OpenCV计算机视觉》—— 对图片进行旋转的两种方法

文章目录 一、用numpy库中的方法对图片进行旋转二、用OpenCV库中的方法对图片进行旋转 一、用numpy库中的方法对图片进行旋转 numpy库中的 np.rot90 函数方法可以对图片进行旋转 代码实现如下&#xff1a; import cv2 import numpy as np# 读取图片 img cv2.imread(wechat.jp…...

Python 错误 ValueError 解析,实际错误实例详解 (一)

文章目录 前言Python 中错误 ValueError: No JSON object Could Be Decoded在 Python 中解码 JSON 对象将 JSON 字符串解码为 Python 对象将 Python 对象编码为 JSON 字符串Python 中错误 ValueError: Unsupported Pickle Protocol: 3Python 中的 Pickling 和 UnpicklingPython…...

[java][git]上传本地代码及更新代码到GitHub教程

上传本地代码及更新代码到GitHub教程 上传本地代码 第一步&#xff1a;去github上创建自己的Repository&#xff0c;创建页面如下图所示&#xff1a; 红框为新建的仓库的https地址 第二步&#xff1a; echo "# Test" >> README.md 第三步&#xff1a;建立g…...

react antd table expandable defaultExpandAllRows 不生效问题

原因&#xff1a;defaultExpandAllRows只会在第一次渲染时触发 解决方案&#xff1a;渲染前判断table 的datasource 数据是否已准备好 {pageList.length > 0 ? (<TablerowSelection{rowSelection}columns{columns}dataSource{pageList}style{{ marginTop: 24 }}pagina…...

什么是领域驱动设计?

什么是领域驱动设计&#xff1f; 领域驱动设计&#xff08;Domain-Driven Design&#xff0c;简称DDD&#xff09;是一种面向对象的软件开发方法&#xff0c;它强调将软件系统的设计和实现过程与业务领域紧密结合&#xff0c;通过深入理解和建模业务领域&#xff0c;从而实现高…...

信息安全工程师(1)计算机网络分类

一、按分布范围分类 广域网&#xff08;WAN&#xff09;&#xff1a; 定义&#xff1a;广域网的任务是提供长距离通信&#xff0c;运送主机所发送的数据。其覆盖范围通常是直径为几十千米到几千千米的区域&#xff0c;因此也被称为远程网。特点&#xff1a;连接广域网的各个结点…...

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源&#xff08;HTML/CSS/图片等&#xff09;&#xff0c;响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址&#xff0c;提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

Python:操作 Excel 折叠

💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

第25节 Node.js 断言测试

Node.js的assert模块主要用于编写程序的单元测试时使用&#xff0c;通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试&#xff0c;通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...

C++.OpenGL (10/64)基础光照(Basic Lighting)

基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

C++使用 new 来创建动态数组

问题&#xff1a; 不能使用变量定义数组大小 原因&#xff1a; 这是因为数组在内存中是连续存储的&#xff0c;编译器需要在编译阶段就确定数组的大小&#xff0c;以便正确地分配内存空间。如果允许使用变量来定义数组的大小&#xff0c;那么编译器就无法在编译时确定数组的大…...

【Go语言基础【13】】函数、闭包、方法

文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数&#xff08;函数作为参数、返回值&#xff09; 三、匿名函数与闭包1. 匿名函数&#xff08;Lambda函…...

在树莓派上添加音频输入设备的几种方法

在树莓派上添加音频输入设备可以通过以下步骤完成&#xff0c;具体方法取决于设备类型&#xff08;如USB麦克风、3.5mm接口麦克风或HDMI音频输入&#xff09;。以下是详细指南&#xff1a; 1. 连接音频输入设备 USB麦克风/声卡&#xff1a;直接插入树莓派的USB接口。3.5mm麦克…...

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用

中达瑞和自2005年成立以来&#xff0c;一直在光谱成像领域深度钻研和发展&#xff0c;始终致力于研发高性能、高可靠性的光谱成像相机&#xff0c;为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...

Python竞赛环境搭建全攻略

Python环境搭建竞赛技术文章大纲 竞赛背景与意义 竞赛的目的与价值Python在竞赛中的应用场景环境搭建对竞赛效率的影响 竞赛环境需求分析 常见竞赛类型&#xff08;算法、数据分析、机器学习等&#xff09;不同竞赛对Python版本及库的要求硬件与操作系统的兼容性问题 Pyth…...

深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙

WebGL&#xff1a;在浏览器中解锁3D世界的魔法钥匙 引言&#xff1a;网页的边界正在消失 在数字化浪潮的推动下&#xff0c;网页早已不再是静态信息的展示窗口。如今&#xff0c;我们可以在浏览器中体验逼真的3D游戏、交互式数据可视化、虚拟实验室&#xff0c;甚至沉浸式的V…...