当前位置: 首页 > news >正文

Hive实战:词频统计

文章目录

  • 一、实战概述
  • 二、提出任务
  • 三、完成任务
    • (一)准备数据文件
      • 1、在虚拟机上创建文本文件
      • 2、将文本文件上传到HDFS指定目录
    • (二)实现步骤
      • 1、启动Hive Metastore服务
      • 2、启动Hive客户端
      • 3、基于HDFS文件创建外部表
      • 4、查询单词表,所有单词成一列
      • 5、基于查询结果创建视图
      • 6、基于视图进行分组统计
      • 7、基于嵌套查询一步搞定

一、实战概述

  • 在本次实战中,我们任务是在大数据环境下使用Hive进行词频统计。首先,我们在master虚拟机上创建了一个名为test.txt的文本文件,内容包含一些关键词的句子。接着,我们将该文本文件上传到HDFS的/hivewc/input目录,作为数据源。

  • 随后,我们启动了Hive Metastore服务和Hive客户端,为数据处理做准备。在Hive客户端中,我们创建了一个名为t_word的外部表,该表的结构包含一个字符串类型的word字段,并将其位置设置为HDFS中的/hivewc/input目录。这样,Hive就可以直接读取和处理HDFS中的文本数据。

  • 为了进行词频统计,我们编写了一条Hive SQL语句。该语句首先使用explodesplit函数将每个句子拆分为单个单词,然后通过子查询对这些单词进行计数,并按单词进行分组,最终得到每个单词的出现次数。

  • 通过执行这条SQL语句,我们成功地完成了词频统计任务,得到了预期的结果。这个过程展示了Hive在大数据处理中的强大能力,尤其是对于文本数据的分析和处理。同时,我们也注意到了在使用Hive时的一些细节,如子查询需要取别名等,这些经验将对今后的数据处理工作有所帮助。

二、提出任务

  • 文本文件test.txt
hello hadoop hello hive
hello hbase hello spark
we will learn hadoop
we will learn hive
we love hadoop spark
  • 进行词频统计,结果如下
hadoop  3
hbase   1
hello   4
hive    2
learn   2 
love    1
spark   2
we      3
will    2

三、完成任务

(一)准备数据文件

1、在虚拟机上创建文本文件

  • 在master虚拟机上创建test.txt文件
    在这里插入图片描述

2、将文本文件上传到HDFS指定目录

  • 在HDFS上创建/hivewc/input目录
    在这里插入图片描述
  • test.txt文件上传到HDFS的/hivewc/input目录
    在这里插入图片描述

(二)实现步骤

  • 注意:必须要先启动Hadoop服务

1、启动Hive Metastore服务

  • 我们需要启动Hive Metastore服务,这是Hive的元数据存储服务。
  • 执行命令:hive --service metastore &
    在这里插入图片描述

2、启动Hive客户端

  • 执行命令:hive
    在这里插入图片描述
  • 一旦我们看到命令提示符hive>,就表示我们已经成功进入Hive客户端。

3、基于HDFS文件创建外部表

  • 基于/hivewc/input下的文件创建外部表t_word,执行命令:CREATE EXTERNAL TABLE t_word(line string) LOCATION '/hivewc/input';
    在这里插入图片描述

  • 在MySQL的hive数据库的TBLS表里,我们可以查看外部表t_word对应的记录。
    在这里插入图片描述

4、查询单词表,所有单词成一列

  • 查看单词表记录,执行语句:SELECT line FROM t_word;
    在这里插入图片描述

  • 按空格拆分行数据,执行语句:SELECT split(line, ' ') FROM t_word;
    在这里插入图片描述

  • 让单词成一列,执行语句:SELECT explode(split(line, ' ')) AS word FROM t_word;
    在这里插入图片描述

5、基于查询结果创建视图

  • 基于查询结果创建了一个视图v_word,执行语句:CREATE VIEW v_word AS SELECT explode(split(line, ' ')) AS word FROM t_word;
    在这里插入图片描述

  • 查询视图的全部记录,执行语句:SELECT word FROM v_word;
    在这里插入图片描述

6、基于视图进行分组统计

  • 基于视图分组统计操作,执行语句:SELECT word, COUNT(*) FROM v_word GROUP BY word;
    在这里插入图片描述

7、基于嵌套查询一步搞定

  • 为了更简便地实现相同的效果,使用嵌套查询:SELECT word, COUNT(*) FROM (SELECT explode(split(line, ' ')) AS word FROM t_word) AS v_word GROUP BY word;
    在这里插入图片描述

  • 注意,这里在嵌套查询中,我们为子查询取了一个别名,这个别名是v_word

  • 这条SQL语句是在处理一个名为t_word的表,该表中有一个word字段,该字段存储的是由空格分隔的单词字符串。

  1. 首先,使用explode(split(line, ' ')) AS wordt_word表中的每一行word字段创建一个新的临时表(别名v_word)。这里split(word, ' ')函数将每个word字段的内容按照空格分割成多个单词,并生成一个多行的结果集,每行包含一个单词。

  2. explode函数则将这个分割后的数组转换为多行记录,即每一行对应原字符串中的一个单词。

  3. 然后,通过GROUP BY word对新生成的临时表v_word中的word字段进行分组,即将所有相同的单词归为一组。

  4. 最后,使用COUNT(*)统计每个单词分组的数量,结果将展示每个单词及其在原始数据集中出现的次数。

  • 整个查询的目的在于统计t_word表中各个单词出现的频率。

  • 通过这一系列的操作,我们深入学习了Hive的外部表创建、数据加载、查询、视图创建以及统计分析的操作。希望大家能够在实际应用中灵活运用这些知识。

相关文章:

Hive实战:词频统计

文章目录 一、实战概述二、提出任务三、完成任务(一)准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录 (二)实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、查询单词表&a…...

FairyGUI-Cocos Creator官方Demo源码解读

博主在学习Cocos Creator的时候,发现了一款免费的UI编辑器FairyGUI。这款编辑器的能力十分强大,但是网上的学习资源比较少,坑比较多,主要学习方式就是阅读官方文档和练习官方Demo。这里博主进行官方Demo的解读。 从gitee上克隆项目…...

LabVIEW利用视觉引导机开发器人精准抓取

LabVIEW利用视觉引导机开发器人精准抓取 本项目利用单目视觉技术指导多关节机器人精确抓取三维物体的技术。通过改进传统的相机标定方法,结合LabVIEW平台的Vision Development和Vision Builder forAutomated Inspection组件,优化了摄像系统的标定过程&a…...

【Linux】指令(本人使用比较少的)——笔记(持续更新)

文章目录 ps -axj:查看进程ps -aL:查看线程echo $?:查看最近程序的退出码jobs:查看后台运行的线程组fd 任务号:将后台任务提到前台bg 任务号:将暂停的后台程序重启netstat -nltp:查看服务及监听…...

032 - STM32学习笔记 - TIM基本定时器(一) - 定时器基本知识

032 - STM32学习笔记 - TIM定时器(一) - 基本定时器知识 这节开始学习一下TIM定时器功能,从字面意思上理解,定时器的基本功能就是用来定时,与定时器相结合,可以实现一些周期性的数据发送、采集等功能&#…...

轮廓检测与处理

轮廓检测 先将图像转换成二值 gray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 灰度图 ret, thresh cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY) # 变为二值,大于127置为255,小于100置为0.使用cv2.findContours(thresh, cv2.RETR_TREE, cv2.…...

跟着LearnOpenGL学习11--材质

文章目录 一、材质二、设置材质三、光的属性四、不同的光源颜色 一、材质 在现实世界里,每个物体会对光产生不同的反应。 比如,钢制物体看起来通常会比陶土花瓶更闪闪发光,一个木头箱子也不会与一个钢制箱子反射同样程度的光。 有些物体反…...

Java guava partition方法拆分集合自定义集合拆分方法

日常开发中&#xff0c;经常遇到拆分集合处理的场景&#xff0c;现在记录2中拆分集合的方法。 1. 使用Guava包提供的集合操作工具栏 Lists.partition()方法拆分 首先&#xff0c;引入maven依赖 <dependency><groupId>com.google.guava</groupId><artifa…...

GLTF编辑器-位移贴图实现破碎的路面

在线工具推荐&#xff1a; 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 位移贴图是一种可以用于增加模型细节和形状的贴图。它能够在渲染时针…...

多维时序 | MATLAB实现SSA-BiLSTM麻雀算法优化双向长短期记忆神经网络多变量时间序列预测

多维时序 | MATLAB实现SSA-BiLSTM麻雀算法优化双向长短期记忆神经网络多变量时间序列预测 目录 多维时序 | MATLAB实现SSA-BiLSTM麻雀算法优化双向长短期记忆神经网络多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.MATLAB实现SSA-BiLSTM麻雀算法优化…...

docker安装Nacos和Rabbitmq

一、安装Nacos 首先需要拉取对应的镜像文件&#xff1a;&#xff08;切换版本加上对应版本号即可&#xff0c;默认最新版&#xff09; docker pull nacos/nacos-server 接着挂载目录&#xff1a; mkdir -p /mydata/nacos/logs/ #新建logs目录 mkdir -p …...

Android MVC 写法

前言 Model&#xff1a;负责数据逻辑 View&#xff1a;负责视图逻辑 Controller&#xff1a;负责业务逻辑 持有关系&#xff1a; 1、View 持有 Controller 2、Controller 持有 Model 3、Model 持有 View 辅助工具&#xff1a;ViewBinding 执行流程&#xff1a;View >…...

网络层解读

基本介绍 概述 当两台主机之间的距离较远(如相隔几十或几百公里&#xff0c;甚至几千公里)时&#xff0c;就需要另一种结构的网络&#xff0c;即广域网。广域网尚无严格的定义。通常是指覆盖范围很广(远超过一个城市的范围)的长距离的单个网络。它由一些结点交换机以及连接这些…...

js for和forEach 跳出循环 替代方案

1 for循环跳出 for(let i0;i<10;i){if(i5){break;}console.log(i) }在函数中也可以return跳出循环 function fn(){for(let i0;i<10;i){if(i5){return;}console.log(i)} } fn()for ... of效果同上 2 forEach循环跳出 break会报错 [1,2,3,4,5,6,7,8,9,10].forEach(i>…...

如何使用ArcGIS Pro自动矢量化建筑

相信你在使用ArcGIS Pro的时候已经发现了一个问题&#xff0c;那就是ArcGIS Pro没有ArcScan&#xff0c;在ArcGIS Pro中&#xff0c;Esri确实已经移除了ArcScan&#xff0c;没有了ArcScan我们如何自动矢量化地图&#xff0c;从地图中提取建筑等要素呢&#xff0c;这里为大家介绍…...

交互式笔记Jupyter Notebook本地部署并实现公网远程访问内网服务器

最近&#xff0c;我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念&#xff0c;而且内容风趣幽默。我觉得它对大家可能会有所帮助&#xff0c;所以我在此分享。点击这里跳转到网站。 文章目录 1.前言2.Jupyter Notebook的安装2.1 Jupyter Notebook下…...

41.坑王驾到第七期:uniapp开发微信小程序引用组件时报错!

一、错误再现 页面login引用了一个组件register&#xff0c;运行至小程序开发工具报错。 xxx.js 已被代码依赖分析忽略&#xff0c;无法被其他模块引用。 二、解决办法 在微信小程序的配置文件中找到setting节点&#xff0c;增加两个配置项。 “ignoreDevUnusedFiles”: fa…...

挂载与解挂载

一. 挂载 1.什么是挂载 将系统中的文件夹和磁盘做上关联&#xff0c;使用文件夹等于使用磁盘 2.mount 2.1 格式 mount [ -t 类型 ] 存储设备 挂载点目录 mount -o loop ISO镜像文件 挂载点目录 注意&#xff1a;指明要挂载的设备 设备文件&#xff1a;例如:/dev/sda5 卷…...

UGUI Panel的显示和隐藏优化

unity UI如何开启&#xff08;显示&#xff09;或者关闭&#xff08;隐藏&#xff09;Panel界面&#xff0c;相信大家都是知道的&#xff0c;但是如何做最好呢&#xff1f; 可能大家一般开启/关闭界面的方法就是直接SetActive吧。这样做通常是可以的&#xff0c;简答快速地解决…...

Linux:多文件编辑

多文件编辑 1.使用vim编辑多个文件 编辑多个文件有两种形式&#xff0c;一种是在进入vim前使用的参数就是多个文件。另一种就是进入vim后再编辑其他的文件。 同时创建两个新文件并编辑 $ vim 1.txt 2.txt默认进入1.txt文件的编辑界面 命令行模式下输入:n编辑2.txt文件&…...

Oracle RAC实战:5分钟搞懂SCAN IP和VIP的区别与配置技巧

Oracle RAC实战&#xff1a;SCAN IP与VIP的深度解析与高效配置指南 引言 在Oracle RAC&#xff08;Real Application Clusters&#xff09;环境中&#xff0c;高可用性和负载均衡是核心诉求。SCAN IP和VIP作为两大关键技术组件&#xff0c;常常让刚接触RAC的DBA感到困惑。它们虽…...

Unity Enter Play Mode Settings 搭配手动Reload全攻略:既保速度又保数据安全

Unity开发效率革命&#xff1a;Enter Play Mode Settings与智能Reload的黄金组合 在Unity项目开发的中后期&#xff0c;随着代码量膨胀和资源规模增长&#xff0c;每次按下Play按钮后的等待时间逐渐成为效率杀手。传统工作流中&#xff0c;脚本修改后的自动Reload机制像一把双刃…...

Qwen2.5-Omni:多模态流式交互的Thinker-Talker架构与TMRoPE技术解析

1. Qwen2.5-Omni的核心设计理念 第一次接触Qwen2.5-Omni时&#xff0c;最让我惊讶的是它处理多模态数据的流畅程度。想象一下&#xff0c;你正在和AI助手讨论一段视频内容&#xff0c;它能同时理解画面中的物体、背景音乐的情绪&#xff0c;还能用自然语音回应你的问题——这就…...

Tracepoint性能优化揭秘:从DECLARE_EVENT_CLASS看Linux内核如何节省50%内存开销

Tracepoint性能优化揭秘&#xff1a;从DECLARE_EVENT_CLASS看Linux内核如何节省50%内存开销 在Linux内核的性能调优领域&#xff0c;Tracepoint机制作为静态跟踪的核心基础设施&#xff0c;其性能表现直接影响着系统监控和故障诊断的效率。本文将深入剖析DECLARE_EVENT_CLASS共…...

Simulink新手必看:Enable和Trigger模块的5种实战用法(附模型下载)

Simulink新手必看&#xff1a;Enable和Trigger模块的5种实战用法&#xff08;附模型下载&#xff09; 在工业自动化、信号处理和控制系统设计中&#xff0c;Simulink作为一款强大的仿真工具&#xff0c;其子系统控制功能尤为重要。Enable和Trigger模块作为Simulink中的两大核心…...

Elasticsearch-05-四种搜索方案

Elasticsearch-05-四种搜索方案详解 概述 Elasticsearch提供了多种搜索方案以满足不同的业务需求。本文档将详细介绍四种核心搜索方案&#xff1a;纯BM25、纯KNN、混合搜索和优化KNN参数&#xff0c;包括各自的适用场景、配置方法和实际应用。 方案1&#xff1a;纯BM25搜索 场景…...

深入理解栈溢出:我是如何通过CSAPP的AttackLab实验重新认识缓冲区安全的

深入理解栈溢出&#xff1a;从AttackLab实验看现代系统安全防御博弈 当我在深夜的实验室里第一次看到Segmentation fault提示时&#xff0c;并没有意识到这行简单的错误信息背后隐藏着怎样的安全危机。作为计算机系统安全领域最经典的漏洞类型&#xff0c;栈溢出攻击在过去三十…...

LH6828@ACP#6828#484 USB3.1 全通道 4:1/1:4 10Gbps 多路复用 / 解复用器 产品规格、应用分享及CH484规格对比

LH6828 是一款高性能全通道高速双向无源开关&#xff0c;专为 USB Type-C 生态系统设计&#xff0c;深度适配 USB3.1 Gen1&#xff08;5Gbps&#xff09;/Gen2&#xff08;10Gbps&#xff09;超高速传输协议&#xff0c;支持 4 组设备全通道信号的 4:1/1:4 双向切换&#xff0c…...

LabVIEW与TCP远程实验监测

后疫情时代线上教学的普及&#xff0c;让理工类实验课的远程开展成为行业研究重点。传统线上教学工具仅适用于理论知识传播&#xff0c;针对需要动手实操的实验课程&#xff0c;存在实践操作不便、课堂监管弱化、成果验收困难等问题。国内现有远程实验系统多以虚拟仿真为主&…...

Windows系统下安装与配置FreeSWITCH完整指南

本文提供在 Windows 系统上安装 FreeSWITCH 的完整步骤&#xff0c;涵盖下载、安装、配置、启动测试&#xff0c;以及可能遇到问题的解决方案&#xff0c;帮助你顺利完成开发环境的搭建。 一、环境准备与下载 1.1 系统要求 项目要求操作系统Windows 7/8/10/11&#xff0c;Wi…...