当前位置: 首页 > article >正文

河北省大数据应用创新大赛样题

**

河北省大数据应用创新大赛样题

**
1. 在Linux下安装Java并搭建完全分布式Hadoop集群。在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
【数据获取】
使用wget命令获取JDK安装包:
“wget -P /data http://house.tipdm.com/SZ-Competition/jdk-8u281-linux-x64.rpm”
使用wget命令获取Hadoop安装包:
“wget -P /data http://house.tipdm.com/SZ-Competition/hadoop-3.1.4.tar.gz”
使用wget命令获取yarn-site.xml:
“wget -P /data http://house.tipdm.com/SZ-Competition/yarn-site.xml”
(运行引号中的所有代码可将数据上传到实训平台)
【文件读取路径】
“/data/jdk-8u281-linux-x64.rpm”
“/data/hadoop-3.1.4.tar.gz”
“/data/yarn-site.xml”
【答案提交】
根据赛题提供的“问题1答案报告(模拟试题).docx”文档,将最终答案的实现命令、运行截图整理入文档,并以“手机号+问题1”命名进行提交,如“XXX+问题1”文件名。31分
(1)在master节点下,执行命令安装JDK1.8。对安装进度100%的结果进行截图。1分
(2)编辑“/etc/profile”文件,添加Java的环境变量,并且使配置生效。对添加至“/etc/profile”文件的内容进行截图。1分
(3)将JDK安装包发送至slave1与slave2节点,在slave1与slave2节点下安装JDK并且配置Java的环境变量并使配置生效。对slave1与slave2节点下添加至“/etc/profile”文件的内容进行截图。2分
(4)在master、slave1和slave2三个节点分别执行“java -version”,验证JDK安装成功并对master、slave1和slave2三个节点的输出结果进行截图。1分
(5)在master节点下,解压Hadoop安装包至“/usr/local”目录。解压后使用命令“ll /usr/local/”并对命令运行结果进行截图。1分
(6)在master节点下,进入“/usr/local/hadoop-3.1.4/etc/hadoop/”路径,修改Hadoop配置文件“core-site.xml”,设置HDFS的默认地址与端口(fs.defaultFS),设置HDFS的临时路径(hadoop.tmp.dir),对配置完成后的“core-site.xml”文件内容进行截图。2分
(7)在master节点下,修改Hadoop运行环境配置文件“hadoop-env.sh”以及YARN框架运行环境配置文件“yarn-env.sh”,添加Java的环境变量,并设置使用HDFS以及YARN框架的用户为root。分别对配置完成后的“hadoop-env.sh”和“yarn-env.sh”文件的内容进行截图。2分
(8)在master节点下,修改HDFS配置文件“hdfs-site.xml”,设置Namenode数据存储的路径(dfs.namenode.name.dir)以及Datanode数据存储的路径(dfs.datanode.data.dir),设置HDFS文件块的副本数(dfs.replication)为2。对配置完成后的“hdfs-site.xml”文件内容进行截图。3分
(9)在master节点下,修改MapReduce配置文件“mapred-site.xml”,设置执行MapReduce作业的框架(mapreduce.framework.name)为YARN,设置MR App Master的环境变量(yarn.app.mapreduce.am.env、mapreduce.map.env和mapreduce.reduce.env),以及设置MapReduce作业所需的类路径CLASSPATH(mapreduce.application.classpath)。对配置完成后的“mapred-site.xml”文件内容进行截图。5分
(10)在master节点下,获取已完整配置的“yarn-site.xml”,复制到Hadoop对应的配置文件目录并替换。替换完成后打开“yarn-site.xml”对文件内容进行截图。1分
(11)在master节点下,修改workers文件,设置为slave1与slave2。对workers的文件内容进行截图。2分
(12)发送master中的Hadoop至slave1与slave2节点。发送成功后分别在slave1与slave2节点上执行“ll /usr/local/”,并对命令的运行结果进行截图。2分
(13)在三个节点的“/etc/profile”添加Hadoop路径(HADOOP_HOME),并且使配置生效。对master、slave1、slave2三个节点添加至“/etc/profile”的内容进行截图。1分
(14)格式化NameNode并启动Hadoop集群(包括HDFS、YARN和historyserver)。对格式化NameNode的结果进行截图(即显示“successfully formatted”字样),并且对启动Hadoop集群的命令执行结果进行截图。3分
(15)在master、slave1和slave2三个节点分别执行“jps”,验证Hadoop集群启动成功并且对master、slave1和slave2三个节点的输出结果进行截图。3分
附件 问题1答案报告(模拟试题).docx
进入实训环境
你的答案:
上传答案附件
2.请依据题目要求运用Python语言采集二手房网址的房源信息,其网址为“http://house.tipdm.com/spider/fyxx/index.html”。
【答案提交】
提交代码文件(.ipynb格式文件)和采集数据(result2_1.xlsx和result2_2.xlsx)。文件使用压缩包的形式上传,并以“手机号+问题2”命名,如“XXX+问题2”文件名。
注:为确保拿到相应分数,请务必提交采集数据result2_1.xlsx和result2_2.xlsx。20分
(1)解析二手房网址,采集前15页(包含第15页)二手房具体房源信息网址,并将采集结果存于Excel文件,保存路径设定为“/data/result2_1.xlsx”,编码格式为“utf-8”。
6分
(2)采集二手房信息的标题、户型、朝向、楼层、区域、单价和总价,其中单价和总价不含价格单位,如总价信息为“45”,并将采集数据整理为DataFrame数据框形式。
12分
(3)将数据以“[‘标题’,‘户型’,‘朝向’,‘楼层’,‘区域’, ‘单价’,‘总价’]”中文名称设定列名,最终将数据保存为Excel文件,保存路径设定为“/data/result2_2.xlsx”,编码格式为“utf-8”。2分
进入实训环境
你的答案:
上传答案附件
3.基于二手房房价数据,根据题目要求运用Python语言的数据分析知识对数据进行清洗与挖掘。(文件名及路径为“/data/SecondhandHouseV3.csv”)
【数据获取】
①使用wget命令获取SecondhandHouseV3.csv:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouseV3.csv”
(运行引号中的所有代码可将数据上传到实训平台)
方法②下载题目附件中的数据,上传到实训平台中
【文件读取路径】
“/data/SecondhandHouseV3.csv”
【答案提交】
提交代码文件(.ipynb格式文件)和处理后的二手房屋数据(result3.csv)。文件使用压缩包的形式上传,并以“手机号+问题3”命名,如“XXX+问题3”文件名。
注:为确保拿到相应分数,请务必提交处理后的二手房屋数据result3.csv。20分
(1)删除数据中含有“暂无”字符与缺失值(NAN)的行数据。4分
(2)对完全重复的行数据进行删除,只保留第一次出现的重复行数据。3分
(3)删除“总价”列的价格单位“万”,仅保留数值,并将其数据类型转换为浮点型。4分
(4)删除“总价”列数值大于200的行数据。2分
(5)将“区域”列中的“城关区”改为“城关”。2分
(6)删除“户型”、“建筑年代”和“住宅类别”列。3分
(7)完成上述步骤后,将处理后的二手房屋数据保存为CSV文件,保存路径设定为“/data/result3.csv”,编码格式为“utf-8”。2分
附件 SecondhandHouseV3.csv
进入实训环境
你的答案:
上传答案附件
4.基于二手房房价数据,根据题目要求运用数据挖掘与可视化知识对数据进行统计与基本图形绘制。(文件名及路径为“/data/SecondhandHouse_view.csv”)
【数据获取】
方法①使用wget代码获取数据:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_view.csv”
(运行引号中的所有代码可将数据上传到实训平台)
方法②下载题目附件中的数据,上传到实训平台中
【文件读取路径】
“/data/SecondhandHouse_view.csv”
【答案提交】
根据赛题提供的“问题4答案报告(模拟试题).docx”文档,将最终答案的结果图(统计结果+可视化绘图结果)整理入文档,以“手机号+问题4”命名,如“XXX+问题4”文件名,并提交代码文件(.ipynb格式文件),文件使用压缩包的形式上传,并以“手机号+问题4”命名,如“XXX+问题4”文件名15分
(1)绘制不同装修程度的二手房存量分布环形图:统计不同装修程度的二手房数量;根据统计数据,设定环形图展示百分比(autopct),其中百分比保留小数点后1位(如12.3%);展示环形图的图例,指定图例位于左上角。4分
(2)根据“单价=总价/建筑面积”公式,计算二手房单价,运用分组聚合操作,对“房龄”进行分组,统计各分组“总价”列和二手房单价的平均值,并按照房龄进行排序(从小到大),展示前3行,对展示结果进行截图。3分
(3)根据题(2)统计结果,绘制二手房不同房龄的平均房价和单价折线图:将画布分成2行1列的2个子图,子图1绘制不同房龄的平均房价折线图,子图2绘制不同房龄的平均单价折线图;设定x轴和y轴标题;设定x轴刻度标签(xticks)为具体的房龄数值区间。8分
附件 问题四数据及提交模板.zip
进入实训环境
你的答案:
上传答案附件
5.基于二手房房价数据,根据题目要求运用机器学习知识实现数据建模与评估。
(文件名及路径为“/data/SecondhandHouse_train.csv”)

【数据获取】
方法①使用wget代码获取数据:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_train.csv”
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_test.csv”
(运行引号中的所有代码可将数据上传到实训平台)
方法②下载题目附件中的数据,上传到实训平台中
【文件读取路径】
“/data/SecondhandHouse_train.csv”
“/data/SecondhandHouse_test.csv”
【答案提交】
最终答案需提交代码文件(.ipynb格式文件)和结果数据(result5_1.csv和result5_2.csv),文件使用压缩包的形式上传,并以“手机号+问题5”命名,如“XXX+问题5”文件名。15分
(1)特征编码:将“SecondhandHouse_train.csv”数据的“朝向”、“楼层”、“装修”、“电梯”、“产权性质”、“建筑结构”、“建筑类别”、“区域”和“学校”9列数据的类型由字符型转化为数值型,如“电梯”列,原{‘有’,‘无’}转化为{1,0}。特征编码后的数据保存为CSV文件,保存路径设定为“/data/result5_1.csv”,编码格式为“utf-8”。9分
(2)模型训练与评估:使用sklearn估计器构建回归模型,使用最优模型预测“SecondhandHouse_test.csv”数据总价,提取“id”列和预测的“总价”列,并将提取结果保存为CSV文件,保存路径设定为“/data/result5_2.csv”,编码格式为“utf-8”。6分
附件 问题五数据.zip
进入实训环境
你的答案:
上传答案附件

相关文章:

河北省大数据应用创新大赛样题

** 河北省大数据应用创新大赛样题 ** 1. 在Linux下安装Java并搭建完全分布式Hadoop集群。在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。 【数据获取】 使用wget命令获取JDK安装包: “w…...

RabbitMQ 的专业术语

术语定义示例/说明生产者(Producer)发送消息到 RabbitMQ 的客户端应用程序。日志系统将错误信息发送到 RabbitMQ。消费者(Consumer)从 RabbitMQ 队列中接收并处理消息的客户端应用程序。一个订单处理服务从队列中读取消息并更新数…...

【教程】安装 iterm2 打造漂亮且高性能的 mac 终端

【教程】安装 iterm2 打造漂亮且高性能的 mac 终端_mac 安装iterm2-CSDN博客 全面解析:Github网站无法访问的解决方法! 安装myzh 参考文章:https://blog.csdn.net/qq_44741467/article/details/135727124 下载地址:GitCode - 全球开发者的开源…...

redis特性及应用场景

文章目录 什么是redis?热库redis作为热库的特性redis适用场景 什么是redis? redis在系统架构中的位置就是冷热分离架构的热数据库位置, redis就是热库, 我们一般说缓存数据库。 其他的像MySQL、SQL Server这种关系数据库、MongoDB…...

算法 | 鲸鱼优化算法(WOA)原理,公式,应用,算法改进研究综述,完整matlab代码

===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 鲸鱼优化算法 一、原理与公式二、应用领域三、算法改进研究四、完整MAT…...

前端面试常见部分问题,及高阶部分问题

面试中也极有可能让你徒手写代码,无聊的面试问题o( ̄︶ ̄)o 一、HTML/CSS 基础与进阶 常见问题 什么是语义化标签?有哪些常用语义化标签? 答案:语义化标签是指具有明确含义的 HTML 标签,如 <header>、<footer>、<article>、<section> 等。它们有…...

C++初登门槛

多态 一、概念 多态是指不同对象对同一消息产生不同响应的行为。例如&#xff0c;蓝牙、4G、Wi-Fi 对“发送数据”指令有不同的具体实现。 二、核心理解 本质&#xff1a;通过基类指针或引用操作子类对象&#xff0c;实现运行时动态绑定。 表现形式&#xff1a; 接口统一&a…...

C/C++线程详解

一、C语言线程创建&#xff08;POSIX线程&#xff09; 1. 基本创建方法 POSIX线程&#xff08;pthread&#xff09;是C语言中创建线程的标准API&#xff1a; #include <pthread.h> #include <stdio.h>void* thread_func(void* arg) {printf("Thread runnin…...

红队系列-网络安全知识锦囊-CTF(持续更新)

CTF CTF系列-AWD专题篇CTF-比赛培训基础1 CTF 介绍HTTP协议分析进阶001.CTF简介_宽字节注入高级 2018CTF——黑客大赛特训CTF-PWNPWNCTF竞赛中的主要题型之一了解CTF Capture The Flag 夺旗描述:# gets从标准输入设备读字符串函数#下面是对main函数中的汇编代码的解释:modifi…...

Windows环境下常用网络命令使用

ipconfig命令使用&#xff1a; ipconfig可用于显示当前的TCP/IP配置的设置值&#xff0c;通常是用来检验人工配置的TCP/IP设置是否正确。在网络连接出现问题时&#xff0c;可以使用ipconfig /release和ipconfig /renew命令来刷新IP地址&#xff0c;这通常能解决因IP地址冲突或…...

双系统下 ubuntu 20.04 突然 开机黑屏报错 hdaudioC0D2: unable to configure disabling

双系统下 ubuntu 20.04 突然 开机黑屏报错 hdaudioC0D2: unable to configure disabling 简介:今天在开实验室开双系统台式机时,ubuntu 20.04 系统下,突然在某次关机后再开机时,本来启动好好的,但是在进行图形化启动时,本来应该是显示输入账号和密码时,直接黑屏报错了,…...

easyExcel导入导出convert

easyExcel版本2.2.7&#xff0c;3.0及以上使用不一致 类上加注解 ExcelProperty(value "下发类型",converter ComponentPurchaseBomExceladvanceStatusConvert.class)private Integer advanceStatus; 转换类 import com.alibaba.excel.converters.Converter; impo…...

C语言高频面试题——指针函数和函数指针的区别

在 C 语言中&#xff0c;指针函数 和 函数指针 是两个容易混淆的概念&#xff0c;但它们的功能和用途完全不同。以下是详细的对比分析&#xff0c;帮助你彻底理解它们的区别。 1. 指针函数&#xff08;Function Returning a Pointer&#xff09; 定义 指针函数 是一个返回值为…...

软考中级-软件设计师 知识点速过1(手写笔记)

第一章&#xff1a;数值及其转换 没什么可说的&#xff0c;包括二进制转八进制和十六进制 第二章&#xff1a;计算机内部数据表示 真值和机器数&#xff1a; 原码&#xff08;后面都拿x -19举例) &#xff1a; 反码&#xff1a; 补码&#xff1a; 移码&#xff1a; 定点数…...

【美化vim】

美化vim 涉及文件一个例子 涉及文件 ~/.vimrc修改这个文件即可 一个例子 let mapleader ,set number " 显示行号"set relativenumber " 显示相对行号set incsearch " 实时开启搜索高亮set hlsearch " 搜索结果高亮set autoinden…...

Dash框架深度解析:数据驱动型Web应用的Python化革命

一、Dash的定位与技术基因 Dash作为Python生态中的现象级框架,重新定义了数据科学家与Web应用开发之间的边界。它以**“零前端”**为核心设计理念,将React的组件化思想、Plotly的可视化能力与Flask的轻量化服务完美融合,使得Python开发者无需深入JavaScript技术栈即可构建交…...

Linux——线程(1)线程概念与控制

线程&#xff1f;这个名字我们似乎有些眼熟&#xff1f;没错&#xff0c;我们之前提到过的进程和这个有点像。但进程和线程有什么关系呢&#xff1f;本系列我们讲从线程的概念出发&#xff0c;了解一下Linux中的线程以及线程和进程的关系等内容。 一、线程的概念 线程是一个执…...

Redis LFU 策略参数配置指南

一、基础配置步骤‌ 设置内存上限‌ 在 redis.conf 配置文件中添加以下指令&#xff0c;限制 Redis 最大内存使用量&#xff08;例如设置为 4GB&#xff09;&#xff1a; maxmemory 4gb选择 LFU 淘汰策略‌ 根据键的作用域选择策略&#xff1a; # 所有键参与淘汰 maxmemory-…...

备忘录模式:实现对象状态撤销与恢复的设计模式

备忘录模式&#xff1a;实现对象状态撤销与恢复的设计模式 一、模式核心&#xff1a;在不破坏封装性的前提下保存和恢复对象状态 在软件开发中&#xff0c;经常需要实现 “撤销” 功能&#xff08;如文本编辑器的撤销修改、游戏存档读取&#xff09;。直接暴露对象内部状态会…...

蓝桥杯 5. 交换瓶子

交换瓶子 原题目链接 题目描述 有 N 个瓶子&#xff0c;编号为 1 ~ N&#xff0c;放在架子上。 例如有 5 个瓶子&#xff0c;当前排列为&#xff1a; 2 1 3 5 4每次可以拿起 2 个瓶子&#xff0c;交换它们的位置。 要求通过若干次交换&#xff0c;使得瓶子的编号从小到大…...

本地使用Ollama部署DeepSeek

以下是在本地使用Ollama部署DeepSeek的详细教程&#xff0c;涵盖安装、修改安装目录、安装大模型以及删除大模型的操作步骤。 安装Ollama 1. 系统要求 确保你的系统满足以下条件&#xff1a; 操作系统&#xff1a;macOS、Linux或者Windows。足够的磁盘空间和内存。 2. 安装…...

freecad参数化三维模型装配体解析至web端,切换参数组或修改参数

用免费开源的freecad制作全参数化的三维模型&#xff0c;并且装配&#xff0c;上传至服务器&#xff0c;解析至web端&#xff0c;用户可以切换参数或修改参数&#xff0c;驱动模型改变。 freecad全参数化装配体模型解析至web端进行参数切换、修改完整展示_哔哩哔哩_bilibili …...

前端基础之《Vue(9)—混入》

一、什么是混入 1、是一种代码复用的技巧 Vue组件是由若干选项组成的&#xff0c;向组件中混入可复用的选项。 2、作用 比如我封装两个组件&#xff0c;一个是A组件&#xff0c;一个是B组件&#xff0c;发现它里面有相同的选项&#xff0c;就可以用混用的方式来复用它。 二、…...

ORACLE DATAGUARD遇到GAP增量恢复方式修复RAC环境备机的实践

ORACLE DATAGUARD技术是一个常用的数据保护机制&#xff0c;在DATAGUARD运行过程中&#xff0c;遇到异常导致备机不同步&#xff0c;而主库的归档日志也被清理&#xff0c;此时出现GAP&#xff0c;无法同步&#xff1b;就需要人工处理&#xff1b;对于小型数据库重新全量同步数…...

机器人进阶---视觉算法(六)傅里叶变换在图像处理中怎么用

傅里叶变换在图像处理中怎么用 傅里叶变换的基本原理应用场景Python代码示例逐行解释总结傅里叶变换在图像处理中是一种重要的工具,它将图像从空间域转换到频域,从而可以对图像的频率特性进行分析和处理。傅里叶变换在图像滤波、图像增强、图像压缩和图像分析等方面都有广泛应…...

Java知识日常巩固(五)

Java中wait()和 sleep()的区别? 在Java中,wait()和sleep()方法用于线程控制,但它们之间存在几个关键区别: 1. 用途 wait():用于线程间的协作。当一个线程需要等待某个条件满足时,它会调用wait()方法释放锁并进入等待状态,直到其他线程调用相同对象的notify()或notifyAl…...

浅析锁的应用与场景

锁的应用与场景&#xff1a;从单机到分布式 摘要&#xff1a;在多线程和分布式系统中&#xff0c;“锁”是避免资源竞争、保障数据一致性的核心机制。但你真的了解锁吗&#xff1f;什么时候该用锁&#xff1f;用哪种锁&#xff1f;本文通过通俗的比喻和代码示例&#xff0c;带…...

语音合成之五语音合成中的“一对多”问题主流模型解决方案分析

语音合成中的“一对多”问题主流模型解决方案分析 引言“一对多”指的是什么&#xff1f;优秀开源模型的方法CosyvoiceSparkTTSLlaSA TTSVITS 引言 TTS系统旨在模仿人类的自然语音&#xff0c;但其核心面临着一个固有的挑战&#xff0c;即“一对多”问题 。这意味着对于给定的…...

ElementUi的Dropdown下拉菜单的详细介绍及使用

Dropdown是 ElementUI 中用于创建下拉菜单项的一个组件&#xff0c;通常el-dropdown-item 包裹在 el-dropdown 组件中使用。以下从功能特性(一些属性及方法)、使用和高级功能(高亮显示&#xff0c;滚动&#xff0c;额外传参数)三个方面进行详细介绍。 一、功能特性 1.触发方式…...

Linux麒麟 V10 系统找回 root 密码的步骤

Linux麒麟 V10 系统找回 root 密码的步骤 1 环境介绍2 操作步骤2.1重启系统并进入 GRUB 菜单2.2 输入 GRUB 账户密码2.3 修改启动参数2.4 启动系统2.5 修改root 密码2.6 重启系统 3 Linux命令全方位指南实战教程Linux命令学习使用列表 1 环境介绍 有时候root 密码忘记&#xf…...