当前位置: 首页 > news >正文

云计算期中作业:Spark机器学习问题解决

在原有pdf教程教程上,做一个补充

idea内搭建环境

导入依赖

就直接利用之前的作业工程项目里直接写,所以依赖基本上不用再导入了,如果要导入,看自己依赖的版本号,不要直接复制教程,比如我的:

        <dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.1.1</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-mllib_2.12</artifactId></dependency>

依赖导入失败

因为之前连热点下载依赖可能网太慢下载出现了问题,出现了下面的问题:

net.sf.opencsv:opencsv:jar:2.3 failed to transfer from https://maven.aliyun.com/repository/public   during a previous attempt. This failure was cached in the local repository and resolution is not reattempted until the update interval of aliyunmaven has elapsed or updates are forced. Original error: Could not transfer artifact net.sf.opencsv:opencsv:jar:2.3 from/to aliyunmaven (https://maven.aliyun.com/repository/public):   transfer failed for

直接去本地仓库的对应路径把文件删掉,然后刷新就可以了

读取数据集

参考:https://blog.csdn.net/heiren_a/article/details/122133564
注意上文中提到,第一行是列名和需要自动推断数据类型的情况
如:

    val training = spark.read.option("header", "true") // 假设文件没有表头.option("inferSchema", "true") // 自动推断列的数据类型.csv(dataPath).toDF("timestamp", "back_x", "back_y", "back_z", "thigh_x", "thigh_y", "thigh_z", "label")

注意:后面组合特征向量的时候,不要把label列放进去了

将时间戳转换为数值型

参考:
https://blog.csdn.net/bowenlaw/article/details/111644932

    // 将时间戳转换为数值型val trainWithTimestamp = training.withColumn("timestamp_numeric", to_timestamp(col("timestamp")))val dataWithNumericFeatures = trainWithTimestamp.withColumn("timestamp_numeric", col("timestamp_numeric").cast("double"))

模型使用,逻辑回归和决策树

https://blog.csdn.net/qq_44665283/article/details/131766504

spark模型评估和选择,准确率,F1-Score

直接调接口,https://blog.csdn.net/weixin_43871785/article/details/132334104
https://blog.csdn.net/yeshang_lady/article/details/127856065

在单个节点上运行多个worker

编辑配置文件:
进入Spark的conf目录,复制spark-env.sh.template文件并重命名为spark-env.sh。
编辑spark-env.sh文件,添加以下配置(根据需要调整):

export SPARK_WORKER_INSTANCES=1  # 在单机上模拟的Worker数量(可以设置为多个,但需要不同端口)
export SPARK_WORKER_CORES=1  # 每个Worker的CPU核心数

参考:https://www.cnblogs.com/xinfang520/p/8038306.html

Spark运行的中间结果查看spark web ui

注意要在运行时进4040端口,参考:
https://www.cnblogs.com/bigdata1024/p/12194298.html

题目附录

数据集说明

  1. 时间戳:记录样本的日期和时间(使用的时候最好将其转换为数值型)
  2. back_x: 单位时间中,背部传感器在 x 方向(下)的加速度
  3. back_y: 单位时间中,背部传感器在 y 方向(左)的加速度
  4. back_z: 单位时间中,背部传感器在z 方向(向前)的加速度
  5. thigh_x: 单位时间中,大腿传感器在 x 方向(下)的加速度
  6. thigh_y: 单位时间中,大腿传感器在 y 方向(右)的加速度
  7. thigh_z: 单位时间中,大腿传感器在 z 方向(向后)的加速度
  8. label:带注释的活动代码
    1:步行 2:运行 3:洗牌 4:楼梯(上升) 5:楼梯(下降) 6:站立 7:坐着 8:撒谎 13: 自行车 (坐着) 14: 自行车 (站着)

相关文章:

云计算期中作业:Spark机器学习问题解决

在原有pdf教程教程上&#xff0c;做一个补充 idea内搭建环境 导入依赖 就直接利用之前的作业工程项目里直接写&#xff0c;所以依赖基本上不用再导入了&#xff0c;如果要导入&#xff0c;看自己依赖的版本号&#xff0c;不要直接复制教程&#xff0c;比如我的&#xff1a; …...

计算机网络socket编程(6)_TCP实网络编程现 Command_server

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 计算机网络socket编程(6)_TCP实网络编程现 Command_server 收录于专栏【计算机网络】 本专栏旨在分享学习计算机网络的一点学习笔记&#xff0c;欢迎大家在评论…...

RabbitMQ 集群

文章目录 前言单机多节点搭建集群创建RabbitMQ节点停止服务并重置将节点加入到集群中查看集群状态宕机 结论 前言 RabbitMQ 作为消息中间件&#xff0c;可以与多个生产者和消费者进行绑定&#xff0c;但是如何只有一台 RabbitMQ 服务的话&#xff0c;那么这个 RabbitMQ 就需要…...

从零开始:使用 Spring Boot 开发图书管理系统

如何利用是springboot搭建一个简单的图书管理系统&#xff0c;下面让我们一起来看看吧 文章目录 项目结构1. 主类 LibraryApplication.java功能与注意事项&#xff1a; 2. 模型类 Book.java功能与注意事项&#xff1a; 3. 数据仓库接口 BookRepository.java功能与注意事项&…...

速盾:海外服务器使用CDN加速有什么优势?

CDN&#xff08;Content Delivery Network&#xff09;是指一种分布式网络架构&#xff0c;将内容分发到全球多个节点服务器上&#xff0c;使用户能够就近获取所需内容。海外服务器使用CDN加速&#xff0c;具有以下几个优势&#xff1a; 提高访问速度&#xff1a;CDN将内容复制…...

(二)手势识别——动作模型训练【代码+数据集+python环境(免安装)+GUI系统】

&#xff08;二&#xff09;手势识别——动作模型训练【代码数据集python环境&#xff08;免安装&#xff09;GUI系统】 背景意义 随着互联网的普及和机器学习技术的进一步发展&#xff0c;手势识别技术开始使用深度学习等方法进行手势识别&#xff0c;如Convolutional Neural…...

window系统下使用open-webui+ollama部署大模型

前面一篇博文中讲述了window下用ollama+AnythingLLM部署本地知识库,但是个人感觉anythingllm不是很好用,还不如直接用cmd窗口,而且仅能本机使用,如果想部署到服务器上面供其他人访问,完全不可行,但是使用open-webui+ollama或者独立的open-webui救可以实现。 使用open-web…...

一加ACE 3 Pro手机无法连接电脑传输文件问题

先说结论&#xff1a;OnePlus手机无法连接电脑传输数据的原因&#xff0c;大概率是一加数据线的问题。尝试其他手机品牌的数据线&#xff08;比如华为&#xff09;&#xff0c;再次尝试。 连接电脑方法&#xff1a; 1 打开开发者模式&#xff08;非必要操作&#xff09; 进入…...

因果机器学习EconML | 客户细分案例——基于机器学习的异质性处理效果估计

机器学习的最大承诺之一是在众多应用领域中实现决策自动化。在大多数数据驱动的个性化决策场景中出现的一个核心问题是对异质性处理效果的估计&#xff1a;作为处理样本的一组可观察特征的函数&#xff0c;干预对感兴趣结果的影响是什么&#xff1f;例如&#xff0c;这个问题出…...

找到最大“葫芦”组合

文章目录 问题描述解题思路分析1. 数据预处理2. 特殊情况处理3. 普通情况计算4. 结果输出 Java代码实现复杂度分析与优化 在经典德州扑克中&#xff0c;“葫芦”是一种较强的牌型。它由五张牌组成&#xff0c;其中三张牌面值相同&#xff0c;另外两张牌面值也相同。本文将探讨一…...

shell(9)完结

声明&#xff01; 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec团队无关&a…...

【计算机网络】多路转接之select

系统提供select()来实现多路转接 IO 等 拷贝 -> select()只负责等待&#xff0c;可以一次等待多个fd select()本身没有数据拷贝的能力&#xff0c;拷贝要read()/write()来完成 一、select的使用 int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exc…...

数据库-基础理论

文章目录 前言一、ORM框架二、ACID原则三、事务Transaction四、N1问题五、Normalization三范式六、FMEA方法论&#xff08;Failure Mode and Effects Analysis&#xff09;七、Profiling和PerformanceSchema查询分析 前言 基础理论 ORM框架、ACID原则、事务Transaction、N1问…...

Linux——1_系统的延迟任务及定时任务

系统的延迟任务及定时任务 在系统中我们的维护工作大多数时在服务器行对闲置时进行 我们需要用延迟任务来解决自动进行的一次性的维护 延迟任务时一次性的&#xff0c;不会重复执行 当延迟任务产生输出后&#xff0c;这些输出会以邮件的形式发送给延迟任务发起者 在RHEL9中…...

C++ 矩阵旋转

【问题描述】 编写一个程序&#xff0c;读入一个矩阵&#xff0c;输出该矩阵以第一行第一列数字为中心&#xff0c;顺时针旋转90度后的新矩阵&#xff0c;例如&#xff1a; 输入的矩阵为: 1 2 3 4 5 6 顺时针旋转90度后输出的矩阵为&#xff1a; 4 1 5 2 6 3 【输入…...

Docker学习笔记整理

这周不知道写点啥内容做个分享&#xff0c;但还是秉持学会分享的精神&#xff0c;粗略放一些Docker相关的问题和解答吧&#xff0c;后面有机会再补补再深挖深挖o(>﹏<)o 1. 容器VS虚拟机 虚拟机是一种带环境安装的解决方案&#xff08;资源完全隔离&#xff09;,有以下缺…...

计算机组成原理期末试题三(含答案)

本科生期末试卷 三 一&#xff0e;选择题&#xff08;每小题1分&#xff0c;共10分&#xff09; 1&#xff0e;冯诺依曼机工作的基本方式的特点是______。 A 多指令流单数据流 B 按地址访问并顺序执行指令 C 堆栈操作 D 存贮器按内容选择地址 2&#xff0e;在机器数______中&a…...

django+boostrap实现注册

一、django介绍 Django 是一个高级的 Python 网络框架&#xff0c;可以快速开发安全和可维护的网站。由经验丰富的开发者构建&#xff0c;Django 负责处理网站开发中麻烦的部分&#xff0c;因此你可以专注于编写应用程序&#xff0c;而无需重新开发。 它是免费和开源的&#x…...

C++初阶——类和对象(下)

目录 1、再探构造函数——初始化列表 2、类型转换 3、static成员 4、友元 5、内部类 6、匿名对象 7、对象拷贝时编译器的优化(了解) 1、再探构造函数——初始化列表 1. 构造函数初始化除了使用函数体内赋值&#xff0c;还有一种方式——初始化列表&#xff0c; 初始化列…...

趋势洞察|AI 能否带动裸金属 K8s 强势崛起?

随着容器技术的不断成熟&#xff0c;不少企业在开展私有化容器平台建设时&#xff0c;首要考虑的问题就是容器的部署环境——是采用虚拟机还是物理机运行容器&#xff1f;在往期“虚拟化 vs. 裸金属*”系列文章中&#xff0c;我们分别对比了容器部署在虚拟化平台和物理机上的架…...

SketchUp STL插件:从3D建模到实体打印的完整指南

SketchUp STL插件&#xff1a;从3D建模到实体打印的完整指南 【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…...

应对野外挑战:鼎讯GO-50PRO在交通光缆施工中的核心优势

在铁路、高速公路等交通基础设施的智能化建设中&#xff0c;稳定高效的光纤网络是指挥调度、安全监控等核心系统运行的生命线。鼎讯GO-50PRO光时域反射仪&#xff0c;作为一款集成了多种测试功能的专业设备&#xff0c;正成为保障这些关键通信链路畅通无阻的可靠选择。无惧恶劣…...

QiLink/道息实验室创始人简介:跨界工程师的“道息”实践录

QiLink/道息实验室创始人简介&#xff1a;跨界工程师的“道息”实践录我是徐玉生&#xff0c;一个用厨师的火候、瑜伽师的呼吸、教师的逻辑&#xff0c;搭建技术社区的“非典型工程师”。2013年&#xff0c;我同时拿到中式烹调师一级&#xff08;高级技师&#xff09;和高级瑜伽…...

3分钟快速解锁WeMod高级功能:Wand-Enhancer完整使用指南

3分钟快速解锁WeMod高级功能&#xff1a;Wand-Enhancer完整使用指南 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 你是否曾经在使用WeMod时&#xff0…...

DeepSeek微调吞吐量翻倍实践:LoRA+梯度检查点+FlashAttention-3三重协同调优(附A100/A800实测QPS对比表)

更多请点击&#xff1a; https://codechina.net 第一章&#xff1a;DeepSeek性能调优指南 DeepSeek系列大模型在推理与训练阶段的性能表现高度依赖于硬件适配、计算图优化及内存管理策略。本章聚焦于可落地的调优实践&#xff0c;涵盖推理加速、显存压缩与计算精度协同配置三大…...

如何用roop-unleashed三分钟制作专业级AI换脸视频:零门槛人脸替换终极指南

如何用roop-unleashed三分钟制作专业级AI换脸视频&#xff1a;零门槛人脸替换终极指南 【免费下载链接】roop-unleashed Evolved Fork of roop with Web Server and lots of additions 项目地址: https://gitcode.com/gh_mirrors/ro/roop-unleashed 还在为复杂的AI换脸工…...

终极GTA5线上小助手:免费开源的游戏体验增强工具完整指南

终极GTA5线上小助手&#xff1a;免费开源的游戏体验增强工具完整指南 【免费下载链接】GTA5OnlineTools GTA5线上小助手 项目地址: https://gitcode.com/gh_mirrors/gt/GTA5OnlineTools 你是否厌倦了在GTA5线上模式中重复枯燥的刷钱任务&#xff1f;是否对复杂的游戏机制…...

CML估计器:基于条件矩约束与局部稳健性的因果推断新方法

1. 项目概述&#xff1a;从条件矩约束到局部稳健估计在实证研究的工具箱里&#xff0c;我们常常遇到一个核心难题&#xff1a;如何从一个充满内生性、遗漏变量和复杂交互的数据集中&#xff0c;干净地识别出我们关心的因果效应&#xff1f;传统的工具变量&#xff08;IV&#x…...

一键永久保存:用novel-downloader打造你的个人数字图书馆 [特殊字符]

一键永久保存&#xff1a;用novel-downloader打造你的个人数字图书馆 &#x1f4da; 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在信息飞速更迭的互联网时代&#xff0c;你是否曾…...

创业团队如何利用Taotoken管理多个AI模型的用量与成本

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 创业团队如何利用Taotoken管理多个AI模型的用量与成本 对于资源有限的创业团队而言&#xff0c;在快速迭代产品原型时&#xff0c;…...