当前位置：首页 > news >正文

1、spark代码实现

1.1 数据入口

case class ProductRating(userId:Int, productId:Int, score:Double)

/** 训练最好模型输出

@param bestModel 模型
@param bestRanks 隐含因子
@param bestIters 迭代次数
@param bestLambdas 惩罚值
@param bestRmse 最佳方差值**/
case class BestModel(bestModel:Option[MatrixFactorizationModel], bestRanks:Int, bestIters:Int, bestLambdas:Double, bestRmse:Double)


def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster(config("spark.cores")).setAppName("ALSTrainer")//创建sparkSessionval spark = SparkSession.builder().config(sparkConf).getOrCreate()//加载数据,作为rating, rdd需要应用aslval ratingRDD = getDFFromCass(spark, "cdp", "t_user_item_rating").as[ProductRating].rdd.map(rating => Rating(rating.userId, rating.productId, rating.score))//数据切分为训练集合测试集val splits = ratingRDD.randomSplit(Array(0.8, 0.2))val trainingRDD = splits(0)val testingRDD = splits(1)//核心实现，输出最优参数val bestModel = RmseUtil.predictBestRmse(trainingRDD, testingRDD)println("bestModel" + bestModel.bestRmse)val itemRecs = recommender(spark, ratingRDD, 10)//output result to cassandrasaveToCass(itemRecs.toDF(), "cdp", "t_user_recs")spark.stop()}

1.2 数据加载

我们使用cassandra大数据库，实现数据的输入与存储；

 def saveToCass(saveDF: DataFrame, keyspace: String, tableName: String): Unit = {saveDF.write.format("org.apache.spark.sql.cassandra").options(Map("keyspace" -> keyspace, "table" -> tableName)).mode(SaveMode.Append).option("spark.cassandra.output.consistency.level", "ONE").save()}def getDFFromCass(spark: SparkSession, keyspace: String, tableName: String): DataFrame = {val userItemDF = spark.read.format("org.apache.spark.sql.cassandra").options(Map("keyspace" -> keyspace, "table" -> tableName)).load().toDF("userId", "itemId", "rating")userItemDF}

1.3 基于spark mllib物品推荐

建立ALS算法模型，设置模型参数(通过模型参数评估获得最优解），调用recommendProductsForUsers方法为用户推荐指定数量的物品。

  def recommender(spark: SparkSession, ratingRDD: RDD[Rating],  recommendNum: Int): DataFrame={val splits = ratingRDD.randomSplit(Array(0.8, 0.2))val trainRDD= splits(0)val testRDD = splits(1)//建立ALS推荐模型val model = new ALS().setRank(5).setIterations(20).setLambda(0.01).setImplicitPrefs(false).setUserBlocks(-1).setProductBlocks(-1)//设置ratingRDD为所有用户推荐.run(trainRDD)val testUsersProductRDD = testRDD.map { case Rating(user, product, rate) => (user, product) }//得到预测评分的数据集val predictionRDD = model.predict(testUsersProductRDD).map {case Rating(user, product, rate) => ((user, product), rate)}//真实评分数据集与预测评分数据集进行合并val ratesAndPreds = testRDD.map { case Rating(user, product, rate) => ((user, product), rate) }.join(predictionRDD)//计算RMSE,这里的r1就是真实结果，r2就是预测结果val MSE = ratesAndPreds.map {case ((user, product), (r1, r2)) =>val err = (r1 - r2)err * err}.mean()println("Mean Squared Error = " + MSE)//用户推荐recommendNum个商品val userSubsetRecs = model.recommendProductsForUsers(recommendNum)//推荐商品列表val itemRecDF = userSubsetRecs.toDF("userId", "recommends")itemRecDF.show(5)itemRecDF}

1.4 模型参数评估

预测模型评估，预测出最好的模型参数BestModel

object RmseUtil {/*** 训练集合* @param trainingData 训练集合* @param testingData 测试集合* @return*/def predictBestRmse(trainingData:RDD[Rating], testingData:RDD[Rating]): BestModel = {var bestModel: Option[MatrixFactorizationModel] = Nonevar bestRanks = -1var bestIters = 0var bestLambdas = -1.0var bestRmse = Double.MaxValue//多重迭代法求最佳参数模型//迭代次数val numIters = List(5, 10, 20)//隐含因子val numRanks = List(8, 10, 12)//惩罚值(正则化值)val numLambdas = List(0.01, 0.1, 1)//共3*3*3种组合，每种组合迭代次数又不一样，在此会消耗大量时间for (rank <- numRanks; iter <- numIters; lambdas <- numLambdas) {//als参数为 训练集合 隐含因子 迭代次数 惩罚因子val model = ALS.train(trainingData, rank, iter, lambdas)val validationRmse = rmseComputer(model, testingData)//逐步迭代if (validationRmse < bestRmse) {bestModel = Some(model)bestRmse = validationRmsebestIters = iterbestLambdas = lambdasbestRanks = rank}}BestModel(bestModel, bestRanks, bestIters, bestLambdas, bestRmse)}
}/**** @param model       训练模型* @param dataOfTest  用于测试数据集合(一般是笛卡尔积)* @return*/def rmseComputer(model: MatrixFactorizationModel, dataOfTest: RDD[Rating]):Double= {//预测评分矩阵：预测返回结果<user product rating>val predictResult = model.predict(dataOfTest.map(item => (item.user, item.product)))//将预测值和测试值组成一个map然后比较预测的评分值和实际值val predict = predictResult.map(item => ((item.user, item.product), item.rating))val actual = dataOfTest.map(item => ((item.user, item.product), item.rating))val predJoinPrevActual = predict.join(actual).values//直接调用回归库函数需要传入一个（prediction,actualValue）val evaluator = new RegressionMetrics(predJoinPrevActual)evaluator.meanAbsoluteError}

QT第三讲

思维导图蜡笔小新闹钟需求： 实现 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include<QTime> //时间类 #include<QTimerEvent> //事件处理类 #include<QtTextToSpeech> //文本转语音类 #include<QMessageBo…...

编程日记 2023/8/1 10:32:44

Linux内核的I2C驱动框架详解------这应该是我目前600多篇博客中耗时最长的一篇博客

目录 1 I2C驱动整体框架图 2 I2C控制器 2.1 I2C控制器设备--I2C控制器在内核中也被看做一个设备 2.2 i2c控制器驱动程序 2.3 platform_driver结构体中的probe函数做了什么 2.3.1 疑问： i2cdev_notifier_call函数哪里来的 2.3.2 疑问：为什么有两…...

编程日记 2023/8/1 10:31:39

【点云处理教程】05-Python 中的点云分割

一、说明这是我的“点云处理”教程的第 5 篇文章。“点云处理”教程对初学者友好，我们将在其中简单地介绍从数据准备到数据分割和分类的点云处理管道。在上一教程中，我们看到了如何过滤点云以减少噪声或其密度。在本教程中，我们将应用一些聚…...

编程日记 2023/8/1 10:30:38

代码随想录算法训练营之JAVA｜第十七天| 654. 最大二叉树

今天是第17天刷leetcode，立个flag，打卡60天。算法挑战链接 654. 最大二叉树https://leetcode.cn/problems/maximum-binary-tree/description/ 第一想法错误的想法，就不说了。看完代码随想录之后的想法用递归模拟真实的过程如果我…...

编程日记 2023/8/1 10:29:37

C++重写函数、隐藏函数、重载函数的区别对比

目录 1.函数重载 1.1定义 1.2函数重载的规则： 1.3函数重载的作用： 2.函数重写： 2.1定义 2.2例子： 3.函数隐藏 3.1定义 3.2举个例子： 1.函数重载 1.1定义我们在学类和对象的封装特性时学过一个词叫重载&#xff0c…...

编程日记 2023/8/1 10:28:35

15.python设计模式【函数工厂模式】

1.知识讲解内容：定义一个字典，在python中一切皆对象，将所有的函数进行封装，然后定一个分发函数进行分发，将原来if…else全部干掉。角色： 函数（function）函数工厂（funct…...

编程日记 2023/8/1 10:26:25

Redis主从复制、哨兵、cluster集群原理+实验

目录一、Redis 主从复制 1、主从复制的作用 2、主从复制流程 3、搭建Redis 主从复制安装Redis（所有主机) 修改Master节点Redis配置文件修改Slave节点Redis配置文件验证主从效果一、Redis 主从复制主从复制，是指将一台Redis服务器的数据&am…...

编程日记 2023/8/1 10:25:21

微信小程序如何实现页面传参？

前言只要你的小程序超过一个页面那么可能会需要涉及到页面参数的传递，下面我总结了 4 种页面方法。路径传递通过在url后面拼接参数，参数与路径之间使用 ? 分隔，参数键与参数值用相连，不同参数用 & 分隔；如…...

编程日记 2023/8/1 10:24:16

OPC DA 客户端与服务器的那点事

C#开发OPC客户端，使用OPCDAAuto.dll。在开发过程中偶遇小坎坷，主要记录一下问题解决办法。 1、建立客户端，参考链接。建立WinFrom工程，将博客中代码全部复制即可运行： https://www.cnblogs.com/kjgagaga/p/17011730.…...

编程日记 2023/8/1 10:23:15

Java 错误异常介绍(Exceptions)

1、异常介绍异常是程序执行期间发生的意外事件。它影响程序指令流，从而导致程序异常终止。发生异常的原因有很多。其中包括： 无效的用户输入设备故障网络连接丢失物理限制（磁盘内存不足） 代码错误打开一个不可用的文…...

编程日记 2023/8/1 10:22:13

每日一题——旋转数组的最小数字

题目有一个长度为 n 的非降序数组，比如[1,2,3,4,5]，将它进行旋转，即把一个数组最开始的若干个元素搬到数组的末尾，变成一个旋转数组，比如变成了[3,4,5,1,2]，或者[4,5,1,2,3]这样的。请问，给定这…...

编程日记 2023/8/1 10:21:12

SpringBoot Jackson 日期格式化统一配置

目录 1.在全局配置文件配置 2.通过JavaBean方式配置 1.在全局配置文件配置 spring:jackson:date-format: yyyy-MM-dd HH:mm:sstime-zone: GMT8 该配置方式仅支持 Date 类型的日期格式化，不支持LocalDate 及 LocalDateTime 的格式化。 2.通过JavaBean方式配置 …...

编程日记 2023/8/1 10:20:11

剑指 Offer 38. 字符串的排列 / LeetCode 47. 全排列 II（回溯法）

题目： 链接：剑指 Offer 38. 字符串的排列难度：中等输入一个字符串，打印出该字符串中字符的所有排列。你可以以任意顺序返回这个字符串数组，但里面不能有重复元素。示例: 输入：s “abc” 输出&…...

编程日记 2023/8/1 10:19:09

【前端知识】React 基础巩固(四十三)——Effect Hook

React 基础巩固(四十三)——Effect Hook 一、Effect Hook的基本使用 Effect Hook 用来完成一些类似class中生命周期的功能。在使用类组件时，不管是渲染、网路请求还是操作DOM，其逻辑和代码是杂糅在一起的。例如我们希望把计数器结果显示在标签上&…...

编程日记 2023/8/1 10:18:08

一百三十八、ClickHouse——使用clickhouse-backup备份ClickHouse库表

一、目标使用clickhouse-backup在本地全库备份ClickHouse的数据库二、前提已经安装好clickhouse-backup 注意：由于之前同事已经按照好clickhouse-backup，所以我就没有安装如有需要请参考其他人的博客安装一下，下面是我认为比较好的一…...

编程日记 2023/8/1 10:17:07

【无标题】使用Debate Dynamics在知识图谱上进行推理（2020）7.31

使用Debate Dynamics在知识图谱上进行推理摘要介绍背景与相关工作我们的方法摘要我们提出了一种新的基于 Debate Dynamics 的知识图谱自动推理方法。其主要思想是将三重分类任务定义为两个强化学习主体之间的辩论游戏，这两个主体提取论点（知识图中…...

编程日记 2023/8/1 10:16:05

windows下若依vue项目部署

下载若依项目，前端后端项目本地启动前端打包，后端打包配置nginx.conf 需要注意的是：路径别用中文，要不然报错 #前台访问地址及端口80，在vue.config.js中可查看server {listen 80;server_name localhost; #后台…...

编程日记 2023/8/1 10:15:03

【目标检测】基于yolov5的水下垃圾检测(附代码和数据集，7684张图片)

写在前面：首先感谢兄弟们的订阅，让我有创作的动力，在创作过程我会尽最大能力，保证作品的质量，如果有问题，可以私信我，让我们携手共进，共创辉煌。路虽远，行则将至；事虽难，做则必成。只要有愚公移山的志气、滴水穿石的毅力，脚踏实地，埋头苦干，积跬步以至千里，就…...

编程日记 2023/8/1 10:14:02

P1734 最大约数和

题目描述选取和不超过 S 的若干个不同的正整数，使得所有数的约数（不含它本身）之和最大。输入格式输入一个正整数 S。输出格式输出最大的约数之和。输入输出样例输入 11 输出 9 说明/提示【样例说明】取数字 4 和 6&a…...

编程日记 2023/8/1 10:13:01

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2025/7/2 13:08:34

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2025/7/1 5:43:01

连锁超市冷库节能解决方案：如何实现超市降本增效

在连锁超市冷库运营中，高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术，实现年省电费15%-60%，且不改动原有装备、安装快捷、…...

编程新知 2025/6/25 0:28:07

cf2117E

原题链接：https://codeforces.com/contest/2117/problem/E 题目背景： 给定两个数组a,b，可以执行多次以下操作：选择 i (1 < i < n - 1)，并设置或，也可以在执行上述操作前执行一次删除任意和。求…...

编程新知 2025/7/4 5:01:42

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时，你可能需要保留重要的数据，例如通讯录。好在，将通讯录从 iPhone 转移到 Android 手机非常简单，你可以从本文中学习 6 种可靠的方法，确保随时保持连接，不错过任何信息。第 1…...

编程新知 2025/6/27 23:59:27

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2025/7/5 5:12:05

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/6/27 0:14:54

Device Mapper 机制

Device Mapper 机制详解 Device Mapper（简称 DM）是 Linux 内核中的一套通用块设备映射框架，为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程，并配以详细的…...

编程新知 2025/6/27 3:13:40

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

说明：这是一个机器学习实战项目（附带数据代码文档），如需数据代码文档可以直接到文章最后关注获取。 1.项目背景在金融市场日益复杂和波动加剧的背景下，风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...

编程新知 2025/6/27 17:11:21

android13 app的触摸问题定位分析流程

一、知识点一般来说，触摸问题都是app层面出问题，我们可以在ViewRootImpl.java添加log的方式定位；如果是touchableRegion的计算问题，就会相对比较麻烦了，需要通过adb shell dumpsys input > input.log指令，且通过打印堆栈的方式，逐步定位问题，并找到修改方案。问题…...

编程新知 2025/7/4 1:34:56

推荐系统-ALS协同过滤算法实现