当前位置：首页 > news >正文

基于Jaccard相似度的推荐算法---示例

news 2026/2/10 12:31:58

数据展示

import pandas as pd
import numpy as np# 读取CSV文件
data = pd.read_csv('E:/recommended_s/Books.csv',header=None,names=['用户id','书籍id','rating' ,'timestamp'])[:10000]
print(data.head(10))

在这里插入图片描述

Jaccard相似度

Jaccard相似度是一种用于比较两个集合相似程度的度量方法。它通过计算两个集合的交集元素数量与并集元素数量的比值来衡量它们的相似性。
具体地，给定两个集合A和B，Jaccard相似度可以通过以下公式计算：J(A, B) = |A ∩ B| / |A ∪ B|，其中，|A ∩ B|表示集合A和B的交集元素数量，|A ∪ B|表示集合A和B的并集元素数量。
Jaccard相似度的取值范围在0到1之间，数值越接近1表示两个集合越相似，数值越接近0表示两个集合越不相似。

分析数据的特点

低维，对于产品只有书籍id，没有关于书籍的其他内容，比如内容，属性等等。【当然也可以将书籍id进行拆解，但是因为时间原因并没有细化】
存在一对一和一对100的情况，每个用户所看过的书籍数目不同且有较大差异。

可以考虑的方法

基于用户的协同过滤推荐算法：由于数据中包含了用户对不同物品的评分记录，可以基于用户之间的评分行为相似性来进行推荐。通过计算用户之间的相似度，找到与目标用户兴趣相似的其他用户，然后根据这些用户的评分记录，推荐给目标用户可能感兴趣的物品。
基于内容的推荐算法：数据中的物品ID可以用于表示物品的内容特征，如关键词、标签等。可以根据物品之间的内容相似性来进行推荐。通过计算物品之间的相似度，找到与目标物品相似的其他物品，然后推荐给用户。
基于时间的推荐算法：数据中的时间戳可以用于表示用户对物品的评分时间。可以根据时间的先后顺序，推荐最近或最热门的物品给用户。例如，可以推荐用户最近一段时间内热门的物品，或者根据用户的历史评分记录，预测用户未来可能感兴趣的物品。

计算方法优缺点

简单直观：Jaccard相似度的计算方法简单明了，易于理解和实现。【选择该算法的主要原因】
不受数据规模影响：Jaccard相似度只关注集合的共同元素数量，而不考虑集合的大小，因此不受数据规模的影响。
适用于稀疏数据：对于稀疏的用户-物品矩阵，Jaccard相似度可以有效地衡量用户之间的喜好相似度。
但，Jaccard相似度只考虑了集合的共同元素，而没有考虑元素之间的权重差异。

计算用户之间的Jaccard相似度

# 计算用户之间的Jaccard相似度
def Jaccard_similarity(user_id, data):user_data = data[data['用户id'] == user_id]other_users = data[data['用户id'] != user_id]# print(user_data)# print(other_users['用户id'])other_users_ids=list(set(other_users['用户id']))# print(other_users_ids)user_books = set(user_data['书籍id'])other_users_books = other_users.groupby('用户id')['书籍id'].apply(set).tolist()# print("###")# print(user_books)# print(other_users_books)i=0similarities = []for other_user_book in other_users_books:intersection = user_books.intersection(other_user_book)union = user_books.union(other_user_book)#print(len(intersection))Jaccard = float(len(intersection)) / (len(union) + 1e-8)user_id = other_users_ids[i]i=i+1# if(Jaccard != 0):# print(Jaccard)similarities.append((user_id, Jaccard))return similarities

获取与给定最相似的10个用户

def get_similar_users(user_id, data, top_n=10):similar_users = Jaccard_similarity(user_id, data)# 根据相似度对similar_users列表进行降序排序，找到最相似的用户similar_users.sort(key=lambda x: x[1], reverse=True)# print(similar_users)# 获取给定用户已经看过的书籍ID，并将其存储在user_books集合中user_books = set(data[data['用户id'] == user_id]['书籍id'])# print("%%%")# print(user_books)# 创建一个空列表，用于存储推荐的书籍IDrecommended_books = []# 遍历与给定用户最相似的前top_n个用户for other_user, _ in similar_users[:top_n]:# 获取当前相似用户喜欢的书籍ID，并将其存储在other_user_books集合中other_user_books = set(data[data['用户id'] == other_user]['书籍id'])# print(data[data['用户id'] == other_user])# 使用列表推导式，从相似用户喜欢的书籍中筛选出给定用户没有看过的书籍，将筛选出的书籍ID添加到recommended_books列表中recommended_books.extend([book for book in other_user_books if book not in user_books])# 返回前10个推荐的书籍ID列表return recommended_books[:10]

对1713353的用户推荐10本书

# 对于用户id为1713353的用户，推荐10本书
user_id = '1713353'
recommended_books = get_similar_users(user_id, data)
# 输出推荐的书
for book in recommended_books:print(book)

在这里插入图片描述

基于Jaccard相似度的推荐算法---示例

目录数据展示推荐算法的分类基于相似度基于流行度/上下文/社交网络 Jaccard相似度分析数据的特点可以考虑的方法计算方法优缺点计算用户之间的Jaccard相似度获取与给定最相似的10个用户对1713353的用户推荐10本书数据展示 import pandas as pd import numpy as np# 读取CSV文…...

编程日记 2023/11/9 17:19:20

基于指数分布算法的无人机航迹规划-附代码

基于指数分布算法的无人机航迹规划文章目录基于指数分布算法的无人机航迹规划1.指数分布搜索算法2.无人机飞行环境建模3.无人机航迹规划建模4.实验结果4.1地图创建4.2 航迹规划 5.参考文献6.Matlab代码摘要：本文主要介绍利用指数分布算法来优化无人机航迹规划。 …...

编程日记 2023/11/9 17:18:18

vite基础学习笔记：13.Dialog 对话框（用户注册与登录）

说明：自学做的笔记和记录，如有错误请指正 1. Dialog 对话框组件目标效果：点击“登录/注册”，弹框 （1）创建全局组件，在官网中查询代码粘贴 （2） 注册和使用全局组件 &a…...

编程日记 2023/11/9 17:17:17

RedisTemplate 使用 pipeline 时需要注意的问题

RedisTemplate 使用 pipeline 时需要注意的问题 RedisTemplate 使用 pipeline 进行批量 set 时，需要把 key 和 value 都转为字节 1. 直接使用 getBytes() 转为字节，在读取数据时，会抛出以下序列化异常 //错误代码 protected void process(…...

编程日记 2023/11/9 17:16:16

下载后端传递过来的文件 let thil this uni.showLoading({title: 下载中,mask:true }) uni.downloadFile({url: 接口地址, //仅为示例，并非真实的资源header: {"Authorization": token},responseType: blob,success: (res) > {if (res.statusCode 2…...

编程日记 2023/11/9 17:15:14

使用Drupal管理小型项目？试试Docker快速部署Drupal结合内网穿透实现远程访问

🎬 鸽芷咕：个人主页 🔥个人专栏:《Linux深造日志》《C干货基地》 ⛺️生活的理想，就是为了理想的生活! 文章目录前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal…...

编程日记 2023/11/9 17:14:13

BSP-STM32移植FreeRTOS

在stm32裸机工程中的Middlewares目录添加freeRtos源码在裸机工程中的main中调用freertos接口...

编程日记 2023/11/9 17:12:11

【Spring】Spring IOCDI（万字详解）

文章目录 1. Spring是什么？2. 认识IOC2.1 传统程序开发1. Main.java2. Car.java3. Framework.java4. Bottom.java5. Tire.java 2.2 分析传统开发2.3 IOC程序开发1. Main.java2. Car.java3. Framework.java4. Bottom.java5. Tire.java 2.4 分析IOC开发2.5 IOC容器优点…...

编程日记 2023/11/9 17:10:08

ts 使用泛型来做类型映射

使用泛型来做类型映射，将对象(或数组)中类型转换为另一个类型首先，定义一个类型Student // 定义一个类型Studentinterface Student {name: string,age: number}1、把Student的所有属性都变为可空的 type Nullable<T> {[p in keyof T]: T[p] || …...

编程日记 2023/11/9 17:09:07

Compose - 使用 Paging

一、添加依赖查看官方最新版本 val paging_version "3.2.1" implementation("androidx.paging:paging-runtime:$paging_version") implementation("androidx.paging:paging-compose:$paging_version") 二、定义数据源 PagingSource 是对其它…...

编程日记 2023/11/9 17:08:05

数据结构与算法-(11)---有序表(OrderedList)

🌈个人主页: Aileen_0v0 🔥系列专栏:PYTHON学习系列专栏 💫"没有罗马,那就自己创造罗马~" 目录知识回顾及总结有序表的引入编辑实现有序表 1.有序表-类的构造方法 2.有序表-search方法的实现 3.有序表-add方法的实现…...

编程日记 2023/11/9 17:07:02

佳易王会员管理系统软件如何下载，基本功能有哪些

一、佳易王会员管理软件大众版部分功能简介： 1、会员信息登记 ：可以直接使用手机号登记，也可以使用实体卡片，推荐用手机号即可。 2、会员卡类型 ：可以自由设置卡的类型，比如：充值卡、计次卡、…...

编程日记 2023/11/9 17:06:01

docker搭建mysql环境

1. 基础环境名称描述CentOS 7.6Linux操作系统版本docker 20.10.5docker版本mysql 8.0.29mysql镜像版本 2. 下载安装使用docker命令下载mysql镜像 [rootzhouwei ~]# docker pull mysql:8.0.29查看docker仓库是否已经下载了mysql镜像 [rootzhouwei ~]# docker images将mys…...

编程日记 2023/11/9 17:03:57

优思学院｜推行精益六西格玛困难重重？7大原因分析助你避坑

六西格玛，是一种让企业在绩效管理的舞台上跳得更高更远的方法。它不仅仅是一套原则和技术，更是一种对完美的执着追求。在这个舞台上，企业的流程管理得以严格、集中，质量得以高效提升。优思学院总结出六西格玛的核心是&#xff1…...

编程日记 2023/11/9 17:02:56

四川思维跳动商务信息咨询有限公司可信吗？

在今天的数字化时代，抖音带货已成为一种全新的商业模式。许多公司都在通过这种形式进行产品推广和销售，其中，四川思维跳动商务信息咨询有限公司以其专业的服务和良好的信誉，在抖音带货领域赢得了广泛赞誉。四川思维跳动商务信息…...

编程日记 2023/11/9 17:00:52

高防CDN与高防服务器：谁更胜一筹？

在当今数字化世界中，网络安全对于保护网站和应用程序至关重要。在这一背景下，高防CDN和高防服务器是两种流行的解决方案，用于应对不同类型的网络攻击。本文将分析高防CDN是否能够替代高防服务器，以及它们各自的优势和限制。高防C…...

编程日记 2023/11/9 16:59:50

2.Netty简单应用

引入Maven依赖 <dependency> <groupId>io.netty</groupId> <artifactId>netty-all</artifactId><version>4.1.49.Final</version> </dependency>服务端的管道处理器 public class NettyServerHandler extends ChannelInbou…...

编程日记 2023/11/9 16:58:48

80个10倍提升Excel技能的ChatGPT提示

你是否厌倦了在使用Excel时感觉像个新手？你是否想将你的技能提升到更高的水平，成为真正的Excel大师？嗯，如果你正在使用ChatGPT，那么成为Excel专家简直易如反掌。你只需要了解一些最有用的Excel提示，就能在…...

编程日记 2023/11/9 16:57:44

jenkins结合k8s部署动态slave

1、完成k8s连接在完成jenkins的部署后现安装kubernets的插件如果jenkins 是部署在k8s集群中只需要填写一下如果是非本集群的部署则需要填写证书等 cat ./config echo ‘certificate-authority-data-value’ | base64 -d > ./ca.crt echo ‘client-certificate-data’ |…...

编程日记 2023/11/9 16:56:43

搜索引擎Elasticsearch基础与实践

倒排索引将文档中的内容分词，然后形成词条。记录每条词条与数据的唯一表示如id的对应关系，形成的产物就是倒排索引，如下图： ElasticSearch数据的存储和搜索原理这里的索引库相当于mysql中的database。一个文档（do…...

编程日记 2023/11/9 16:55:42

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

CSI-2 协议详细解析 (一） 1. CSI-2层定义（CSI-2 Layer Definitions） 分层结构 ：CSI-2协议分为6层： 物理层（PHY Layer） ： 定义电气特性、时钟机制和传输介质（导线&#…...

编程新知 2026/1/23 12:18:20

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/11/30 16:55:32

在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module

1、为什么要修改 CONNECT 报文？ 多租户隔离：自动为接入设备追加租户前缀，后端按 ClientID 拆分队列。零代码鉴权：将入站用户名替换为 OAuth Access-Token，后端 Broker 统一校验。灰度发布：根据 IP/地理位写…...

编程新知 2025/8/1 10:20:23

【AI学习】三、AI算法中的向量

在人工智能（AI）算法中，向量（Vector）是一种将现实世界中的数据（如图像、文本、音频等）转化为计算机可处理的数值型特征表示的工具。它是连接人类认知（如语义、视觉特征）与…...

编程新知 2026/1/1 14:01:45

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案，允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。概念解析 Module Federation (模块联邦) Modul…...

编程新知 2026/1/31 13:48:37

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2026/1/30 1:47:17

基于TurtleBot3在Gazebo地图实现机器人远程控制

1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...

编程新知 2026/2/6 11:54:58

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式，自动确定它们的类型。这一特性减少了显式类型注解的需要，在保持类型安全的同时简化了代码。通过分析上下文和初始值，TypeSc…...

编程新知 2025/11/2 1:48:43

android13 app的触摸问题定位分析流程

一、知识点一般来说，触摸问题都是app层面出问题，我们可以在ViewRootImpl.java添加log的方式定位；如果是touchableRegion的计算问题，就会相对比较麻烦了，需要通过adb shell dumpsys input > input.log指令，且通过打印堆栈的方式，逐步定位问题，并找到修改方案。问题…...

编程新知 2026/1/31 13:18:31

目录

数据展示

推荐算法的分类

基于相似度

基于流行度/上下文/社交网络