当前位置：首页 > news >正文

完整地实现了推荐系统的构建、实验和评估过程，为不同推荐算法在同一数据集上的性能比较提供了可重复实验的框架

news 2026/5/28 9:01:04

{"cells": [{"cell_type": "markdown","metadata": {},"source": ["# 基于用户的协同过滤算法"]},{"cell_type": "code","execution_count": 1,"metadata": {},"outputs": [],"source": ["# 导入包\n","import random\n","import math\n","import time\n","from tqdm import tqdm"]},{"cell_type": "markdown","metadata": {},"source": ["## 一. 通用函数定义"]},{"cell_type": "code","execution_count": 2,"metadata": {},"outputs": [],"source": ["# 定义装饰器，监控运行时间\n","def timmer(func):\n","    def wrapper(*args, **kwargs):\n","        start_time = time.time()\n","        res = func(*args, **kwargs)\n","        stop_time = time.time()\n","        print('Func %s, run time: %s' % (func.__name__, stop_time - start_time))\n","        return res\n","    return wrapper"]},{"cell_type": "markdown","metadata": {},"source": ["### 1. 数据处理相关\n","1. load data\n","2. split data"]},{"cell_type": "code","execution_count": 3,"metadata": {},"outputs": [],"source": ["class Dataset():\n","    \n","    def __init__(self, fp):\n","        # fp: data file path\n","        self.data = self.loadData(fp)\n","    \n","    @timmer\n","    def loadData(self, fp):\n","        data = []\n","        for l in open(fp):\n","            data.append(tuple(map(int, l.strip().split('::')[:2])))\n","        return data\n","    \n","    @timmer\n","    def splitData(self, M, k, seed=1):\n","        '''\n","        :params: data, 加载的所有(user, item)数据条目\n","        :params: M, 划分的数目，最后需要取M折的平均\n","        :params: k, 本次是第几次划分，k~[0, M)\n","        :params: seed, random的种子数，对于不同的k应设置成一样的\n","        :return: train, test\n","        '''\n","        train, test = [], []\n","        random.seed(seed)\n","        for user, item in self.data:\n","            # 这里与书中的不一致，本人认为取M-1较为合理，因randint是左右都覆盖的\n","            if random.randint(0, M-1) == k:  \n","                test.append((user, item))\n","            else:\n","                train.append((user, item))\n","\n","        # 处理成字典的形式，user->set(items)\n","        def convert_dict(data):\n","            data_dict = {}\n","            for user, item in data:\n","                if user not in data_dict:\n","                    data_dict[user] = set()\n","                data_dict[user].add(item)\n","            data_dict = {k: list(data_dict[k]) for k in data_dict}\n","            return data_dict\n","\n","        return convert_dict(train), convert_dict(test)"]},{"cell_type": "markdown","metadata": {},"source": ["### 2. 评价指标\n","1. Precision\n","2. Recall\n","3. Coverage\n","4. Popularity(Novelty)"]},{"cell_type": "code","execution_count": 4,"metadata": {},"outputs": [],"source": ["class Metric():\n","    \n","    def __init__(self, train, test, GetRecommendation):\n","        '''\n","        :params: train, 训练数据\n","        :params: test, 测试数据\n","        :params: GetRecommendation, 为某个用户获取推荐物品的接口函数\n","        '''\n","        self.train = train\n","        self.test = test\n","        self.GetRecommendation = GetRecommendation\n","        self.recs = self.getRec()\n","        \n","    # 为test中的每个用户进行推荐\n","    def getRec(self):\n","        recs = {}\n","        for user in self.test:\n","            rank = self.GetRecommendation(user)\n","            recs[user] = rank\n","        return recs\n","        \n","    # 定义精确率指标计算方式\n","    def precision(self):\n","        all, hit = 0, 0\n","        for user in self.test:\n","            test_items = set(self.test[user])\n","            rank = self.recs[user]\n","            for item, score in rank:\n","                if item in test_items:\n","                    hit += 1\n","            all += len(rank)\n","        return round(hit / all * 100, 2)\n","    \n","    # 定义召回率指标计算方式\n","    def recall(self):\n","        all, hit = 0, 0\n","        for user in self.test:\n","            test_items = set(self.test[user])\n","            rank = self.recs[user]\n","            for item, score in rank:\n","                if item in test_items:\n","                    hit += 1\n","            all += len(test_items)\n","        return round(hit / all * 100, 2)\n","    \n","    # 定义覆盖率指标计算方式\n","    def coverage(self):\n","        all_item, recom_item = set(), set()\n","        for user in self.test:\n","            for item in self.train[user]:\n","                all_item.add(item)\n","            rank = self.recs[user]\n","            for item, score in rank:\n","                recom_item.add(item)\n","        return round(len(recom_item) / len(all_item) * 100, 2)\n","    \n","    # 定义新颖度指标计算方式\n","    def popularity(self):\n","        # 计算物品的流行度\n","        item_pop = {}\n","        for user in self.train:\n","            for item in self.train[user]:\n","                if item not in item_pop:\n","                    item_pop[item] = 0\n","                item_pop[item] += 1\n","\n","        num, pop = 0, 0\n","        for user in self.test:\n","            rank = self.recs[user]\n","            for item, score in rank:\n","                # 取对数，防止因长尾问题带来的被流行物品所主导\n","                pop += math.log(1 + item_pop[item])\n","                num += 1\n","        return round(pop / num, 6)\n","    \n","    def eval(self):\n","        metric = {'Precision': self.precision(),\n","                  'Recall': self.recall(),\n","                  'Coverage': self.coverage(),\n","                  'Popularity': self.popularity()}\n","        print('Metric:', metric)\n","        return metric"]},{"cell_type": "markdown","metadata": {},"source": ["## 二. 算法实现\n","1. Random\n","2. MostPopular\n","3. UserCF\n","4. UserIIF"]},{"cell_type": "code","execution_count": 5,"metadata": {},"outputs": [],"source": ["# 1. 随机推荐\n","def Random(train, K, N):\n","    '''\n","    :params: train, 训练数据集\n","    :params: K, 可忽略\n","    :params: N, 超参数，设置取TopN推荐物品数目\n","    :return: GetRecommendation，推荐接口函数\n","    '''\n","    items = {}\n","    for user in train:\n","        for item in train[user]:\n","            items[item] = 1\n","    \n","    def GetRecommendation(user):\n","        # 随机推荐N个未见过的\n","        user_items = set(train[user])\n","        rec_items = {k: items[k] for k in items if k not in user_items}\n","        rec_items = list(rec_items.items())\n","        random.shuffle(rec_items)\n","        return rec_items[:N]\n","    \n","    return GetRecommendation"]},{"cell_type": "code","execution_count": 6,"metadata": {},"outputs": [],"source": ["# 2. 热门推荐\n","def MostPopular(train, K, N):\n","    '''\n","    :params: train, 训练数据集\n","    :params: K, 可忽略\n","    :params: N, 超参数，设置取TopN推荐物品数目\n","    :return: GetRecommendation, 推荐接口函数\n","    '''\n","    items = {}\n","    for user in train:\n","        for item in train[user]:\n","            if item not in items:\n","                items[item] = 0\n","            items[item] += 1\n","        \n","    def GetRecommendation(user):\n","        # 随机推荐N个没见过的最热门的\n","        user_items = set(train[user])\n","        rec_items = {k: items[k] for k in items if k not in user_items}\n","        rec_items = list(sorted(rec_items.items(), key=lambda x: x[1], reverse=True))\n","        return rec_items[:N]\n","    \n","    return GetRecommendation"]},{"cell_type": "code","execution_count": 7,"metadata": {},"outputs": [],"source": ["# 3. 基于用户余弦相似度的推荐\n","def UserCF(train, K, N):\n","    '''\n","    :params: train, 训练数据集\n","    :params: K, 超参数，设置取TopK相似用户数目\n","    :params: N, 超参数，设置取TopN推荐物品数目\n","    :return: GetRecommendation, 推荐接口函数\n","    '''\n","    # 计算item->user的倒排索引\n","    item_users = {}\n","    for user in train:\n","        for item in train[user]:\n","            if item not in item_users:\n","                item_users[item] = []\n","            item_users[item].append(user)\n","    \n","    # 计算用户相似度矩阵\n","    sim = {}\n","    num = {}\n","    for item in item_users:\n","        users = item_users[item]\n","        for i in range(len(users)):\n","            u = users[i]\n","            if u not in num:\n","                num[u] = 0\n","            num[u] += 1\n","            if u not in sim:\n","                sim[u] = {}\n","            for j in range(len(users)):\n","                if j == i: continue\n","                v = users[j]\n","                if v not in sim[u]:\n","                    sim[u][v] = 0\n","                sim[u][v] += 1\n","    for u in sim:\n","        for v in sim[u]:\n","            sim[u][v] /= math.sqrt(num[u] * num[v])\n","    \n","    # 按照相似度排序\n","    sorted_user_sim = {k: list(sorted(v.items(), \\\n","                               key=lambda x: x[1], reverse=True)) \\\n","                       for k, v in sim.items()}\n","    \n","    # 获取接口函数\n","    def GetRecommendation(user):\n","        items = {}\n","        seen_items = set(train[user])\n","        for u, _ in sorted_user_sim[user][:K]:\n","            for item in train[u]:\n","                # 要去掉用户见过的\n","                if item not in seen_items:\n","                    if item not in items:\n","                        items[item] = 0\n","                    items[item] += sim[user][u]\n","        recs = list(sorted(items.items(), key=lambda x: x[1], reverse=True))[:N]\n","        return recs\n","    \n","    return GetRecommendation"]},{"cell_type": "code","execution_count": 8,"metadata": {},"outputs": [],"source": ["# 4. 基于改进的用户余弦相似度的推荐\n","def UserIIF(train, K, N):\n","    '''\n","    :params: train, 训练数据集\n","    :params: K, 超参数，设置取TopK相似用户数目\n","    :params: N, 超参数，设置取TopN推荐物品数目\n","    :return: GetRecommendation, 推荐接口函数\n","    '''\n","    # 计算item->user的倒排索引\n","    item_users = {}\n","    for user in train:\n","        for item in train[user]:\n","            if item not in item_users:\n","                item_users[item] = []\n","            item_users[item].append(user)\n","    \n","    # 计算用户相似度矩阵\n","    sim = {}\n","    num = {}\n","    for item in item_users:\n","        users = item_users[item]\n","        for i in range(len(users)):\n","            u = users[i]\n","            if u not in num:\n","                num[u] = 0\n","            num[u] += 1\n","            if u not in sim:\n","                sim[u] = {}\n","            for j in range(len(users)):\n","                if j == i: continue\n","                v = users[j]\n","                if v not in sim[u]:\n","                    sim[u][v] = 0\n","                # 相比UserCF，主要是改进了这里\n","                sim[u][v] += 1 / math.log(1 + len(users))\n","    for u in sim:\n","        for v in sim[u]:\n","            sim[u][v] /&#

完整地实现了推荐系统的构建、实验和评估过程，为不同推荐算法在同一数据集上的性能比较提供了可重复实验的框架

{"cells": [{"cell_type": "markdown","metadata": {},"source": ["# 基于用户的协同过滤算法"]},{"cell_type": "code","execution_count": 1,"metadata": {},"ou…...

编程日记 2025/1/16 15:49:24

DRV8311三相PWM无刷直流电机驱动器

1 特性 • 三相 PWM 电机驱动器 – 三相无刷直流电机 • 3V 至 20V 工作电压 – 24V 绝对最大电压 • 高输出电流能力 – 5A 峰值电流驱动能力 • 低导通状态电阻 MOSFET – TA 25C 时，RDS(ON) (HS LS) 为210mΩ（典型值） • 低功耗睡眠模式…...

编程日记 2025/1/16 15:42:12

Mysql--运维篇--备份和恢复（逻辑备份，mysqldump，物理备份，热备份，温备份，冷备份，二进制文件备份和恢复等）

MySQL 提供了多种备份方式，每种方式适用于不同的场景和需求。根据备份的粒度、速度、恢复时间和对数据库的影响，可以选择合适的备份策略。主要备份方式有三大类：逻辑备份（mysqldump），物理备份和二进制文件备…...

编程日记 2025/1/16 15:41:10

机器学习-归一化

文章目录一. 归一化二. 归一化的常见方法1. 最小-最大归一化 (Min-Max Normalization)2. Z-Score 归一化（标准化）3. MaxAbs 归一化三. 归一化的选择四. 为什么要进行归一化1. 消除量纲差异2. 提高模型训练速度3. 增强模型的稳定性4. 保证正则化项的有效…...

编程日记 2025/1/16 15:40:08

Linux 串口检查状态的实用方法

在 Linux 系统中，串口通信是非常常见的操作，尤其在嵌入式系统、工业设备以及其他需要串行通信的场景中。为了确保串口设备的正常工作，检查串口的连接状态和配置信息是非常重要的。本篇文章将介绍如何在 Linux 上检查串口的连接状态&#xff0…...

编程日记 2025/1/16 15:37:06

Qt的核心机制概述

Qt的核心机制概述 1. 元对象系统（The Meta-Object System） 基本概念：元对象系统是Qt的核心机制之一，它通过moc（Meta-Object Compiler）工具为继承自QObject的类生成额外的代码，从而扩展了C语言…...

编程日记 2025/1/16 15:36:03

微调神经机器翻译模型全流程

MBART: Multilingual Denoising Pre-training for Neural Machine Translation 模型下载 mBART 是一个基于序列到序列的去噪自编码器，使用 BART 目标在多种语言的大规模单语语料库上进行预训练。mBART 是首批通过去噪完整文本在多种语言上预训练序列到序列模型的方…...

编程日记 2025/1/16 15:34:01

Cesium加载地形

Cesium的地形来源大致可以分为两种，一种是由Cesium官方提供的数据源，一种是第三方的数据源，官方源依赖于Cesium Assets，如果设置了AccessToken后，就可以直接使用Cesium的地形静态构造方法来获取数据源CesiumTerrainPro…...

编程日记 2025/1/16 15:27:54

gitlab runner正常连接提示作业挂起中,等待进入队列解决办法

方案1 作业挂起中,等待进入队列重启gitlab-runner gitlab-runner stop gitlab-runner start gitlab-runner run方案2 启动 gitlab-runner 服务 gitlab-runner start成功启动如下 [rootdocserver home]# gitlab-runner start Runtime platform …...

编程日记 2025/1/16 15:25:51

C#对动态加载的DLL进行依赖注入，并对DLL注入服务

文章目录什么是依赖注入概念常用的依赖注入实现什么是动态加载定义示例对动态加载的DLL进行依赖注入什么是依赖注入概念依赖注入（Dependency Injection，简称 DI）是一种软件设计模式，用于解耦软件组件之间的依赖关系。在 C# 开发中，它主要解决的是类与类之间的强耦合问题…...

编程日记 2025/1/16 15:23:44

HDMI接口

HDMI接口前言各版本区别概述（Overview）接口接口类型Type A/E 引脚定义Type B 引脚定义Type C 引脚定义Type D 引脚定义传输流程概述Control Period前导码字符边界同步Control Period 编/解码 Data Island PeriodLeading/Trailing Guard BandTERC4 编/解…...

编程日记 2025/1/16 15:21:40

A/B 测试：玩转假设检验、t 检验与卡方检验

一、背景：当“审判”成为科学 1.1 虚拟场景——法庭审判想象这样一个场景：有一天，你在王国里担任“首席审判官”。你面前站着一位嫌疑人，有人指控他说“偷了国王珍贵的金冠”。但究竟是他干的，还是他是被冤枉的&…...

编程日记 2025/1/16 15:19:37

第143场双周赛：最小可整除数位乘积 Ⅰ、执行操作后元素的最高频率 Ⅰ、执行操作后元素的最高频率 Ⅱ、最小可整除数位乘积 Ⅱ

Q1、最小可整除数位乘积 Ⅰ 1、题目描述给你两个整数 n 和 t 。请你返回大于等于 n 的最小整数，且该整数的各数位之积能被 t 整除。 2、解题思路问题拆解： 题目要求我们找到一个整数，其数位的积可以被 t 整除。数位的积是指将数…...

编程日记 2025/1/16 15:18:35

【STM32】LED状态翻转函数

1.利用状态标志位控制LED状态翻转在平常编写LED状态翻转函数时，通常利用状态标志位实现LED状态的翻转。如下所示： unsigned char led_turn_flag; //LED状态标志位，1-点亮，0-熄灭/***************************************函…...

编程日记 2025/1/16 15:12:29

uniapp 小程序 textarea 层级穿透，聚焦光标位置错误怎么办？

前言在开发微信小程序时，使用 textarea 组件可能会遇到一些棘手的问题。最近我在使用 uniapp 开发微信小程序时，就遇到了两个非常令人头疼的问题： 层级穿透：由于 textarea 是原生组件，任何元素都无法遮盖住它。当其…...

编程日记 2025/1/16 15:10:26

汽车 SOA 架构下的信息安全新问题及对策漫谈

摘要：随着汽车行业的快速发展，客户和制造商对车辆功能的新需求促使汽车架构从面向信号向面向服务的架构（SOA）转变。本文详细阐述了汽车 SOA 架构的协议、通信模式，并与传统架构进行对比，深入分析了 SOA 给信…...

编程日记 2025/1/16 15:03:19

Unity-Mirror网络框架-从入门到精通之RigidbodyPhysics示例

文章目录前言示例一、球体的基础配置二、三个球体的设置差异三、示例意图LatencySimulation前言在现代游戏开发中，网络功能日益成为提升游戏体验的关键组成部分。本系列文章将为读者提供对Mirror网络框架的深入了解，涵盖从基础到高级的多个主题。Mirror是一个用于Unity的开…...

编程日记 2025/1/16 15:02:15

小程序如何引入腾讯位置服务

小程序如何引入腾讯位置服务 1.添加服务登录微信公众平台注意：小程序要企业版的第三方服务 -> 服务 -> 开发者资源 -> 开通腾讯位置服务在设置 -> 第三方设置中可以看到开通的服务，如果没有就在插件管理中添加插件 2.腾讯位置服务…...

编程日记 2025/1/16 14:55:04

H3CNE-12-静态路由（一）

静态路由应用场景： 静态路由是指由管理员手动配置和维护的路由路由表：路由器用来妆发数据包的一张“地图” 查看命令： dis ip routing-table 直连路由：接口配置好IP地址并UP后自动生成的路由静态路由配置： ip…...

编程日记 2025/1/16 14:52:57

多线程锁

在并发编程中，锁（Lock）是一种用于控制多个线程对共享资源访问的机制。正确使用锁可以确保数据的一致性和完整性，避免出现竞态条件（Race Condition）、死锁（Deadlock）等问题。Java 提供…...

编程日记 2025/1/16 14:51:53

别被忽悠了！2026亲测靠谱的AI论文网站|避坑精选版

2026 年学术写作工具已高度分化，千笔AI与ThouPen为全流程首选，豆包、DeepSeek 为专项强手；避坑关键：拒绝假文献、严控 AIGC 率、优先国内适配、免费试用先行。一、TOP3 全流程首选（亲测不踩雷） 1. 千笔AI&…...

编程新知 2026/5/25 23:31:41

Qri高级功能：如何使用JSON Schema验证和描述数据集结构

Qri高级功能：如何使用JSON Schema验证和描述数据集结构【免费下载链接】qri youre invited to a data party! 项目地址: https://gitcode.com/gh_mirrors/qr/qri Qri是一个强大的开源数据协作工具，它提供了丰富的功能来帮助用户管理、共享和验证…...

编程新知 2026/5/25 21:50:10

工业云脑：06 现在就能干：树莓派边缘盒子+PLC，10分钟缺陷检测小案例

06 现在就能干：树莓派边缘盒子+PLC，10分钟缺陷检测小案例今天第九篇06小节——现在就能干：树莓派边缘盒子+PLC，10分钟缺陷检测小案例。新手照着做10分钟就能跑起来，老手一看就知道这玩意儿省了多少钱。以前想上AI检测，得花几万块买专业边缘盒子；现在？树莓派5（RPi 5）…...

编程新知 2026/5/25 20:28:07

3个步骤彻底解决WSA安装失败问题：从错误代码到完美运行

3个步骤彻底解决WSA安装失败问题：从错误代码到完美运行【免费下载链接】WSABuilds Run Windows Subsystem For Android on your Windows 10 and Windows 11 PC using prebuilt binaries with Google Play Store (MindTheGapps) and/or Magisk or KernelSU (root so…...

编程新知 2026/5/25 20:09:55

别再瞎拖拽了！Unity Prefab从创建到批量修改的保姆级工作流（含变体与嵌套实战）

Unity Prefab高效工作流：从创建到批量修改的实战指南在Unity项目开发中，Prefab（预制体）是最基础也最强大的工具之一。但很多开发者，尤其是初学者，往往停留在简单的"拖拽-修改"阶段，没…...

编程新知 2026/5/25 18:50:50

Nacos CVE-2021-29441漏洞深度解析：User-Agent绕过与鉴权失效

1. 这个漏洞不是“改个Header就能登录”，而是Nacos鉴权体系的一道裂缝CVE-2021-29441这个编号在Nacos社区里曾被轻描淡写地归为“低危”，直到我接手一个金融客户线上告警——他们的Nacos集群在凌晨三点被批量创建了37个高权限用户，所有操作日…...

编程新知 2026/5/25 17:30:10

Hermes Agent工具如何自定义接入Taotoken提供商

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Hermes Agent工具如何自定义接入Taotoken提供商 Hermes Agent 是一款功能强大的AI智能体开发框架，它支持通过自定义提供…...

编程新知 2026/5/27 4:38:39

基于MAX78000的边缘AI语音识别：从模型训练到嵌入式部署实战

1. 项目概述与核心思路最近在捣鼓一个挺有意思的小项目，我把它叫做“声控转向控制器”。简单来说，这玩意儿能听懂你说的几个特定单词，比如“左转”、“右转”、“前进”、“后退”，然后控制对应的LED灯亮起。你可能会想&#xff0…...

编程新知 2026/5/25 16:54:55

解锁你的音乐收藏：浏览器端音频解密完整指南

解锁你的音乐收藏：浏览器端音频解密完整指南【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://gitcod…...

编程新知 2026/5/25 16:13:18

为开源项目OpenClaw配置Taotoken作为其大模型服务后端

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为开源项目OpenClaw配置Taotoken作为其大模型服务后端 OpenClaw 是一个功能强大的开源工具，它允许开发者便捷地调用各类…...

编程新知 2026/5/25 15:35:32

相关文章：