当前位置：首页 > article >正文

Python推荐系统实战：从协同过滤到LLM可解释性推荐

article 2026/5/3 10:17:32

1. 项目概述从零到一构建你的Python推荐系统知识库最近在整理自己过去几年在推荐系统领域的实践笔记发现了一个挺有意思的GitHub项目作者用Python实现了从最基础的协同过滤到最新的LLM可解释性推荐几乎覆盖了推荐系统演进的完整路径。这个项目就像一个微缩的推荐系统发展史从传统的矩阵分解到深度学习再到如今大语言模型的融合每一步都有可运行的代码和数据集示例。对于想系统学习推荐系统或者想找一个能快速上手的代码参考库的朋友来说这个项目是个不错的起点。我自己也做过不少推荐相关的项目从电商的商品推荐到内容平台的资讯流深知理论到实践之间那道鸿沟。很多教程要么只讲公式要么给一段“黑盒”代码你跑通了也不知道为什么这么写。而这个项目的价值在于它把每个算法的核心思想、代码实现和具体的数据集比如Kaggle的MovieLens结合了起来让你能亲手“调教”一个推荐模型看看它到底是怎么工作的。无论你是刚入门的数据科学学生还是想拓宽技术栈的工程师跟着这个项目走一遍都能对“推荐”这件事有更扎实的理解。2. 推荐系统基础两大核心思想与三大经典算法2.1 内容过滤与协同过滤的本质区别推荐系统的核心目标很简单在海量信息中把用户最可能感兴趣的东西找出来。实现这个目标主要有两条技术路线基于内容的过滤和协同过滤。理解它们的区别是入门的第一步。基于内容的过滤思路非常直观——“物以类聚人以群分”。系统会分析物品本身的属性特征。比如在电影推荐中特征可能是类型动作、喜剧、导演、主演、关键词等。同时系统也会构建用户的画像记录他历史喜欢过的物品有哪些特征。当需要推荐时系统就计算待推荐物品的特征与用户喜好特征的相似度。如果你喜欢《盗梦空间》特征科幻、悬疑、诺兰导演那么系统就会把具有类似特征的《星际穿越》推荐给你。它的优势是推荐结果可解释性强“因为你喜欢科幻片”并且对新用户有历史行为即可和新物品一上线就能被分析特征都比较友好。但缺点也很明显容易陷入“信息茧房”推荐结果缺乏惊喜性并且严重依赖物品特征的构建质量。协同过滤则跳出了物品本身的内容其核心哲学是“群体智慧”。它认为用户的行为评分、点击、购买本身就蕴含了丰富的偏好信息。协同过滤主要分为两类基于用户的协同过滤找到和你兴趣相似的其他用户把他们喜欢而你没看过的东西推荐给你。这就像朋友给你安利电影“咱俩口味挺像这部片子我觉得你也会喜欢。”基于物品的协同过滤找到与你历史喜欢的物品相似的其他物品。这就像电商平台的“买了又买”或“看了又看”“喜欢这本书的顾客也喜欢了那本书。”协同过滤最大的优势是能发现复杂的、非直观的关联比如啤酒和尿布推荐结果往往有惊喜。但它有著名的“冷启动”问题新用户因为没有行为数据无法找到相似用户新物品因为没有被任何用户行为关联也无法被推荐。此外数据稀疏性用户-物品交互矩阵非常稀疏也是其一大挑战。2.2 矩阵分解协同过滤的“发动机”升级传统的协同过滤尤其是基于物品的在计算海量用户和物品的相似度时计算量巨大。矩阵分解技术就是为了解决这个问题而生的它可以说是协同过滤领域的一个里程碑。我们可以把用户-物品评分矩阵想象成一张巨大的、有很多空白格未评分的表格。矩阵分解要做的事就是把这个大表格分解成两个小矩阵的乘积一个代表用户潜在特征矩阵一个代表物品潜在特征矩阵。这里的“潜在特征”是算法自动学习出来的可能对应着一些我们无法直接命名但实际存在的偏好维度比如“电影的艺术性 vs 商业性”、“书籍的深度 vs 易读性”。通过这种分解我们实际上是用一个低维的、稠密的向量即潜在特征向量来代表每个用户和每个物品。预测用户对某个物品的评分就变成了计算这两个向量的内积。这大大降低了计算复杂度并且潜在特征的表示方式让模型能够捕捉到更细微、更抽象的偏好关系。著名的奇异值分解SVD及其在稀疏矩阵上的变体如FunkSVD也就是常说的SVD的基础就是矩阵分解的经典算法。项目中使用MovieLens数据集实现的正是这类方法。注意在实操中我们面对的用户-物品矩阵绝大多数是稀疏的评分很少直接应用传统的SVD要求矩阵是稠密的会出问题。因此业界普遍采用梯度下降法来优化求解目标是最小化预测评分与实际评分之间的误差。这也是为什么你会在代码里看到大量的迭代训练过程。2.3 深度学习与Wide Deep模型从线性到非线性跨越随着数据量激增和特征越来越复杂传统的线性模型如矩阵分解开始显得力不从心。深度学习为推荐系统带来了强大的非线性拟合能力。在这个项目中作者用Keras实现了基础的深度学习推荐模型。这类模型通常将用户ID、物品ID、以及各种上下文特征如时间、地点通过嵌入层转化为稠密向量然后经过多个全连接层进行复杂的交互和变换最终输出一个预测值如点击率、评分。深度学习模型能自动学习特征间的高阶组合无需大量人工特征工程。而Wide Deep模型则是Google提出的一种融合架构它巧妙地结合了记忆与泛化的优势Wide部分一个广义线性模型如逻辑回归。它处理稀疏的、高维的交叉特征例如“用户国籍中国 AND 物品类别火锅底料”。这部分模型具有很强的“记忆”能力能精准学习历史数据中出现的频繁模式。Deep部分一个深度神经网络。它处理稠密的嵌入特征如用户ID嵌入、物品ID嵌入通过多层非线性变换进行“泛化”能够发现那些未曾出现在历史数据中的、潜在的特征组合。Wide部分负责“精准”Deep部分负责“拓展”两者联合训练使得模型既能记住用户的明确偏好又能探索新的兴趣点。在推荐系统、广告点击率预估等场景中效果显著。项目中“概念性”的实现正是为了帮助理解这一经典论文的思想。3. 实战解析基于Kaggle电影数据的Python实现要点3.1 内容过滤实战从TF-IDF到余弦相似度我们以项目中的“content based filtering with movies dataset”为例拆解其实现步骤。这里使用的典型技术栈是pandas、scikit-learn和numpy。第一步是数据准备与特征工程。Kaggle的movies数据集通常包含电影ID、标题、类型等信息。类型字段往往是像Action|Adventure|Sci-Fi这样的字符串。我们需要将其拆分为列表然后使用CountVectorizer或TfidfVectorizer将其转换为机器可读的特征向量。TF-IDF词频-逆文档频率比简单的词频统计更优因为它能降低常见类型如“Drama”的权重提升有区分度类型如“Film-Noir”的权重。# 示例代码片段基于电影类型的TF-IDF特征提取 from sklearn.feature_extraction.text import TfidfVectorizer import pandas as pd # 假设df是一个DataFramegenres列是管道符分隔的字符串 df[genres] df[genres].fillna() # 处理空值 tfidf TfidfVectorizer(stop_wordsenglish) # 创建TF-IDF转换器 tfidf_matrix tfidf.fit_transform(df[genres]) # 生成特征矩阵 print(f电影数量 x 类型特征维度: {tfidf_matrix.shape})第二步是计算相似度。得到每部电影的特征向量TF-IDF向量后我们需要计算电影之间的两两相似度。最常用的方法是余弦相似度它衡量的是两个向量在方向上的差异而忽略其长度即电影类型数量的多少这非常适合我们的场景。from sklearn.metrics.pairwise import linear_kernel # 计算余弦相似度矩阵 cosine_sim linear_kernel(tfidf_matrix, tfidf_matrix) # 为每部电影建立一个索引相似度的排序列表 indices pd.Series(df.index, indexdf[title]).drop_duplicates()第三步是生成推荐。当用户指定一部电影如“Toy Story”时我们找到该电影在相似度矩阵中对应的行取出与所有其他电影的相似度分数进行降序排列取出Top-N部电影排除掉用户已经看过的或输入的本身就得到了推荐列表。实操心得基于内容的推荐特征质量决定天花板。除了类型可以尝试融入导演、演员需要实体链接、剧情简介需用NLP技术如词嵌入等信息。但特征越多向量维度越高计算成本和噪声也可能增加。一个实用的技巧是对文本特征如简介先进行关键词提取或主题建模如LDA再用其结果作为特征比直接使用全部文本效果更稳定。3.2 协同过滤与矩阵分解实战Surprise库的正确打开方式对于协同过滤和矩阵分解项目中很可能使用了Surprise这个经典的Python推荐系统库。它封装了SVD、SVD、KNNBaseline等多种算法接口简单易用。首先是数据加载与格式。Surprise要求数据格式为(user_id, item_id, rating)的元组。我们需要将DataFrame转换为Dataset对象。from surprise import Dataset, Reader from surprise.model_selection import train_test_split import pandas as pd # 假设ratings_df有‘userId’ ‘movieId’ ‘rating’三列 reader Reader(rating_scale(0.5, 5.0)) # 明确评分范围 data Dataset.load_from_df(ratings_df[[userId, movieId, rating]], reader) # 划分训练集和测试集 trainset, testset train_test_split(data, test_size0.25)然后是模型训练与评估。这里以SVD矩阵分解为例。from surprise import SVD from surprise import accuracy # 初始化模型可以调整n_factors潜在因子数、n_epochs迭代次数等参数 algo SVD(n_factors100, n_epochs20, lr_all0.005, reg_all0.02) # 在训练集上训练 algo.fit(trainset) # 在测试集上预测并评估 predictions algo.test(testset) accuracy.rmse(predictions) # 计算RMSE误差最后是进行推荐。训练好的模型可以预测任意用户对任意物品的评分。为指定用户生成Top-N推荐时需要计算该用户对所有未评分物品的预测评分然后排序。def get_top_n_recommendations(algo, user_id, n10): # 首先获取训练集中该用户未评分的所有电影ID inner_user_id algo.trainset.to_inner_uid(user_id) user_rated_items set([item for (item, _) in algo.trainset.ur[inner_user_id]]) all_items set(algo.trainset.all_items()) candidates all_items - user_rated_items # 预测评分并排序 item_ratings [] for item_inner_id in candidates: item_raw_id algo.trainset.to_raw_iid(item_inner_id) pred algo.predict(user_id, item_raw_id).est item_ratings.append((item_raw_id, pred)) # 按预测评分降序排列取前N个 top_n sorted(item_ratings, keylambda x: x[1], reverseTrue)[:n] return top_n注意事项n_factors潜在因子数是一个关键超参数。太小会导致模型欠拟合无法捕捉复杂模式太大会导致过拟合并增加计算开销。通常需要通过交叉验证在比如[50, 100, 150, 200]中寻找一个平衡点。reg_all正则化系数对于防止过拟合至关重要特别是当数据稀疏时。3.3 深度学习推荐模型构建以Embedding为核心当使用Keras构建深度学习推荐模型时其核心在于如何将离散的类别特征用户ID、物品ID转化为有意义的连续向量这就是嵌入层的工作。一个最简单的神经协同过滤模型结构可能如下输入层分别接收用户ID和物品ID的整数输入。嵌入层两个独立的嵌入层分别将用户ID和物品ID映射为固定大小的稠密向量例如64维。这个向量就是学习到的用户潜在特征和物品潜在特征。交互层将用户嵌入向量和物品嵌入向量进行交互。常见操作有点积模拟矩阵分解、拼接后接全连接层学习更复杂的交互函数。输出层通过一个全连接层可能带有Sigmoid或线性激活函数输出预测的评分或点击概率。# 概念性代码框架 from tensorflow.keras.layers import Input, Embedding, Flatten, Dot, Dense, Concatenate from tensorflow.keras.models import Model num_users 10000 num_items 5000 embedding_size 64 # 输入 user_input Input(shape(1,)) item_input Input(shape(1,)) # 嵌入层 user_embedding Embedding(num_users, embedding_size)(user_input) item_embedding Embedding(num_items, embedding_size)(item_input) user_vec Flatten()(user_embedding) item_vec Flatten()(item_embedding) # 交互方式一点积类似MF # dot_product Dot(axes1)([user_vec, item_vec]) # output Dense(1)(dot_product) # 交互方式二拼接后接深度网络神经协同过滤 concat Concatenate()([user_vec, item_vec]) fc1 Dense(128, activationrelu)(concat) fc2 Dense(64, activationrelu)(fc1) output Dense(1, activationsigmoid)(fc2) # 用于点击率预测 model Model(inputs[user_input, item_input], outputsoutput) model.compile(optimizeradam, lossbinary_crossentropy, metrics[accuracy])实操心得训练深度学习推荐模型时负采样技术至关重要。因为用户-物品交互数据中正样本点击、购买极少而负样本未交互极多。如果简单地将所有未交互物品都视为负样本会导致严重的类别不平衡和计算灾难。通常的做法是为每个正样本采样一定数量如4个的负样本随机选择用户未交互过的物品来构建一个平衡的训练批次。4. 前沿探索当推荐系统遇见大语言模型4.1 ChatGPT作为推荐引擎提示词工程的艺术项目中将ChatGPT用于推荐这展示了生成式AI的一种新颖应用。其核心不再是传统的“预测评分”而是利用LLM强大的语义理解和生成能力将推荐转化为一个条件文本生成任务。基本流程是将用户的历史行为如看过的电影、读过的书和偏好描述如“我喜欢节奏紧张的科幻片”作为提示词的一部分让ChatGPT生成推荐列表或推荐理由。例如提示词可以设计为你是一个专业的电影推荐助手。用户最近观看并喜欢以下电影《盗梦空间》、《星际穿越》、《黑客帝国》。用户表示喜欢带有哲学思考、复杂叙事结构的科幻电影。请推荐5部类似的电影并为每一部提供简短的推荐理由。这种方法的优势在于极强的自然语言交互能力用户可以自由地用语言描述需求无需拘泥于固定的标签或评分。丰富的可解释性模型可以直接生成“为什么推荐这个”的理由用户体验好。零样本/少样本学习对于新领域或冷启动物品只要能在描述中体现LLM就有可能做出合理推荐。但挑战同样明显成本与延迟API调用成本高响应速度远慢于传统模型。不可控性推荐结果可能不稳定存在“幻觉”编造不存在的电影。缺乏个性化深度难以像协同过滤那样从海量隐式反馈中挖掘深层次的、用户自己都未察觉的偏好。注意事项使用ChatGPT做推荐提示词设计是关键。需要明确角色、提供清晰上下文、指定输出格式。并且由于LLM的知识截止日期问题它可能不知道最新的物品如刚上映的电影因此更适合推荐经典或长期存在的物品。一个实用的技巧是将传统模型筛选出的候选列表比如Top-50交给LLM来排序和生成理由结合两者优势。4.2 LLM赋能可解释性推荐超越“因为你也喜欢”项目的最后一个部分“LLM based explainability recsys”指向了当前一个非常热门的方向利用LLM为传统推荐模型的结果提供自然语言解释。传统的可解释性方法如SHAP值、注意力权重给出的往往是特征重要性分数对普通用户而言并不直观。LLM的做法通常是“事后解释”。流程如下传统模型先行先用一个高性能的协同过滤或深度学习模型生成推荐结果如Top-10商品。信息收集对于每一个被推荐的物品收集相关的信息物品自身的属性标题、类别、描述、用户的历史交互物品、以及从传统模型中可能提取出的“证据”例如在矩阵分解中用户向量和物品向量最匹配的几个维度在协同过滤中哪些相似用户或物品影响了本次决策。LLM生成解释将这些结构化信息作为上下文设计提示词让LLM生成一段流畅、个性化的解释。例如提示词框架可能是任务为推荐结果生成友好、自然的解释。用户资料用户A历史购买过“便携咖啡杯”和“静音键盘”。推荐物品**降噪耳机**。相关证据来自推荐模型 - 用户A与用户B、C相似。 - 用户B和C都购买了“降噪耳机”和“静音键盘”。 - 物品“降噪耳机”和“静音键盘”在潜在空间中距离很近可能都关联“办公场景”、“提升专注力”。请生成一段给用户A的推荐解释不超过100字。LLM可能生成“我们发现您的购物偏好与一些注重办公效率和舒适度的用户很相似。您之前选择的静音键盘是为了创造安静的工作环境这款降噪耳机基于同样的理念能帮您隔绝外界干扰进一步提升专注力非常适合您的办公场景。”实操心得这种方法将模型的“理性判断”与LLM的“感性表达”相结合。关键在于如何从传统模型中提取出对LLM有用的、语义丰富的“证据”。单纯传递用户ID和物品ID的嵌入向量值对LLM没有意义。需要将这些数值信息转化为概念例如通过聚类发现用户属于“科技爱好者”群体或者通过注意力机制找到起决定作用的历史行为物品。使用LangChain这类框架可以更好地组织整个流程但提示词的质量仍然是效果的决定因素。5. 项目复现与进阶的避坑指南5.1 数据预处理中的常见陷阱推荐系统的质量八成取决于数据。在复现这类项目时数据预处理环节有几个坑需要特别注意1. 数据泄露与时间分割很多公开数据集如MovieLens包含了时间戳。在划分训练集和测试集时绝对不能随机分割。必须严格按照时间顺序划分例如用前80%时间的数据训练用后20%的数据测试。随机分割会导致模型利用“未来”的信息来预测“过去”造成评估结果虚高模型在实际线上环境中会失效。2. 稀疏性与冷启动处理用户-物品交互矩阵通常非常稀疏99%以上都是空白。直接使用这样的矩阵模型效果会很差。常见的处理方法是过滤过滤掉交互次数过少的用户如少于5次和物品如被少于5个用户交互过。这能提升矩阵密度但会损失部分数据。采样在训练时对负样本进行采样如负采样而不是使用全部未交互项。冷启动策略对于新用户可以退回到基于热门物品、基于内容或利用注册信息的推荐对于新物品则依赖内容特征进行推荐。3. 评分偏差不同用户的评分尺度不同。有的人习惯打高分有的人习惯打低分。在协同过滤中这会影响相似度计算。常见的做法是进行评分标准化例如使用用户平均分或Z-score标准化进行校正。# 示例用户评分中心化减去用户平均分 def normalize_ratings(df): user_mean df.groupby(userId)[rating].transform(mean) df[normalized_rating] df[rating] - user_mean return df5.2 模型评估不仅仅看RMSE很多初学者只关注RMSE均方根误差或准确率但这在推荐系统中是远远不够的。推荐的本质是一个排序问题我们需要关注模型能否把用户真正喜欢的物品排到前面。1. 排名评估指标PrecisionK / RecallK在Top-K推荐列表中有多少比例是用户真正喜欢的准确率以及用户喜欢的物品有多少被召回到Top-K中召回率。K通常取5 10 20。MAP (Mean Average Precision)对每个用户计算其平均精度AP再对所有用户求平均。它同时考虑了推荐列表的准确率和排序位置是更全面的指标。NDCG (Normalized Discounted Cumulative Gain)考虑相关性分数的排序指标。越相关的物品排在前面得分越高。它非常适合有分级评分如1-5星的场景。2. 离线评估的局限性离线评估基于历史数据它假设用户过去喜欢的东西未来还会喜欢。但这无法评估推荐系统的惊喜性Serendipity和多样性Diversity。一个总是推荐用户最可能点击的保守模型离线指标可能很高但用户体验会很无聊。因此在可能的情况下一定要结合A/B测试等在线评估方法。5.3 从Demo到生产工程化考量用Jupyter Notebook跑通一个算法只是第一步。要让推荐系统真正可用还需要考虑很多工程问题1. 实时性与效率线上推荐请求通常是毫秒级响应的。协同过滤中计算用户/物品的最近邻、矩阵分解中计算用户向量与所有物品向量的内积如果在线计算开销巨大。通用的做法是离线计算在线服务离线层以天/小时为单位用全量数据训练模型为每个用户预计算好Top-N的推荐结果存入Redis等高速缓存。近线层处理用户最近几分钟的行为快速更新用户兴趣向量对离线推荐列表进行微调或重排。在线层直接读取缓存中的推荐列表结合用户实时上下文如当前地理位置、时间进行简单的规则过滤或融合然后返回。2. 特征存储与实时更新对于深度学习模型需要快速获取用户和物品的实时特征如用户最近点击的品类、物品的实时热度。这需要一个高性能的特征存储系统如Redis, Cassandra或专门的Feast等特征平台。3. 多路召回与排序融合工业级推荐系统很少只用单一模型。通常采用“多路召回精排”的架构。召回同时运行多个召回策略如热门召回、协同过滤召回、内容召回、深度学习向量召回从百万级物品池中快速筛选出几百到几千的候选集。排序用一个更复杂、更精细的模型通常是深度学习模型如DeepFM, DIN对候选集进行打分和排序。项目中实现的Wide Deep模型就是一个典型的排序模型。复现这个项目可以把它当作一个完整的“算法实验室”。从最基础的内容过滤开始理解其原理和局限再到协同过滤和矩阵分解感受如何利用群体智慧接着用深度学习模型探索非线性关系的魅力最后用LLM相关项目打开思路看看前沿是如何思考的。每一步的代码都跑一遍尝试调整参数、更换数据集、修改评估指标你收获的将远不止几段代码而是一套解决信息匹配问题的系统性思维。

Python推荐系统实战：从协同过滤到LLM可解释性推荐

相关文章：

Python推荐系统实战：从协同过滤到LLM可解释性推荐

ESP8266不只是联网模块：巧用AT指令打造低成本WiFi中继/信号放大器

FDA 2026倒计时18个月！医疗设备厂商紧急启动的C代码合规审计清单（含自动化脚本+Traceability Matrix生成器）

数据中心网络不丢包的秘密：手把手配置华为/新华三交换机的PFC与ECN

LinkSwift：告别网盘下载烦恼，八大平台一键获取真实链接

从个人知识库到自动化工作流：基于GitHub Actions的Monorepo实践

别再问为什么是50Ω了！从二战美军标准到你的PCB板，聊聊这个‘黄金阻抗’的来龙去脉

飞书文档搬家记：手把手教你用‘协作者+副本’功能，把个人资料从旧号搬到新号

告别Hello World！用RTI Connext DDS 7.2.0手把手搭建你的第一个实时数据发布/订阅应用

OnionClaw：AI智能体自动化暗网情报收集工具箱实战指南

PDA5927光电管特性实测：为什么测光强要用短路电流而不是端电压？

别再用HBM模型糊弄了！聊聊IEC 61000-4-2标准下ESD测试的那些坑（附NSG437静电枪实操）

XHS-Downloader：基于Python的小红书内容采集与自动化下载解决方案

构建虚拟输入层：vJoy内核驱动技术深度解析

3分钟实现Jable视频高效下载：Chrome插件与本地协议的无缝集成方案

GNU Radio信号处理实战：从“Hello World”拨号音到自定义AM调制模块（避坑指南）

大麦网自动抢票脚本：从手速竞赛到技术降维打击的终极指南

Jina Reader：为LLM与RAG系统打造的高效网页内容提取与搜索API

Java脚手架项目Joanium：企业级开发效率提升实战解析

RV1126移植LVGL实战：从驱动配置到界面优化，一次讲清性能调优那些事

BrowserOS：本地优先的AI浏览器，用自然语言实现网页自动化

告别Keil？STM32CubeIDE+STM32CubeMX一体化开发环境搭建全流程（Win10实测）

零成本部署AI助手：基于Hugging Face Spaces与OpenClaw的完整实践

ARM架构PC平台Linux支持现状与开发指南

LRCGET：批量下载同步歌词的高效解决方案

对比直接使用原厂 API 体验 Taotoken 在计费透明性上的差异

Android端YOLOv8人像分割性能调优实战：从模型选型（n/s/m/l/x）到GPU推理的完整避坑指南

AI专著生成神器大揭秘！一键产出20万字专著，配套框架+低查重率搞定

VS2015+QT5.12.10环境搭建保姆级避坑指南（解决头文件、NMAKE、PDB报错）

PowerBI动态日期筛选：别再手动切片了，用DAX公式实现智能滚动分析（附3个实战案例）