当前位置: 首页 > article >正文

Python实战:基于余弦相似度的中文短文本相似性计算

1. 为什么需要中文短文本相似性计算在日常工作和生活中我们经常会遇到需要比较两段中文文本相似度的场景。比如在客服系统中自动匹配相似问题在内容平台上检测重复文章或者在搜索引擎中推荐相关文档。这些场景都离不开文本相似性计算。中文文本相似性计算与英文最大的不同在于分词处理。英文天然以空格分隔单词而中文需要专门的分词技术。我曾经在一个电商评论分析项目中就因为最初没有处理好分词导致手机很好用和手机壳很好用被判断为高度相似闹出了笑话。余弦相似度特别适合处理这类问题因为它只考虑向量的夹角而非绝对距离。这意味着即使两段文本长度差异很大比如一条评论是好用另一条是这款手机确实非常好用性能强劲只要它们谈论的是相同主题就能获得较高的相似度评分。2. 完整实现流程详解2.1 文本预处理实战技巧中文文本预处理有这几个关键步骤特殊字符处理需要过滤掉标点符号、特殊符号等噪声。但要注意保留有意义的数字比如12℃中的12。中文分词这是最关键的环节。我推荐使用jieba分词库它不仅准确率高还能识别新词import jieba text 今天温度是12摄氏度 seg_list jieba.lcut(text) print(seg_list) # [今天, 温度, 是, 12, 摄氏度]停用词过滤可以使用哈工大停用词表去除的、了等无实际意义的词。统一字符格式将所有字符转为小写全角转半角等。2.2 向量化处理的优化方案原始文章使用的是简单的词频向量化但在实际项目中我们可以做得更好TF-IDF加权考虑词语在整个语料库中的重要性词向量平均使用预训练的中文词向量如腾讯词向量加入N-gram特征捕捉词语组合信息这里给出一个改进版的向量化函数from sklearn.feature_extraction.text import TfidfVectorizer import jieba def chinese_tokenizer(text): return jieba.lcut(text) tfidf TfidfVectorizer(tokenizerchinese_tokenizer) corpus [ hi今天温度是12摄氏度。, hello今天温度很高。 ] vectors tfidf.fit_transform(corpus) print(vectors.toarray())2.3 余弦相似度计算原理余弦相似度衡量的是两个向量在空间中的夹角余弦值计算公式为similarity (A·B) / (||A|| * ||B||)在Python中我们可以用NumPy高效实现import numpy as np def cosine_similarity(vec1, vec2): dot_product np.dot(vec1, vec2) norm1 np.linalg.norm(vec1) norm2 np.linalg.norm(vec2) return dot_product / (norm1 * norm2)这个公式的美妙之处在于它对文本长度不敏感更关注内容主题的一致性。我在一个新闻去重项目中测试过即使两篇文章长度相差3倍只要主题相同相似度仍然能达到0.8以上。3. 性能优化与生产环境实践3.1 大规模文本处理技巧当需要处理海量文本时原始方法会遇到性能瓶颈。以下是几个优化方案稀疏矩阵优化使用scipy.sparse矩阵存储向量并行计算利用多核CPU加速近似最近邻搜索使用Facebook的Faiss库这里给出一个支持批量计算的改进版本from sklearn.metrics.pairwise import cosine_similarity import numpy as np # 假设有1000个文本向量 vectors np.random.rand(1000, 300) # 计算所有文本两两之间的相似度 sim_matrix cosine_similarity(vectors) # 查找与第0个文本最相似的5个文本 most_similar np.argsort(-sim_matrix[0])[1:6]3.2 实际项目中的调参经验经过多个项目的实践我总结了这些调参技巧分词粒度选择细粒度分词适合短文本粗粒度适合长文本停用词处理领域相关停用词往往比通用停用词更重要相似度阈值设定需要根据具体场景通过实验确定在电商评论分析中我们发现0.7的阈值能较好区分相似评论而在法律文书比对中可能需要提高到0.85才能避免误判。4. 常见问题与解决方案4.1 中文特有的挑战中文文本处理有几个特殊问题未登录词问题新词、网络用语不断出现一词多义苹果可能指水果也可能指手机品牌同义词问题计算机和电脑表达相同意思解决方案包括定期更新分词词典使用词向量捕捉语义信息构建领域同义词库4.2 调试技巧与工具当相似度计算结果不符合预期时可以这样排查先检查分词结果是否正确打印向量化后的特征词表可视化向量分布使用PCA降维这里有个实用的调试函数def debug_similarity(text1, text2, vectorizer): print(分词结果:) print(vectorizer.build_tokenizer()(text1)) print(vectorizer.build_tokenizer()(text2)) vec1 vectorizer.transform([text1]) vec2 vectorizer.transform([text2]) print(\n特征词表:) print(vectorizer.get_feature_names_out()) print(\n向量值:) print(vec1.toarray()) print(vec2.toarray()) sim cosine_similarity(vec1, vec2)[0][0] print(f\n相似度: {sim:.4f}) return sim在实际项目中这套文本相似度计算方法已经帮助我完成了多个重要功能从用户评论聚类到智能客服问答匹配。最开始实现时确实遇到了不少坑比如忽略了停用词的影响或者没有处理好数字和特殊符号。经过多次迭代优化现在的版本已经能够稳定处理各种中文文本场景。

相关文章:

Python实战:基于余弦相似度的中文短文本相似性计算

1. 为什么需要中文短文本相似性计算? 在日常工作和生活中,我们经常会遇到需要比较两段中文文本相似度的场景。比如在客服系统中自动匹配相似问题,在内容平台上检测重复文章,或者在搜索引擎中推荐相关文档。这些场景都离不开文本相…...

DreamZero技术解析:当视频扩散模型成为机器人“物理大脑“

原文摘要翻译最先进的视觉-语言-动作(VLA)模型在语义泛化方面表现出色,但在新环境中难以泛化到未见过的物理动作。我们提出了 DreamZero,一种基于预训练视频扩散主干网络构建的世界动作模型(WAM)。与 VLA 不…...

Android ImageButton进阶实战:从基础到自定义状态与交互优化

1. ImageButton基础与核心属性解析 第一次接触ImageButton时,很多人会疑惑它和普通Button有什么区别。简单来说,Button是文字按钮,而ImageButton是用图片作为视觉元素的交互控件。在实际项目中,我发现90%的图标点击场景都应该使用…...

炉石传说脚本终极指南:3小时变8分钟的智能游戏体验

炉石传说脚本终极指南:3小时变8分钟的智能游戏体验 【免费下载链接】Hearthstone-Script Hearthstone script(炉石传说脚本) 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Script 还在为炉石传说每日任务耗费大量时间而烦…...

用Python+NumPy手把手实现四足机器人腿部三维运动学(附完整代码与避坑点)

用PythonNumPy手把手实现四足机器人腿部三维运动学(附完整代码与避坑点) 四足机器人的运动控制一直是机器人学中最具挑战性的领域之一。想象一下,当你看到一只机械狗灵活地穿越复杂地形时,背后其实是数百行精密的运动学代码在实时…...

阿里通义Z-Image-GGUF功能体验:中英文提示词支持实测

阿里通义Z-Image-GGUF功能体验&#xff1a;中英文提示词支持实测 1. 快速开始 1.1 30秒快速上手 如果你已经迫不及待想体验这个强大的文生图模型&#xff0c;跟着这几步操作&#xff1a; # 1. 访问WebUI界面 浏览器打开: http://<服务器IP>:7860# 2. 加载Z-Image工作…...

intv_ai_mk11效果惊艳:技术概念解释附带类比(如‘注意力机制像老师点名’)提升理解

intv_ai_mk11效果惊艳&#xff1a;技术概念解释附带类比提升理解 1. 什么是intv_ai_mk11 intv_ai_mk11是一款基于Llama架构的AI对话助手&#xff0c;拥有7B参数规模&#xff0c;运行在GPU服务器上。它就像一位24小时在线的智能助手&#xff0c;能够理解并回答各种问题&#x…...

C语言联合体(共用体)的妙用:从判断大小端到节省内存的嵌入式开发技巧

C语言联合体的高阶应用&#xff1a;嵌入式开发中的内存优化与安全实践 在资源受限的嵌入式系统中&#xff0c;每一字节的内存都弥足珍贵。联合体&#xff08;Union&#xff09;作为C语言中一种独特的数据结构&#xff0c;通过共享内存空间的特性&#xff0c;为开发者提供了灵活…...

RLC串联谐振电路实验:从理论到实践的深度解析

1. RLC串联谐振电路的核心概念 第一次接触RLC串联谐振电路时&#xff0c;我被那些专业术语搞得晕头转向。后来在实际调试收音机电路时才发现&#xff0c;原来谐振现象就在我们身边。简单来说&#xff0c;RLC电路就是由电阻&#xff08;R&#xff09;、电感&#xff08;L&#x…...

谷歌Gemini API新层级:机遇与挑战并存

谷歌为Gemini API添加Flex和Priority层级&#xff0c;可根据工作负载分配任务。同时发布Gemma 4。新层级虽简化开发工作&#xff0c;但也引发受监管行业担忧&#xff0c;对企业AI战略有重要意义。新层级助力开发者谷歌为Gemini API新增Flex Inference和Priority Inference层级&…...

DolphinScheduler任务状态异常排查:从僵尸任务到数据库修复全流程

DolphinScheduler任务状态异常排查&#xff1a;从僵尸任务到数据库修复全流程 引言 在分布式任务调度系统中&#xff0c;任务状态异常是运维人员经常遇到的棘手问题。DolphinScheduler作为一款开源的分布式可视化工作流任务调度系统&#xff0c;其强大的功能背后也隐藏着一些状…...

终极指南:3分钟掌握Silk v3音频转换,彻底解决微信QQ语音播放难题

终极指南&#xff1a;3分钟掌握Silk v3音频转换&#xff0c;彻底解决微信QQ语音播放难题 【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch con…...

多用途气动机器人结构设计(论文+DWG图纸+任务书+翻译+调研报告+实践小结)

多用途气动机器人结构设计聚焦于通过气动驱动系统实现机械结构的灵活操作&#xff0c;其核心作用在于整合气动元件与机械模块&#xff0c;构建具备多场景适应能力的执行平台。该设计以压缩空气为动力源&#xff0c;通过气缸、电磁阀及管路系统的协同控制&#xff0c;驱动末端执…...

LangChain4j实战避坑:用OpenAI EmbeddingModel做智能字段映射,我踩过的三个坑和解决方案

LangChain4j实战避坑指南&#xff1a;OpenAI EmbeddingModel在智能字段映射中的三大陷阱与突围策略 金融科技领域的数据接口对接&#xff0c;往往伴随着海量字段映射的繁琐配置。当合作方使用"证件号码"、"身份证号"、"ID Card"等不同表述指向同…...

PptxGenJS:重新定义JavaScript驱动的演示文稿自动化

PptxGenJS&#xff1a;重新定义JavaScript驱动的演示文稿自动化 【免费下载链接】PptxGenJS Build PowerPoint presentations with JavaScript. Works with Node, React, web browsers, and more. 项目地址: https://gitcode.com/gh_mirrors/pp/PptxGenJS 在当今数据驱动…...

10分钟打造你的专属BongoCat:跨平台桌面互动猫咪终极指南

10分钟打造你的专属BongoCat&#xff1a;跨平台桌面互动猫咪终极指南 【免费下载链接】BongoCat &#x1f431; 跨平台互动桌宠 BongoCat&#xff0c;为桌面增添乐趣&#xff01; 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 你是否厌倦了冰冷的电脑界面&a…...

告别“玩具AI”:联楷国际以商业大模型重塑本地生活,开启一人AI公司时代

在AI浪潮席卷全球的今天&#xff0c;一个尖锐的问题摆在无数中小企业主面前&#xff1a;当ChatGPT们成为茶余饭后的谈资&#xff0c;当各种AI绘画、AI聊天工具令人眼花缭乱时&#xff0c;真正能为我降本增效、解决实际经营痛点的AI在哪里&#xff1f; 喧嚣的“娱乐化AI”噱头之…...

计算机三级嵌入式30天高效备考攻略——从零基础到通关秘籍

1. 零基础如何30天攻克计算机三级嵌入式&#xff1f; 第一次接触计算机三级嵌入式考试的同学&#xff0c;往往会被"嵌入式"三个字吓到。其实这个考试更像是"嵌入式系统知识入门认证"&#xff0c;完全不需要硬件开发经验。我当年也是零基础备考&#xff0c;…...

NeuroKit2:神经生理信号处理的全流程解决方案

NeuroKit2&#xff1a;神经生理信号处理的全流程解决方案 【免费下载链接】NeuroKit NeuroKit2: The Python Toolbox for Neurophysiological Signal Processing 项目地址: https://gitcode.com/gh_mirrors/ne/NeuroKit 在神经科学与生理信号研究领域&#xff0c;高效处…...

5分钟零门槛搭建全功能免费AI接口:本地部署与场景化应用指南

5分钟零门槛搭建全功能免费AI接口&#xff1a;本地部署与场景化应用指南 【免费下载链接】kimi-free-api &#x1f680; KIMI AI 长文本大模型逆向API【特长&#xff1a;长文本解读整理】&#xff0c;支持高速流式输出、智能体对话、联网搜索、探索版、K1思考模型、长文档解读、…...

Wand-Enhancer深度解析:解锁WeMod高级功能的双轨解决方案

Wand-Enhancer深度解析&#xff1a;解锁WeMod高级功能的双轨解决方案 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 你是否厌倦了WeMod的高级功能限制&…...

保姆级教程:用C++动态规划搞定字符串扩展距离问题(附完整代码和测试数据生成)

从零掌握字符串扩展距离&#xff1a;动态规划实战指南 字符串扩展距离问题在文本相似度计算、生物信息学中的DNA序列比对等领域有着广泛应用。这个看似简单的问题背后隐藏着动态规划思想的精妙运用。本文将带你从问题定义开始&#xff0c;逐步推导状态转移方程&#xff0c;最终…...

告别‘看图说话’:实战中雷达脉内调制信号的自动化特征提取与识别思路

雷达脉内调制信号自动化特征提取实战指南 在电子侦察和频谱监测领域&#xff0c;人工判读雷达信号的时频图正逐渐成为效率瓶颈。当面对海量采集数据时&#xff0c;如何从STFT生成的时频矩阵中自动提取具有判别力的特征&#xff0c;成为提升分析效率的关键突破点。本文将分享一套…...

PlantUML在线编辑器进阶实战:高效绘制技术文档的终极解决方案

PlantUML在线编辑器进阶实战&#xff1a;高效绘制技术文档的终极解决方案 【免费下载链接】plantuml-editor PlantUML online demo client 项目地址: https://gitcode.com/gh_mirrors/pl/plantuml-editor 在软件开发和系统设计领域&#xff0c;UML&#xff08;统一建模语…...

课堂录音转文字app口碑推荐 | 实测筛选的实用工具清单

2026年我们前后测了12款市面上主流的录音转文字app&#xff0c;最终筛出4款真正适配课堂场景的实用工具&#xff0c;专门针对有课程录音转写需求的学生、考公考证党&#xff0c;不用再挨个下载试错浪费时间。大家找课堂录音转文字工具的核心需求其实都差不多&#xff1a;要么是…...

多平台直链获取:突破网盘下载限制的开源解决方案

多平台直链获取&#xff1a;突破网盘下载限制的开源解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 …...

从 CLI 调用到 SDK 集成:GitHub Copilot 在 .NET 项目中的最佳实践

从 CLI 调用到 SDK 集成&#xff1a;GitHub Copilot 在 .NET 项目中的最佳实践 从命令行调用到官方 SDK 集成的升级之路&#xff0c;说起来也算是一段经历&#xff0c;今天就分享我们在 HagiCode 项目中踩过的坑和学到的东西。 背景 GitHub Copilot SDK 在 2025 年正式发布后&…...

PINN在流体力学中的应用:Burger方程参数反演全流程解析

PINN在流体力学中的革命性实践&#xff1a;Burger方程参数反演深度指南 当计算流体力学遇上深度学习&#xff0c;一场静悄悄的革命正在发生。传统数值方法在求解复杂流体问题时往往面临计算成本高、适应性差的瓶颈&#xff0c;而物理信息神经网络&#xff08;PINN&#xff09;的…...

把YOLOv8模型部署到边缘:在Jetson Orin Nano上导出ONNX并集成到C++项目的保姆级教程

在Jetson Orin Nano上实现YOLOv8模型的高效C部署实战 边缘计算设备上的AI模型部署一直是工业界关注的焦点。NVIDIA Jetson Orin Nano凭借其强大的AI算力和能效比&#xff0c;成为边缘端部署YOLOv8等目标检测模型的理想平台。本文将深入探讨如何将训练好的YOLOv8模型转换为ONNX格…...

MAVROS无人机Offboard模式实战:从代码解析到自主飞行

1. 从零理解MAVROS与Offboard模式 第一次接触无人机编程时&#xff0c;我被各种专业术语搞得晕头转向。直到亲手用MAVROS控制无人机完成第一个Offboard飞行&#xff0c;才真正理解这套系统的精妙之处。简单来说&#xff0c;MAVROS就像无人机世界的"翻译官"——它把RO…...