当前位置: 首页 > article >正文

nlp_structbert_sentence-similarity_chinese-large代码实例:扩展支持CSV批量句子对相似度计算

nlp_structbert_sentence-similarity_chinese-large代码实例扩展支持CSV批量句子对相似度计算你是不是也遇到过这样的问题手里有一大堆句子对需要批量计算它们的相似度但一个个手动输入太麻烦用脚本处理又得写一堆代码。今天我就来分享一个实用的解决方案——基于阿里达摩院StructBERT模型扩展出一个能直接处理CSV文件的批量句子相似度计算工具。这个工具的核心是StructBERT模型它在理解中文句子结构方面特别厉害。简单来说它能“读懂”句子的真正意思而不是只看表面的词语。比如“电池耐用”和“续航能力强”这两个句子虽然用词完全不同但表达的是同一个意思模型就能识别出来。接下来我会带你一步步了解这个工具并教你如何扩展它让它能直接读取CSV文件批量计算成百上千个句子对的相似度大大提升你的工作效率。1. 工具核心StructBERT模型与相似度计算原理在开始动手扩展功能之前我们先花点时间了解一下这个工具的“大脑”是怎么工作的。明白了原理后面的操作就会更加得心应手。1.1 为什么选择StructBERT你可能听说过BERT它是自然语言处理领域的一个里程碑。而StructBERT可以看作是BERT的“升级版”由阿里达摩院开发。它的特别之处在于在训练时不仅学习词语的意思还专门学习了词语之间的顺序关系和句子之间的结构关系。这有什么好处呢中文里语序特别重要。“猫追老鼠”和“老鼠追猫”完全是两回事。StructBERT通过强化对结构的理解能更好地把握这种细微差别从而在判断句子相似度时更准确。1.2 从句子到数字Embedding的生成过程模型判断句子相似度并不是直接去“理解”句子而是先把句子转换成计算机能处理的格式——一组数字也就是我们常说的“向量”或“Embedding”。这个过程分为三步分词与编码首先模型会把一个句子比如“今天的天气真好”切分成一个个小单元Token并转换成对应的数字ID。特征提取这些数字ID经过StructBERT模型内部复杂的多层计算每一层都会提炼出更抽象的语义特征。最终我们得到句子中每个词语对应的特征向量。汇聚成句向量一个句子有很多词语我们怎么用一个向量来代表整个句子呢这里用到了“均值池化”Mean Pooling技术。通俗地讲就是把句子中所有有效词语的特征向量加起来然后求个平均值。这个平均值向量就承载了整个句子的核心语义信息。1.3 计算相似度余弦相似度现在两个句子都被转换成了两个向量假设叫向量A和向量B。如何衡量它们的相似度呢我们使用“余弦相似度”。你可以把它想象成比较两个箭头的方向。在数学空间里每个向量就是一个箭头。余弦相似度计算的是这两个箭头之间夹角的余弦值。夹角为0度方向完全一致余弦值1表示两个句子语义完全相同。夹角为90度方向垂直余弦值0表示两个句子语义无关。夹角为180度方向完全相反余弦值-1表示两个句子语义完全相反。在实际的文本相似度计算中我们得到的值通常在0到1之间越接近1越相似。工具里设定了几个直观的阈值 0.85语义非常相似绿色提示0.5 - 0.85语义相关橙色提示 0.5语义不相关红色提示2. 基础工具快速上手与解析在扩展批量功能前我们先确保原始的单句对工具能正常运行。这就像学开车得先知道怎么启动和基本操作。2.1 环境搭建与工具启动首先你需要准备好运行环境。确保你的电脑已经安装了Python然后通过pip安装必要的库pip install torch transformers streamlit pandas接下来你需要准备模型文件。StructBERT模型比较大你需要从阿里达摩院的相关项目页面下载nlp_structbert_sentence-similarity_chinese-large模型权重并放置到工具指定的目录下比如/root/ai-models/iic/这个路径你可以根据自己情况修改。工具的核心是一个叫app.py的Python脚本。使用Streamlit运行它就能打开一个网页应用streamlit run app.py第一次运行时会加载模型可能需要一两分钟请耐心等待。加载成功后模型会常驻在内存尤其是GPU显存中之后每次计算就非常快了。2.2 界面功能与单次计算演示打开浏览器你会看到一个简洁的界面主要分为三个区域输入区并排的两个文本框分别输入句子A和句子B。操作区一个蓝色的“计算相似度”按钮。结果区点击按钮后这里会显示相似度分数、一个彩色的进度条和文字结论。我们来试一下在“句子A”里输入这个手机的电池续航时间很长在“句子B”里输入这款手机电量很耐用点击“计算相似度”。你会看到结果区显示一个较高的分数很可能超过0.9进度条是绿色的并提示“语义非常相似”。这说明模型成功识别了这两个不同说法的同一含义。3. 功能扩展实现CSV批量处理现在进入正题。原来的工具一次只能算一对句子效率太低。我们的目标是改造它让它能读取一个CSV文件。假设CSV文件有两列一列是“句子1”一列是“句子2”我们要批量计算每一行的相似度并把结果保存到新文件。3.1 修改代码增加批量处理模块我们不需要重写整个app.py而是在里面增加一个新的功能页面Streamlit的st.page概念或者一个侧边栏选项。这里我们在侧边栏增加一个文件上传和批量处理区域。以下是核心的代码修改思路和片段import streamlit as st import pandas as pd from transformers import AutoTokenizer, AutoModel import torch import torch.nn.functional as F from tqdm import tqdm import time # --- 原有的模型加载函数通常用st.cache_resource装饰--- st.cache_resource def load_model(): model_path /root/ai-models/iic/nlp_structbert_sentence-similarity_chinese-large tokenizer AutoTokenizer.from_pretrained(model_path) model AutoModel.from_pretrained(model_path).cuda() # 假设使用GPU model.eval() return tokenizer, model tokenizer, model load_model() # --- 原有的单个句子对计算函数 --- def calculate_similarity(sent1, sent2): inputs tokenizer([sent1, sent2], return_tensorspt, paddingTrue, truncationTrue, max_length512) inputs {k: v.cuda() for k, v in inputs.items()} with torch.no_grad(): outputs model(**inputs) embeddings outputs.last_hidden_state attention_mask inputs[attention_mask] mask_expanded attention_mask.unsqueeze(-1).expand(embeddings.size()).float() sum_embeddings torch.sum(embeddings * mask_expanded, 1) sum_mask torch.clamp(mask_expanded.sum(1), min1e-9) mean_embeddings sum_embeddings / sum_mask sim F.cosine_similarity(mean_embeddings[0].unsqueeze(0), mean_embeddings[1].unsqueeze(0)) return sim.item() # --- 新增的批量处理函数 --- def process_batch_csv(df, col1句子1, col2句子2): 批量处理DataFrame中的句子对 similarities [] for idx, row in tqdm(df.iterrows(), totallen(df), desc计算相似度): sent1 str(row[col1]) sent2 str(row[col2]) try: sim_score calculate_similarity(sent1, sent2) similarities.append(sim_score) except Exception as e: st.warning(f处理第{idx1}行时出错: {e}) similarities.append(None) time.sleep(0.01) # 小幅延迟避免UI卡顿 df[相似度] similarities return df # --- Streamlit 应用界面 --- st.title(StructBERT 中文句子相似度分析工具) # 侧边栏选择模式 with st.sidebar: st.header(工作模式) mode st.radio(请选择, (单句对计算, CSV批量计算)) if mode 单句对计算: # ... 原有的单句对交互界面代码 ... col1, col2 st.columns(2) with col1: sent_a st.text_area(句子 A, value, height150) with col2: sent_b st.text_area(句子 B, value, height150) if st.button( 计算相似度, typeprimary): if sent_a and sent_b: score calculate_similarity(sent_a, sent_b) # ... 显示结果的代码 ... else: st.warning(请输入两个句子。) else: # --- 新增的批量处理界面 --- st.header( CSV批量句子相似度计算) st.markdown(上传一个包含两列句子的CSV文件工具将自动计算每一行的相似度。) uploaded_file st.file_uploader(选择CSV文件, type[csv]) if uploaded_file is not None: try: df pd.read_csv(uploaded_file) st.success(f成功读取文件共 {len(df)} 行数据。) st.dataframe(df.head()) # 让用户指定列名 cols df.columns.tolist() col1_name st.selectbox(选择第一句所在的列, cols, index0 if cols else 0) col2_name st.selectbox(选择第二句所在的列, cols, index1 if len(cols)1 else 0) if st.button( 开始批量计算, typeprimary): with st.spinner(正在批量计算相似度请稍候...): result_df process_batch_csv(df.copy(), col1_name, col2_name) st.success(计算完成) st.dataframe(result_df) # 提供结果下载 csv_result result_df.to_csv(indexFalse).encode(utf-8-sig) st.download_button( label 下载结果CSV, datacsv_result, file_name句子相似度计算结果.csv, mimetext/csv ) # 简单统计 st.subheader( 批量结果统计) if result_df[相似度].notna().any(): avg_sim result_df[相似度].mean() st.metric(平均相似度, f{avg_sim:.4f}) except Exception as e: st.error(f处理文件时出错: {e})3.2 如何使用批量功能按照上面的代码修改并运行工具后使用批量功能就非常简单了在左侧边栏将工作模式从“单句对计算”切换到“CSV批量计算”。点击“选择CSV文件”按钮上传你的数据文件。文件需要是标准的CSV格式并且至少包含两列文本数据。工具会自动预览文件前几行。你需要在下拉菜单中分别指定哪一列是“第一句”哪一列是“第二句”。点击“开始批量计算”按钮。你会看到一个进度提示计算完成后页面会直接显示带有“相似度”新列的结果表格。最后点击“下载结果CSV”按钮就能把包含所有相似度结果的新文件保存到本地。3.3 处理中的注意事项与技巧列名匹配你的CSV列名不一定要叫“句子1”和“句子2”在上传后手动选择正确的列即可。处理进度代码中使用了tqdm和st.spinner来显示进度对于几百上千行的文件你能看到计算过程避免误以为卡死。错误处理代码包含了基本的异常捕获。如果某一行数据格式有问题导致计算失败该行的相似度会记为None而不会导致整个程序崩溃。性能考虑批量计算时模型是一次处理一个句子对。虽然比手动快无数倍但对于超大规模数据例如数十万行可能需要考虑更高效的批处理batch方式或异步处理这可以作为下一步的优化方向。4. 总结从单点到批量的效率飞跃通过这次简单的代码扩展我们成功地将一个优秀的单句相似度工具升级为了一个支持批量处理的实用利器。回顾一下我们做的事情理解核心掌握了StructBERT模型通过生成句向量并计算余弦相似度来判断语义的原理。巩固基础熟悉了原始工具的环境配置和单次计算流程。实现扩展通过增加文件上传、数据读取Pandas、循环调用计算函数以及结果导出功能实现了CSV文件的批量处理。这个升级后的工具可以轻松应对许多实际场景数据清洗快速找出语料库中语义重复的句子进行去重。问答对匹配检验自动生成的问答对是否语义一致。竞品分析批量对比自家产品描述与竞品描述的相似度。调研文本分析处理大量的用户访谈文本寻找观点相似的表述。希望这个实例不仅能帮你解决批量计算句子相似度的燃眉之急更能给你一个启发很多优秀的AI工具都可以通过类似的方式用不多的代码将它们与你的具体工作流比如处理表格数据结合起来从而发挥出更大的威力。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

nlp_structbert_sentence-similarity_chinese-large代码实例:扩展支持CSV批量句子对相似度计算

nlp_structbert_sentence-similarity_chinese-large代码实例:扩展支持CSV批量句子对相似度计算 你是不是也遇到过这样的问题?手里有一大堆句子对,需要批量计算它们的相似度,但一个个手动输入太麻烦,用脚本处理又得写一…...

CogVideoX-2b性能瓶颈分析:IO等待、显存交换、Decoder耗时定位方法

CogVideoX-2b性能瓶颈分析:IO等待、显存交换、Decoder耗时定位方法 1. 引言:当你的“AI导演”卡壳了 想象一下,你正兴奋地输入一段文字,期待服务器这位“AI导演”为你生成一段精彩的短视频。界面简洁,操作简单&#…...

chandra灰度发布流程:新版本逐步上线的风险控制

chandra灰度发布流程:新版本逐步上线的风险控制 1. 引言:为什么新版本上线需要“灰度”? 想象一下,你开发了一个功能强大的OCR工具,经过无数个日夜的测试,终于准备发布一个重大更新。这个新版本承诺识别准…...

SmolVLA实战案例:结合RealSense D435i深度相机的3D动作增强方案

SmolVLA实战案例:结合RealSense D435i深度相机的3D动作增强方案 1. 项目背景与核心价值 想象一下,你有一个机器人手臂,你想让它“拿起那个红色的方块,放进蓝色的盒子里”。传统方法可能需要你写一堆复杂的代码,告诉它…...

Z-Image-GGUF入门必看:从零搭建阿里通义AI绘图环境,支持中英文提示词

Z-Image-GGUF入门必看:从零搭建阿里通义AI绘图环境,支持中英文提示词 1. 项目简介:你的第一台AI画师 想象一下,你只需要用文字描述,就能让电脑为你画出一幅精美的画作。无论是“樱花盛开的富士山”,还是“…...

DeepSeek-OCR-2部署教程:HTTPS反向代理+Basic Auth保障WebUI生产安全

DeepSeek-OCR-2部署教程:HTTPS反向代理Basic Auth保障WebUI生产安全 1. 为什么需要安全部署DeepSeek-OCR-2? 如果你正在考虑将DeepSeek-OCR-2投入实际生产环境,那么安全部署就是你必须面对的第一个问题。想象一下这个场景:你的O…...

Mask R-CNN高级应用:多类别实例分割与视频处理实战

Mask R-CNN高级应用:多类别实例分割与视频处理实战 【免费下载链接】Mask_RCNN Mask R-CNN for object detection and instance segmentation on Keras and TensorFlow 项目地址: https://gitcode.com/gh_mirrors/ma/Mask_RCNN Mask R-CNN是一款基于Keras和T…...

SAM 2架构解析:Transformer与流式内存如何实现实时视频处理

SAM 2架构解析:Transformer与流式内存如何实现实时视频处理 【免费下载链接】sam2 The repository provides code for running inference with the Meta Segment Anything Model 2 (SAM 2), links for downloading the trained model checkpoints, and example note…...

pydata-book第六章数据加载:CSV、Excel、JSON等多种格式处理技巧

pydata-book第六章数据加载:CSV、Excel、JSON等多种格式处理技巧 【免费下载链接】pydata-book wesm/pydata-book: 这是Wes McKinney编写的《Python for Data Analysis》一书的源代码仓库,书中涵盖了使用pandas、NumPy和其他相关库进行数据处理和分析的实…...

Botpress集成指南:连接Slack、Notion等30+平台的实用技巧

Botpress集成指南:连接Slack、Notion等30平台的实用技巧 【免费下载链接】botpress The open-source hub to build & deploy GPT/LLM Agents ⚡️ 项目地址: https://gitcode.com/gh_mirrors/bo/botpress Botpress是一个开源的GPT/LLM Agents构建与部署中…...

stable-diffusion-webui-colab模型大全:200+精选模型推荐与使用方法

stable-diffusion-webui-colab模型大全:200精选模型推荐与使用方法 【免费下载链接】stable-diffusion-webui-colab stable diffusion webui colab 项目地址: https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-colab stable-diffusion-webui-colab…...

gh_mirrors/car/carbon的模块化设计:代码组织的最佳实践

gh_mirrors/car/carbon的模块化设计:代码组织的最佳实践 【免费下载链接】carbon 项目地址: https://gitcode.com/gh_mirrors/car/carbon 在现代前端开发中,模块化设计是提升代码可维护性和扩展性的关键。gh_mirrors/car/carbon项目通过精心的代…...

Agentic平台核心:模块化架构的设计哲学

Agentic平台核心:模块化架构的设计哲学 【免费下载链接】chatgpt-api Node.js client for the official ChatGPT API. 🔥 项目地址: https://gitcode.com/gh_mirrors/ch/chatgpt-api Agentic平台作为现代AI应用开发的强力引擎,其模块化…...

Solarized Vim插件开发:ToggleBG背景切换功能实现

Solarized Vim插件开发:ToggleBG背景切换功能实现 【免费下载链接】solarized precision color scheme for multiple applications (terminal, vim, etc.) with both dark/light modes 项目地址: https://gitcode.com/gh_mirrors/so/solarized Solarized是一…...

计算机毕业设计springboot基于云服务的在线教育平台 基于SpringBoot的云端智慧教学服务平台设计与实现 基于云计算技术的在线学习资源管理系统开发

计算机毕业设计springboot基于云服务的在线教育平台w5hvo444 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着互联网技术的飞速发展和全球教育需求的不断增长,传统…...

pydata-book正则表达式应用:文本数据清洗与模式匹配技巧

pydata-book正则表达式应用:文本数据清洗与模式匹配技巧 【免费下载链接】pydata-book wesm/pydata-book: 这是Wes McKinney编写的《Python for Data Analysis》一书的源代码仓库,书中涵盖了使用pandas、NumPy和其他相关库进行数据处理和分析的实践案例和…...

Solarized低视觉疲劳方案:夜间编程环境的色彩设置

Solarized低视觉疲劳方案:夜间编程环境的色彩设置 【免费下载链接】solarized precision color scheme for multiple applications (terminal, vim, etc.) with both dark/light modes 项目地址: https://gitcode.com/gh_mirrors/so/solarized Solarized是一…...

mmdetection动态推理加速:条件计算与早退机制的终极优化指南

mmdetection动态推理加速:条件计算与早退机制的终极优化指南 【免费下载链接】mmdetection open-mmlab/mmdetection: 是一个基于 PyTorch 的人工智能物体检测库,支持多种物体检测算法和工具。该项目提供了一个简单易用的人工智能物体检测库,可…...

Stanford Alpaca模型压缩对比:知识蒸馏与量化方法效果解析

Stanford Alpaca模型压缩对比:知识蒸馏与量化方法效果解析 【免费下载链接】stanford_alpaca Code and documentation to train Stanfords Alpaca models, and generate the data. 项目地址: https://gitcode.com/gh_mirrors/st/stanford_alpaca Stanford Al…...

PyCaret革命:用低代码机器学习库彻底改变Python数据分析流程

PyCaret革命:用低代码机器学习库彻底改变Python数据分析流程 【免费下载链接】pycaret An open-source, low-code machine learning library in Python 项目地址: https://gitcode.com/gh_mirrors/py/pycaret PyCaret是一个开源的低代码机器学习库&#xff0…...

LabelMe多标签标注技巧:复杂场景下的标签管理

LabelMe多标签标注技巧:复杂场景下的标签管理 【免费下载链接】labelme Image Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation). 项目地址: https://gitcode.com/gh_mirrors/lab/labelme Labe…...

Gorilla OpenFunctions并行调用教程:多工具协同执行效率提升300%

Gorilla OpenFunctions并行调用教程:多工具协同执行效率提升300% 【免费下载链接】gorilla Gorilla: An API store for LLMs 项目地址: https://gitcode.com/gh_mirrors/go/gorilla Gorilla OpenFunctions是一个功能强大的API调用平台,它为LLM&am…...

PyCaret并行计算功能:如何利用GPU加速模型训练

PyCaret并行计算功能:如何利用GPU加速模型训练 【免费下载链接】pycaret An open-source, low-code machine learning library in Python 项目地址: https://gitcode.com/gh_mirrors/py/pycaret PyCaret是一款开源的低代码机器学习库,它通过简化的…...

LabelMe开发环境搭建:高效调试与测试配置

LabelMe开发环境搭建:高效调试与测试配置 【免费下载链接】labelme Image Polygonal Annotation with Python (polygon, rectangle, circle, line, point and image-level flag annotation). 项目地址: https://gitcode.com/gh_mirrors/lab/labelme LabelMe是…...

如何高效管理gh_mirrors/car/carbon项目内存:避免内存泄漏的终极指南

如何高效管理gh_mirrors/car/carbon项目内存:避免内存泄漏的终极指南 【免费下载链接】carbon 项目地址: https://gitcode.com/gh_mirrors/car/carbon 在前端开发中,内存泄漏是影响应用性能的隐形杀手。gh_mirrors/car/carbon作为一个基于React的…...

Agentic漏洞管理:安全漏洞的发现和修复完整指南

Agentic漏洞管理:安全漏洞的发现和修复完整指南 【免费下载链接】chatgpt-api Node.js client for the official ChatGPT API. 🔥 项目地址: https://gitcode.com/gh_mirrors/ch/chatgpt-api Agentic漏洞管理是保障软件项目安全的关键流程&#x…...

从0开始训练聊天机器人:基于QLoRA和自定义数据集

从0开始训练聊天机器人:基于QLoRA和自定义数据集 【免费下载链接】qlora QLoRA: Efficient Finetuning of Quantized LLMs 项目地址: https://gitcode.com/gh_mirrors/ql/qlora QLoRA(Quantized Low-Rank Adaptation)是一种高效微调量…...

BigBlueButton无限白板功能详解:打破空间限制的协作新方式

BigBlueButton无限白板功能详解:打破空间限制的协作新方式 【免费下载链接】bigbluebutton Complete open source web conferencing system. 项目地址: https://gitcode.com/gh_mirrors/bi/bigbluebutton BigBlueButton是一款完整的开源网络会议系统&#xf…...

OCRmyPDF与文档分类:基于OCR内容自动归档文件的完整指南

OCRmyPDF与文档分类:基于OCR内容自动归档文件的完整指南 【免费下载链接】OCRmyPDF 项目地址: https://gitcode.com/gh_mirrors/ocr/OCRmyPDF OCRmyPDF是一款强大的开源工具,能够将扫描的PDF文件转换为可搜索、可复制的文本PDF,同时保…...

Stanford Alpaca模型优化技术:层归一化与激活函数调优

Stanford Alpaca模型优化技术:层归一化与激活函数调优 【免费下载链接】stanford_alpaca Code and documentation to train Stanfords Alpaca models, and generate the data. 项目地址: https://gitcode.com/gh_mirrors/st/stanford_alpaca Stanford Alpaca…...