当前位置: 首页 > article >正文

自然语言处理的实战项目:从0到1搭建属于自己的文本分类系统

对于软件测试从业者而言日常工作中我们每天都会接触大量的文本数据缺陷管理系统中的bug描述、测试用例的步骤说明、用户反馈的问题报告、需求文档的规格描述甚至是接口返回的异常信息文本。这些非结构化文本往往隐含着关键业务信息但依靠人工分类整理不仅效率低下还容易出现分类偏差影响测试分析的准确性。如果我们能搭建一套属于自己的文本分类系统就可以自动实现缺陷标签归类、测试用例分层、用户问题聚类等工作大幅提升测试效率还能为测试质量分析、风险预判提供数据支撑。本文就将以软件测试场景为核心带领大家从0到1完成一个可用的文本分类系统搭建。一、项目目标与场景定义贴合测试工作的实际需求在开始搭建之前我们首先要明确适配测试场景的项目目标避免做无意义的通用化开发。对于测试从业者来说我们不需要追求学术界最顶尖的分类精度而是要打造一个轻量、易用、可快速迭代能解决实际测试痛点的系统。结合测试工作的常见场景我们可以将初始目标设定为针对缺陷管理系统中的bug描述自动将其分类为「界面异常」「功能缺陷」「性能问题」「兼容性问题」「安全漏洞」五个类别替代人工打标签的工作后续可扩展到测试用例分类、需求文档合规性检测等场景。明确目标后第一步就是数据准备这也是文本分类项目的核心基础。对于测试场景来说我们本身就拥有天然的标注数据源公司缺陷系统中已经人工标注过的历史bug。我们可以通过API导出或者爬虫爬取的方式获取至少1000条已经标注好分类的bug数据每条数据包含bug标题、详细描述两个文本字段以及对应的分类标签。这里需要注意数据清洗环节这和我们测试中做前置检查的思路是一致的要去掉重复的bug、去掉空文本、去掉标注错误的脏数据还要统一文本格式——比如把不同工程师写的“UI”“界面”“页面”这类同义词统一归一化把bug描述中的版本号、时间戳这类无意义动态字符替换成固定占位符。数据清洗完成后按照8:1:1的比例划分为训练集、验证集和测试集这个比例是兼顾小样本场景的最优划分。二、技术选型适合测试从业者的轻量化方案很多测试朋友会担心自己不是专业NLP算法工程师能不能搞定这个项目其实完全不需要焦虑当前开源社区已经有非常成熟的工具链我们不需要从零训练大模型选择轻量化方案就能满足测试场景的需求。对于测试从业者来说技术选型遵循三个原则低门槛、易部署、可调试因此我们可以选择“Python Scikit-learn 预训练词向量 轻量分类模型”的技术栈后续如果想要效果升级也可以快速切换到开源小模型比如BERT-base不需要重构整个架构。具体来说环境搭建非常简单只需要通过pip安装几个核心库numpy用于数值计算pandas用于数据处理scikit-learn提供特征提取和分类算法jieba用于中文分词joblib用于模型保存和部署。整个环境搭建不需要特殊的GPU资源普通的开发笔记本就能流畅运行完全满足从零搭建的需求。接下来是文本预处理环节这一步对应我们测试中的用例预处理步骤直接影响最终分类效果。中文文本分类的第一步是分词我们使用jieba分词就可以满足需求针对测试场景还可以自定义词典比如把我们产品中的业务术语、模块名称加入自定义词典避免分词错误比如把“支付回调”“优惠券核销”这类测试常用词整体切分而不是切成单个字。分词完成后我们需要去除停用词比如“的”“是”“我”这类没有实际意义的助词还有“请”“帮忙看一下”这类bug描述中的语气词去掉这些噪声可以让模型更关注核心内容。预处理完成后我们需要把文本转换成模型能识别的数值特征最常用也最适合小样本场景的是TF-IDF特征提取。简单来说TF-IDF就是计算每个词在当前文本中的出现频率以及在整个语料库中的出现频率最终给每个词赋予一个权重越少见、越有区分度的词权重越高比如“内存溢出”这个词只出现在性能问题中权重就会很高而“问题”这个词每个分类都有权重就会很低非常符合我们缺陷分类的场景。我们可以直接调用sklearn中的TfidfVectorizer实现只需要配置好分词函数和停用词表一行代码就能完成特征转换。特征提取完成后就是选择分类模型。对于我们的小样本测试场景初始版本选择支持向量机SVM就足够了SVM在高维稀疏特征TF-IDF就是典型的高维稀疏特征上的表现非常稳定训练速度快调参也简单。当然你也可以尝试逻辑回归、随机森林等模型我们可以用sklearn提供的网格搜索工具自动在验证集上调参选择效果最好的模型。比如针对SVM我们只需要遍历不同的正则化参数C和核函数就能找到最优配置整个过程都是自动化的不需要手动反复测试。三、模型训练与效果验证用测试思维验证分类质量模型训练的过程非常简单几行代码就能完成但对于我们测试从业者来说效果验证环节才是核心我们要像测试产品功能一样全面验证模型的分类效果而不是只看一个整体准确率。首先我们要选择合适的评估指标对于分类任务尤其是不同类别样本数量不平衡的场景比如一般项目中功能缺陷远多于安全漏洞不能只看整体准确率还要看每个类别的精确率、召回率和F1值。精确率代表模型预测为某一类的样本中真的属于该类的比例对应到缺陷分类就是“模型预测为性能问题的bug中真的是性能问题的比例”召回率代表真的属于某一类的样本中被模型正确找出来的比例。F1值是精确率和召回率的调和平均数是综合衡量分类效果的指标。我们可以通过sklearn提供的分类报告直接输出每个类别的指标非常方便。举个实际测试的例子我在搭建缺陷分类系统的时候初始模型整体准确率达到了82%看起来不错但看具体分类指标就发现兼容性问题的召回率只有65%原因是很多兼容性bug的描述都会提到“在某浏览器下页面异常”而界面异常也会提到“页面异常”模型区分不开。针对这个问题我们可以做针对性优化在预处理阶段把“在XX浏览器下”“在安卓XX版本上”这类特征词做权重提升或者增加更多兼容性bug的训练样本优化之后兼容性问题的召回率提升到了81%整体准确率也提升到了87%完全满足日常使用的需求。验证完模型效果之后我们需要把训练好的模型保存下来方便后续部署调用使用joblib可以直接把整个预处理 pipeline 和分类模型保存成一个文件部署的时候只需要加载这个文件就能直接对新文本做分类非常简单。四、部署与业务接入让分类系统真正服务于测试工作模型训练完成不是终点能接入我们日常测试工作流程才是有价值的项目。对于测试场景来说我们不需要搭建复杂的线上服务两种轻量化部署方式就能满足大部分需求第一种是命令行脚本工具的方式适合需要批量处理文本的场景。比如我们定期要统计不同模块的缺陷分布就可以写一个简单的Python脚本从缺陷系统导出新的bug列表调用我们训练好的模型自动分类输出统计报表整个过程只需要几秒钟原来人工分类需要几个小时的工作现在一键完成。第二种方式是封装成HTTP接口接入我们现有测试平台比如用Flask写一个简单的接口接收文本数据返回分类结果这样当测试人员在缺陷系统提交新bug的时候就能自动调用接口打标签完全不需要人工干预实现端到端的自动化。接入业务之后我们还要持续迭代优化模型这也是符合测试闭环思维的把模型分类错误的样本收集起来定期重新训练模型比如每个季度用新标注的bug更新一次训练集重新调参模型的效果会越来越准。比如我在使用了半年之后收集了两千多新的标注样本模型的整体准确率提升到了92%已经接近人工分类的水平。五、扩展场景文本分类系统在测试工作中的更多可能搭建好基础的文本分类系统之后我们可以扩展到非常多的测试场景进一步释放测试生产力比如测试用例分类可以自动把测试用例按照功能模块、测试类型功能测试、性能测试、安全测试分类方便测试套件管理比如用户反馈分类可以把应用商店的用户评论、客服收集的用户问题自动分类快速统计出用户反馈最多的问题类型帮助测试团队优先聚焦核心风险比如需求文档合规性检查可以把需求文本分类为“描述清晰”“描述模糊”“存在歧义”提前发现需求中的问题减少后期测试返工。对于软件测试从业者来说学习NLP并且动手搭建这个项目不仅仅是得到一个能用的工具更重要的是提升我们的技术能力开拓测试工作的新思路。原来我们测试工作很多重复性的文本处理工作都可以通过自然语言处理实现自动化让我们从繁琐的手工劳动中解放出来把精力放在更有价值的测试设计和风险分析上。总的来说从0到1搭建属于自己的文本分类系统对于测试从业者来说并没有想象中那么难只要跟着步骤一步步来利用现有的开源工具结合我们熟悉的测试思维只需要几天时间就能做出一个可用的系统并且快速落地到日常工作中产生价值。如果你也想提升测试效率不妨动手试试相信你会收获不一样的惊喜。

相关文章:

自然语言处理的实战项目:从0到1搭建属于自己的文本分类系统

对于软件测试从业者而言,日常工作中我们每天都会接触大量的文本数据:缺陷管理系统中的bug描述、测试用例的步骤说明、用户反馈的问题报告、需求文档的规格描述,甚至是接口返回的异常信息文本。这些非结构化文本往往隐含着关键业务信息&#x…...

5分钟免费搞定HS2汉化:Honey Select 2完整中文补丁终极教程

5分钟免费搞定HS2汉化:Honey Select 2完整中文补丁终极教程 【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch 还在为Honey Select 2的日文界面而烦恼吗…...

计算机视觉的实战项目:从0到1搭建属于自己的图像识别系统

作为软件测试从业者,我们每天都在和各类功能验证、兼容性测试、自动化测试框架打交道,对AI领域的实战项目往往觉得“门槛高”“和日常工作不沾边”。但随着AI技术在互联网产品中的落地越来越深入,图像识别功能已经成为很多APP、智能硬件的核心…...

2026上海GEO生成式引擎优化服务商综合实力测评:谁在真正帮品牌进入AI答案

当企业在讨论“上海生成式引擎优化公司哪家好”时,这个问题本身就反映了市场一个关键的转折。两三年前,企业营销的主战场还是搜索引擎排名和官网访问量。现在,决策者开始频繁向DeepSeek、豆包、通义千问等AI工具提问,而这些生成式…...

ncmdumpGUI终极指南:深度解析网易云音乐NCM加密文件转换技术

ncmdumpGUI终极指南:深度解析网易云音乐NCM加密文件转换技术 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI ncmdumpGUI是一款专为Windows平台设计…...

如何快速无损转换B站m4s视频:完整工具使用指南

如何快速无损转换B站m4s视频:完整工具使用指南 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站缓存视频无法在其他设备…...

绝了!原来毕业论文还能这样写?2026降AIGC工具推荐合集

还在为查重率爆红、AI痕迹太明显、格式乱成一团而发愁?2026 年的 AI 论文工具早已不只是写文章那么简单,从选题构思到降AIGC率、去AI痕迹、查重优化,全流程智能辅助,帮你把论文写作变得简单高效,告别熬夜改稿的焦虑&am…...

终极指南:用AlwaysOnTop免费开源工具彻底改变你的Windows工作方式

终极指南:用AlwaysOnTop免费开源工具彻底改变你的Windows工作方式 【免费下载链接】AlwaysOnTop Make a Windows application always run on top 项目地址: https://gitcode.com/gh_mirrors/al/AlwaysOnTop 你是否经常在多个窗口间来回切换,浪费宝…...

终极指南:三步搞定Windows系统安卓APK文件安装,告别模拟器时代

终极指南:三步搞定Windows系统安卓APK文件安装,告别模拟器时代 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为电脑无法直接运行手机应用…...

解锁你的音乐收藏:浏览器端音频解密完整指南

解锁你的音乐收藏:浏览器端音频解密完整指南 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: https://gitcod…...

Visual C++运行库一键安装指南:彻底解决Windows应用依赖问题

Visual C运行库一键安装指南:彻底解决Windows应用依赖问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过打开软件时弹出"缺少…...

MPC Video Renderer终极指南:如何在Windows上实现专业级视频渲染体验

MPC Video Renderer终极指南:如何在Windows上实现专业级视频渲染体验 【免费下载链接】VideoRenderer Внешний видео-рендерер 项目地址: https://gitcode.com/gh_mirrors/vi/VideoRenderer MPC Video Renderer是一款专为Windows平台设计…...

将deepseek v4 pro集成到codex桌面APP中使用

📕我是廖志伟,一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》(基础篇)、(进阶篇)、《解密程序员的思维密码——沟通、演讲、思考的实践》作者、清华大学出版社签约作家、Java领域…...

掌握OpenCore Legacy Patcher:3步让老旧Mac焕发新生的实用指南

掌握OpenCore Legacy Patcher:3步让老旧Mac焕发新生的实用指南 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher是一款开源…...

SMUDebugTool:AMD Ryzen处理器深度调试与性能调优完全指南

SMUDebugTool:AMD Ryzen处理器深度调试与性能调优完全指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https:…...

Windows安卓应用安装终极指南:5分钟快速配置跨平台应用体验

Windows安卓应用安装终极指南:5分钟快速配置跨平台应用体验 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 还在为在Windows电脑上无法直接安装安卓应用而烦…...

NsEmuTools:10分钟搞定NS模拟器配置,让你专注游戏乐趣

NsEmuTools:10分钟搞定NS模拟器配置,让你专注游戏乐趣 【免费下载链接】ns-emu-tools 一个用于安装/更新 NS 模拟器的工具 项目地址: https://gitcode.com/gh_mirrors/ns/ns-emu-tools 还在为NS模拟器的复杂配置而头疼吗?每次想玩Swit…...

3分钟快速解决Windows热键冲突检测难题:Hotkey Detective终极指南

3分钟快速解决Windows热键冲突检测难题:Hotkey Detective终极指南 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective …...

WorkshopDL终极指南:无需Steam客户端也能轻松下载创意工坊模组

WorkshopDL终极指南:无需Steam客户端也能轻松下载创意工坊模组 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 你是否在GOG或Epic Games Store购买了游戏&#xff0…...

结肠“瑞士卷”制片法

在肠道病理研究中,如何完整保留小鼠结肠的全层结构、同时避免人为损伤,一直是实验操作的难点。本文分享一套改良版“瑞士卷”制片技术,无需剖开肠管、无需机械顶压,即可获得高质量的全结肠切片,特别适合炎症、隐窝异常…...

从API调用成功率看Taotoken服务的稳定性与容灾表现

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从API调用成功率看Taotoken服务的稳定性与容灾表现 在将大模型能力集成到自动化流程或日常开发工具链时,服务的稳定性和…...

音乐解锁工具:让加密音乐文件在任何设备自由播放

音乐解锁工具:让加密音乐文件在任何设备自由播放 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: https://gi…...

3步终结Windows热键冲突:Hotkey Detective终极排查指南

3步终结Windows热键冲突:Hotkey Detective终极排查指南 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾…...

告别繁琐审核!实测AI Agent如何重塑复杂非结构化票据与合同处理流程?

摘要:在企业数字化转型步入深水区的2026年,处理复杂非结构化票据与合同已成为横亘在财务、法务部门面前的“最后一公里”难题。传统RPA因UI变动易崩溃、主流智能体因缺乏API适配而无法落地,导致大量业务仍依赖低效的人工操作。本文由「企服AI…...

低空旅游观光与低空通勤(eVTOL)运营管理与服务保障平台建设方案

本方案旨在为eVTOL载具构建集运营管理、空中交通管制、安全保障与乘客服务于一体的数字化平台。通过微服务架构、5G-A融合感知、空域网格化与零信任安全等核心技术,解决高密度飞行中的资源调度与安全冲突问题。目标实现毫秒级冲突解算与15分钟内快速周转&#xff0c…...

OpenCore Legacy Patcher完整指南:让老旧Mac焕发新生,运行最新macOS

OpenCore Legacy Patcher完整指南:让老旧Mac焕发新生,运行最新macOS 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否有一台被苹…...

AI 如何改变软件工程:Martin Fowler 视角 + 实战洞见

AI 如何改变软件工程:Martin Fowler 视角 实战洞见 AI(尤其是 LLM)是软件工程自高级语言(从汇编到 C/Fortran)以来最大的转变。它引入了非确定性(Non-deterministic)编程,改变了从编…...

自动加字幕软件推荐:口播视频如何批量加字幕过

口播视频加字幕,为什么越做越累?一位知识类博主连续两周日更3条口播视频,每条12–18分钟,需手动校对字幕、拆分金句切片、补气口停顿、匹配背景音乐——最后一条视频发布时,字幕错漏率达17%,平台审核未过。…...

AI Agent 为什么必须有“记忆系统”?

导语:大模型不是没有智商,而是经常没有“记性”。真正能长期干活的 Agent,不是靠无限拉长上下文,而是靠一套会压缩、会检索、会遗忘、会治理的外置记忆系统。一、先给结论:Agent 的记忆系统,本质是“上下文…...

CANN runtime:昇腾NPU 运行时的职责边界

个人主页:ujainu 文章目录前言为什么需要运行时这一层runtime管什么,不管什么Stream:并行的基本调度单位Event:跨Stream的同步锚点内存池化:少一次malloc就少一次卡顿任务队列:从计算图到硬件指令的最后一跳…...