当前位置: 首页 > article >正文

大模型微调:教科书级数据工程,200条数据提升170%BLEU!揭秘金融与医疗领域爆款模型的底层逻辑

本文深入探讨了大模型微调的数据工程与评估体系。核心观点是高质量数据比海量样本更重要通过精细的数据过滤和选择即使是小数据集也能显著提升模型效果。文章对比了SFT、RLHF、GRPO三种主流微调方法并以金融客服和医疗问答为例详细解析了数据收集、清洗、格式转换、微调及评估的全流程。同时介绍了高效的微调工具Unsloth并提出了数据质量评估的六大维度和人工评估的必要性强调自动评估与人工评估相结合的最佳实践。最终得出结论大模型微调是一项系统工程高质量数据、合适评估体系与高效工具缺一不可。微软研究院有句名言“Textbooks Are All You Need”——如果你拥有教科书级别的高质量数据就不需要海量样本。本文带你深入理解大模型微调的数据工程与评估体系。一、为什么你的微调模型总是不太聪明很多 AI 爱好者在尝试微调大模型时都会遇到这样的困惑明明用了海量数据训练模型效果却不如预期微调后的模型只会重复问题给不出有效回答同样的模型架构别人的效果比自己好很多问题的核心往往不在模型而在数据。今天我们就来深入探讨大模型微调中的数据工程与评估体系通过金融客服和医疗问答两个真实案例带你完整理解从数据收集到效果评估的全流程。二、微调方法全景图SFT、RLHF、GRPO 该如何选择在开始数据工程之前首先要明确不同的微调方法对数据的要求完全不同。2.1 三种主流微调方法对比方法核心原理数据格式典型场景SFT(监督微调)像老师手把手教学生背标准答案指令 - 回答对 (Alpaca 格式)客服问答、医疗咨询RLHF(人类反馈强化学习)让学生写作文然后打分排名QA 对 人工偏好排序创意写作、对话风格GRPO(组相对策略优化)学生组队刷题互相比较谁更好仅需 QA 对无需推理标注数学推理、逻辑问题2.2 SFT 数据格式示例{ instruction: 请回答以下医疗相关问题, input: 感冒发烧怎么办, output: 建议多喝水多休息如体温超过 38.5 度可服用退烧药... }数据质量关键点答案的准确性、完整性、格式规范性2.3 如何选择有标准答案的任务客服、医疗问答→SFT需要推理能力的任务数学、编程→GRPO实际项目可以两者结合SFT 先学格式和知识 → GRPO 再学推理策略三、实战案例一金融垂类大模型智能客服3.1 金融场景的特殊挑战金融领域对大模型的要求极为严苛数据质量要求极高直接对客准确性必须接近 100%业务场景复杂营销分计算涉及首贷、复贷、无余额等多种场景信息准确性敏感用户姓名、年龄、额度等关键信息不能有幻觉安全合规要求严格客户隐私保护、监管合规是底线策略迭代快速营销手段日新月异模型需要敏捷迭代3.2 数据收集策略以某消费金融公司为例其数据收集包括五大类历史业务数据优秀坐席服务语音对话、文本对话业务文档数据贷前、贷中、贷后等超数万篇服务文档业务规则数据客服机器人配置规则和决策树话术技术相关数据SQL 代码及注释、数据库定义用户特征数据基本信息、行为轨迹、标签、账务数据等数万项特征3.3 关键洞察数据过滤比数据量更重要“高质量的数据关键在于对已有数据的过滤筛选。”过滤策略基础过滤涉黄涉政内容业务过滤根据规则模型和质检系统对话轮次筛选过滤无意义对话如接通后直接挂断有效性定义参考业务上的有效性标准确保对话包含完整逻辑3.4 效果对比指标传统智能大模型提升平均通话时长--提升 50%交互轮次--提升 83%客户满意度--提升 28%业绩人工平均大模型提升 30%大模型的优势能理解用户场景如正在做家务能推理隐含信息如爸爸不在家→接听者是小孩→终止营销四、高效微调工具Unsloth 详解4.1 Unsloth 是什么Unsloth 是一个高效的开源微调工具核心优势速度快比传统方法快 2-5 倍显存省内存使用减少 50-80%门槛低仅需 7GB 显存即可训练 1.5B 参数模型兼容广支持 Llama、Mistral、Qwen 等主流模型集成 GRPO增强模型推理能力4.2 硬件需求参考模型规模最低显存推荐显存1.5B7GB12GB7B12GB24GB15B15GB40GB五、实战案例二中文医疗模型完整 Pipeline5.1 数据集介绍使用开源的中文医疗对话数据集包含 6 个科室科室问答对数量内科220,606妇产科183,751外科115,991儿科101,602男科94,596肿瘤科75,553数据示例科室心血管科 问题高血压患者能吃党参吗 回答高血压病人可以口服党参的。党参有降血脂、降血压的作用...5.2 完整 Pipeline 六步法Step 1: 数据收集与清洗 (medical_data_processor.py) ↓ Step 2: 数据质量评估 (data_quality_report.py) ↓ Step 3: 数据格式转换 (data_format_converter.py) ↓ Step 4: 模型微调 (Qwen3_5_医疗微调.py) ↓ Step 5: BLEU 效果评估 (bleu_evaluation.py) ↓ Step 6: 清洗价值验证 (sft_quick_comparison.py)5.3 Step 1数据清洗规则自动编码检测支持 utf-8/gbk/gb2312/gb18030空值过滤问题或回答为空的条目长度过滤问题5 字或500 字、回答10 字或2000 字无意义过滤纯标点、你好/嗯/哦等MD5 去重基于问题内容的哈希去重均衡采样按科室均衡抽样留出 5% 验证集5.4 Step 4模型微调配置GPU 版fromunslothimportFastLanguageModel # 加载模型 (4bit 量化) model, tokenizerFastLanguageModel.from_pretrained( model_nameQwen/Qwen3.5-0.8B, max_seq_length2048, load_in_4bitTrue, # 4bit 量化0.8B 模型约需 0.5GB 显存 ) # 配置 LoRA modelFastLanguageModel.get_peft_model( model, r16, # LoRA rank target_modules[q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj], lora_alpha16, lora_dropout0, use_gradient_checkpointingunsloth, )5.5 微调效果对比仅 10 步训练问题我最近总是感觉头晕应该怎么办微调前基座模型我最近总是感觉头晕应该怎么办我最近总是感觉头晕... 纯粹重复问题无有效回答微调后作为医生您好头晕是一个非常普遍的症状可能由多种原因引起 1. 神经性因素焦虑、压力、睡眠不足... 2. 低血糖、缺钙、缺维生素 B12、缺铁... 建议先测量血压如持续不适请及时就医。BLEU 分数提升从 0.0243 → 0.0657提升 170.4%六、数据质量评估体系6.1 为什么需要量化评估垃圾进垃圾出Garbage In, Garbage Out肉眼检查无法覆盖数十万条数据需要量化指标衡量数据集健康程度6.2 六大评估维度满分 100 分维度满分计算方式格式合规20 分合规率 × 20字段完整20 分平均填充率 × 20语言一致15 分中文占比 × 15数据唯一15 分(1 − 重复率) × 15长度合理15 分(1 − 极端长度比) × 15多样性15 分(类别数 / 期望类别数) × 15评级标准A(≥90 分) | B(≥75 分) | C(≥60 分) | D(60 分)6.3 实验验证清洗的价值同一模型、同样参数只改变数据质量指标原始数据清洗后数据差异训练时间76.36 秒80.04 秒3.68 秒最终 Loss4.62064.5782-0.0424关键发现Step 7 差异最大0.283原始数据包含噪声导致梯度方向不稳定清洗后数据在每一步都略优说明噪声数据会干扰模型收敛6.4 BLEU 评估的局限性BLEU 分数不能完全反映模型质量❌ 无法衡量事实正确性吃感冒药和吃毒药可能有相似 N-gram❌ 无法衡量安全合规性❌ 对同义表达不友好“发烧和体温升高”❌ 对语序不敏感6.5 人工评估的必要性医疗场景人工评估维度事实准确性40% 权重医疗建议是否正确药物名称、剂量是否准确语气专业度20% 权重是否使用专业术语是否客观中立回复完整性20% 权重是否涵盖主要方面是否给出可操作建议安全合规性20% 权重是否包含危险建议是否建议就医6.6 最佳实践自动 人工结合阶段评估方式目的开发阶段自动评估BLEU 质量报告快速迭代上线前人工评估抽样 100-200 条把关上线后用户反馈点赞/点踩持续改进七、核心结论与建议7.1 三个关键结论数据质量 数据数量同样 200 条数据清洗后 Loss 比原始数据低 0.0424微软论文证实教科书级别的好样本不需要太多数据微调效果立竿见影仅 10 步训练模型从重复问题变成给出专业建议BLEU 提升 170%趋势明确CPU 微调完全可行0.8B 模型 CPU 微调仅需 3.2GB 内存10 步训练约 108 秒适合快速验证7.2 给 AI 爱好者的建议从高质量小数据集开始不要盲目追求数据量先确保数据质量建立评估体系自动指标 人工评估缺一不可选择合适的工具Unsloth 等高效工具可以大幅降低门槛关注领域特性医疗、金融等垂直领域有特殊要求结语大模型微调不是数据越多越好的简单游戏而是一项需要精心设计的系统工程。高质量的数据 合适的评估体系 高效的工具三者缺一不可。正如本次分享中医疗模型案例所示即使只有 10 步训练、仅 200 条数据只要数据质量足够高微调效果也能立竿见影。01什么是AI大模型应用开发工程师如果说AI大模型是蕴藏着巨大能量的“后台超级能力”那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。AI大模型应用开发工程师是基于AI大模型设计开发落地业务的应用工程师。这个职业的核心价值在于打破技术与用户之间的壁垒把普通人难以理解的算法逻辑、模型参数转化为人人都能轻松操作的产品形态。无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能还是办公场景中的自动记账工具、会议记录用的语音转文字APP这些看似简单的应用背后都是应用开发工程师在默默搭建技术与需求之间的桥梁。他们不追求创造全新的大模型而是专注于让已有的大模型“听懂”业务需求“学会”解决具体问题最终形成可落地、可使用的产品。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】02AI大模型应用开发工程师的核心职责需求分析与拆解是工作的起点也是确保开发不偏离方向的关键。应用开发工程师需要直接对接业务方深入理解其核心诉求——不仅要明确“要做什么”更要厘清“为什么要做”以及“做到什么程度算合格”。在此基础上他们会将模糊的业务需求拆解为具体的技术任务明确每个环节的执行标准并评估技术实现的可行性同时定义清晰的核心指标为后续开发、测试提供依据。这一步就像建筑前的图纸设计若出现偏差后续所有工作都可能白费。技术选型与适配是衔接需求与开发的核心环节。工程师需要根据业务场景的特点选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同选型的合理性直接影响最终产品的表现。同时他们还要对行业相关数据进行预处理通过提示词工程优化模型输出或在必要时进行轻量化微调让基础模型更好地适配具体业务。此外设计合理的上下文管理规则确保模型理解连贯需求建立敏感信息过滤机制保障数据安全也是这一环节的重要内容。应用开发与对接则是将方案转化为产品的实操阶段。工程师会利用选定的开发框架构建应用的核心功能同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通确保数据流转顺畅。在这一过程中他们还需要配合设计团队打磨前端交互界面让技术功能以简洁易懂的方式呈现给用户实现从技术方案到产品形态的转化。测试与优化是保障产品质量的关键步骤。工程师会开展全面的功能测试找出并修复开发过程中出现的漏洞同时针对模型的响应速度、稳定性等性能指标进行优化。安全合规性也是测试的重点需要确保应用符合数据保护、隐私安全等相关规定。此外他们还会收集用户反馈通过调整模型参数、优化提示词等方式持续提升产品体验让应用更贴合用户实际使用需求。部署运维与迭代则贯穿产品的整个生命周期。工程师会通过云服务器或私有服务器将应用部署上线并实时监控运行状态及时处理突发故障确保应用稳定运行。随着业务需求的变化他们还需要对应用功能进行迭代更新同时编写完善的开发文档和使用手册为后续的维护和交接提供支持。03薪资情况与职业价值市场对这一职业的高度认可直接体现在薪资待遇上。据猎聘最新在招岗位数据显示AI大模型应用开发工程师的月薪最高可达60k。在AI技术加速落地的当下这种“技术业务”的复合型能力尤为稀缺让该职业成为当下极具吸引力的就业选择。AI大模型应用开发工程师是AI技术落地的关键桥梁。他们用专业能力将抽象的技术转化为具体的产品让大模型的价值真正渗透到各行各业。随着AI场景化应用的不断深化这一职业的重要性将更加凸显也必将吸引更多人才投身其中推动AI技术更好地服务于社会发展。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】

相关文章:

大模型微调:教科书级数据工程,200条数据提升170%BLEU!揭秘金融与医疗领域爆款模型的底层逻辑

本文深入探讨了大模型微调的数据工程与评估体系。核心观点是:高质量数据比海量样本更重要,通过精细的数据过滤和选择,即使是小数据集也能显著提升模型效果。文章对比了SFT、RLHF、GRPO三种主流微调方法,并以金融客服和医疗问答为例…...

实战演练:基于快马平台快速开发一个可动态切换主题色的网站Demo

今天想和大家分享一个非常实用的前端小项目——如何快速开发一个能动态切换主题色的网站Demo。这个功能在实际项目中特别常见,比如我们常见的深色模式切换、企业官网的主题定制等。下面我就用InsCode(快马)平台来演示整个实现过程。 项目结构设计 首先我们需要规划…...

墙面涂料里的有害物质到底有哪些?

痛点深度剖析我们团队在实践中发现,当前室内墙面涂料市场存在诸多技术困境。很多消费者在使用传统墙面涂料后,会面临健康隐患。比如,涂料初期异味大,后期还会持续释放低剂量的 VOCs,像甲醛、苯系物等。家人长期处于这样…...

造相-Z-Image-Turbo亚洲美女LoRA实战:小宇宙播客封面图情绪传达技巧

造相-Z-Image-Turbo亚洲美女LoRA实战:小宇宙播客封面图情绪传达技巧 1. 项目介绍与核心价值 今天要分享的是一个特别实用的AI工具——基于Z-Image-Turbo的亚洲美女LoRA图片生成服务。这个工具专门为内容创作者设计,特别是小宇宙播客的主播们&#xff0…...

OpenClaw+Qwen3.5-9B:自动化竞品监测与分析报告生成

OpenClawQwen3.5-9B:自动化竞品监测与分析报告生成 1. 为什么需要自动化竞品监测 作为一位长期关注行业动态的技术从业者,我每周都要花费大量时间手动收集竞品信息。传统方式需要反复访问多个网站,复制粘贴内容到Excel,再人工分…...

实战演练:基于kimi与快马平台快速开发一个交互式销售数据可视化看板

今天想和大家分享一个实战项目:如何用Kimi和InsCode(快马)平台快速搭建一个销售数据可视化看板。整个过程比我预想的顺利很多,特别适合需要快速验证业务需求的场景。 项目背景与需求拆解 最近在帮朋友的小型电商团队优化运营流程,他们最头疼…...

Realistic Vision V5.1 虚拟摄影棚:QT开发跨平台AI图像生成桌面应用

Realistic Vision V5.1 虚拟摄影棚:QT开发跨平台AI图像生成桌面应用 想象一下,你是一位独立摄影师或内容创作者,脑海里有一个绝妙的画面构思——可能是晨曦中穿着复古长裙的少女,也可能是赛博朋克都市里的未来侦探。过去&#xf…...

《奇迹 MU:荣耀出征》荣耀 12 区:职业选择 + 开荒路线 + 搬砖技巧全攻略!

作为正版奇迹 MU 授权的复古魔幻手游,《奇迹 MU:荣耀出征》的核心魅力不仅在于经典职业的热血回归与自由交易的搬砖乐趣,更在于从新手开荒到高阶攻坚的完整成长链路、全阶段高爆地图的刷宝惊喜、世界 BOSS 的全服混战与战盟攻城的巅峰对决。相…...

SeqGPT-560M金融信贷申请:申请人/收入证明/抵押物/授信额度结构化

SeqGPT-560M金融信贷申请:申请人/收入证明/抵押物/授信额度结构化 1. 项目概述 SeqGPT-560M是一个专门针对金融信贷场景深度优化的智能信息抽取系统。与通用聊天模型不同,这个系统专注于从复杂的非结构化文本中精准提取关键金融信息,特别适…...

深入解析D触发器与分频器:时序逻辑的核心构建块

1. D触发器:数字世界的记忆单元 第一次接触D触发器时,我把它想象成一个会"记住"当前状态的小盒子。这个看似简单的元件,却是构建复杂数字系统的基石。D触发器全称Data触发器,属于边沿触发器件,这意味着它只…...

如何安全解密微信聊天记录:WechatDecrypt本地解密工具全攻略

如何安全解密微信聊天记录:WechatDecrypt本地解密工具全攻略 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 你是否曾因更换手机而丢失珍贵的聊天记录?是否在工作中需要提取重要的…...

突破百度网盘限速:3招实现2MB/s极速下载的开源解决方案

突破百度网盘限速:3招实现2MB/s极速下载的开源解决方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否也曾经历过百度网盘下载速度仅有几十KB/s的煎熬&…...

BGV vs BFV:基于LWE的两大全同态加密方案,到底该怎么选?

BGV vs BFV:基于LWE的两大全同态加密方案技术选型指南 当隐私计算项目需要处理加密数据上的复杂运算时,全同态加密(FHE)方案的选择往往成为架构设计的核心决策点。作为第二代FHE方案的典型代表,BGV和BFV虽然同属基于L…...

FRP内网穿透实战:从零配置到远程访问

1. 为什么需要内网穿透? 想象一下这个场景:你在家里搭建了一个NAS私有云,存了几百部高清电影;或者你在办公室电脑上跑了个数据库服务,出差时想随时查看数据。这时候你会发现——这些服务都在内网环境里,离…...

终极指南:如何用Zotero PDF Translate插件快速突破学术语言壁垒

终极指南:如何用Zotero PDF Translate插件快速突破学术语言壁垒 【免费下载链接】zotero-pdf-translate 支持将PDF、EPub、网页内容、元数据、注释和笔记翻译为目标语言,并且兼容20多种翻译服务。 项目地址: https://gitcode.com/gh_mirrors/zo/zotero…...

从CORS到自定义,让你的API更健壮

一、中间件是啥?咱用“餐厅”打个比方想象一下,你的FastAPI应用是个高级餐厅。👉 顾客(客户端请求)来到门口。- 迎宾(CORS中间件):先看你是不是从允许的街区(域名&#x…...

绕过 Cloudflare 防护:Puppeteer 与 Node.js 的实战指南

1. 为什么需要绕过Cloudflare防护? 最近几年做自动化项目的开发者应该都深有体会,Cloudflare的安全防护越来越难对付了。我去年帮一个电商公司做价格监控系统时就踩过坑,他们的网站用了Cloudflare Turnstile防护,普通的爬虫根本过…...

OpenClaw 2026年阿里云8分钟本地云端集成零基础部署及使用教程

OpenClaw 2026年阿里云8分钟本地云端集成零基础部署及使用教程。本文面向零基础用户,完整说明在轻量服务器与本地Windows11、macOS、Linux系统中部署OpenClaw(Clawdbot)的流程,包含环境配置、服务启动、Skills集成、阿里云百炼API…...

如何用Unity打造一款MMORPG:从零开始的全流程实战教程

如何用Unity打造一款MMORPG:从零开始的全流程实战教程 当《魔兽世界》《最终幻想14》等经典MMORPG持续创造商业奇迹时,许多开发者都怀揣着打造下一个爆款的梦想。Unity引擎凭借其跨平台能力和完善的工具链,已成为独立团队和中小厂商开发大型多…...

RMBG-2.0抠图工具性能测试:RTX 3060上平均1.8秒处理一张图

RMBG-2.0抠图工具性能测试:RTX 3060上平均1.8秒处理一张图 1. 为什么选择本地抠图工具? 在日常工作和内容创作中,我们经常需要处理图片背景去除的需求。无论是电商产品图、社交媒体配图还是设计素材,一个高效的抠图工具可以大幅…...

企业数字化转型的核心基础设施:组织人事信息管理系统

去年某制造企业 HR 负责人跟我抱怨:公司 800 多人,每次调整组织架构都要改十几个 Excel 表格,员工调岗要手动更新 5 个系统的数据,光是核对信息就要花 3 天时间。这不是个例,很多企业的人事管理还停留在表格时代&#…...

AI和苹果夹逼,国产手机顶不住了,网传大规模人才优化已在进行中

某已没落的手机企业在转卖后,近期又传出重大消息,只是这次是相当悲惨的消息,手机硬件研发被砍掉,半数员工就地解散,揭开了手机行业人才优化的序幕,其实手机行业的这种操作早在去年底就已悄然进行&#xff0…...

2026最新:宁波高新区代理记账收费标准公布,科技企业月均300元起

上周一位在高新区软件园创业的李总问我:"我们公司刚成立,就3个人,找一个代理记账一个月要花多少钱?"这个问题几乎是每个高新区创业者都会问的。作为在宁波服务了15年的财税机构,今天我就给大家说个明白。高新…...

PicGo无法安装插件| 提示“请安装 Node.js 并重启 PicGo 再继续操作”(问题已解决)

​​​​​​ 📌 问题分析:PicGo 提示“请安装 Node.js 并重启 PicGo 再继续操作” PicGo 提示“请安装 Node.js 并重启 PicGo 再继续操作”,说明问题出在环境变量或进程识别上,或者未安装 Node.js。本篇就前者进行分解&#xff0…...

将XXXUtils合而为一

将XXXUtils合而为一 2026-03-27 在AI辅助编程成为主流开发模式的当下,代码编写的交互逻辑正发生本质变革,开发者的核心协作对象已从团队同事变成了AI助手。传统Java开发中,StringUtils、FileUtils、DateUtils等分功能域拆分的工具类设计&…...

CLIP-GmP-ViT-L-14基础教程:ViT-L-14 patch embedding尺寸与分辨率适配

CLIP-GmP-ViT-L-14基础教程:ViT-L-14 patch embedding尺寸与分辨率适配 1. 理解CLIP-GmP-ViT-L-14模型 CLIP-GmP-ViT-L-14是一个经过几何参数化(GmP)微调的CLIP模型,在ImageNet和ObjectNet数据集上能达到约90%的准确率。这个模型继承了CLIP的核心能力&…...

墨语灵犀模型压缩与量化教程:降低部署资源消耗

墨语灵犀模型压缩与量化教程:降低部署资源消耗 你是不是也遇到过这种情况:好不容易找到一个效果不错的开源大模型,比如墨语灵犀,兴致勃勃地想部署到自己的服务器上试试,结果一看显存要求,直接傻眼了——动…...

别再死记硬背了!用主成分分析(PCA)的实战案例,反向理解线性代数里的谱分解

从鸢尾花降维实战逆向拆解:为什么PCA中的谱分解是线性代数的精髓? 记得第一次用PCA处理鸢尾花数据集时,盯着sklearn输出的三维散点图发愣——明明原始数据有4个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)&#xf…...

AI Agent:从定义到分类,带你深入理解智能体的核心奥秘!

本文首先明确了AI Agent的定义,即结合深度学习技术(尤其是大模型技术)并能执行任务的下游应用。接着,文章列举了AI Agent的实际案例,如美团小美、AI Coding工具、SlidevAI和deepwiki,并区分了哪些应用不属于…...

xhs:突破小红书数据采集壁垒的5个实战方法

xhs:突破小红书数据采集壁垒的5个实战方法 【免费下载链接】xhs 基于小红书 Web 端进行的请求封装。https://reajason.github.io/xhs/ 项目地址: https://gitcode.com/gh_mirrors/xh/xhs 从反爬困境到合规采集的完整解决方案 在数字化营销与市场研究领域&am…...