NLP 文本分类任务核心梳理
解决思路
- 分解为多个独立二分类任务
- 将多标签分类转化为多分类问题
- 更换 loss 直接由模型进行多标签分类
数据稀疏问题
标注更多数据,核心解决方案:
- 自己构造训练样本
数据增强,如使用 chatGPT 来构造数据 - 更换模型
减少数据需求 - 增加规则弥补
- 调整阀值,用召回率替换准确率
- 重新定义类别(类别合并)
标签不均衡问题
- 过采样
复制指定类别样本,在采样中重复 - 降采样
减少多样本类别的采样,随机使用部分样本 - 增加标注数据
- 调整样本权重
调整损失函数的权重 - 非神经网络的方法
- 贝叶斯
- 全概率公式

- 贝叶斯公式
- 核心在于词频的统计
- 需要做词的独立性假设,形成每个事件在某个事件下发生概率的相乘
这种假设是没有保障的,需要加一平滑等策略,保证概率不为0,没有考虑语序,没有词义。
- 适用于样本分布较均衡的语料
- 简单高效
- 训练结果有一定的可解释性
- 训练数据可以分批处理
- 全概率公式
- SVM 支持向量机
- 找到一个决策边界
- 即一条直线、平面或超平面
- 实现数据的线性可分
- 距离两个类别最近的样本距离最远
- 即一条直线、平面或超平面
- 是非线性不可分的
- 可以通过使用特别的映射关系,将数据映射到高维解决
- 通过核函数解决高维度计算耗时问题
- 主要靠核函数寻找决策边界
- 没有像贝叶斯很好的可解释性,没有神经网络的效果好
- 找到一个决策边界
- 贝叶斯
- 神经网络方法
- fastText
- 结构简单
- embedding
- mean pooling
- fc -> class_num
- 参数少,所以效果不会很好
抛弃了语序信息
- 结构简单
- TextCNN
对位相乘再相加,是有语序信息的,可以堆叠多层使用。- 分类
- LSTM
- GRU
- 分类
- Gated CNN
- 过滤 AB 相乘后为 0 部分
- 放缩 B 中在 0-1 的部分
- Bert
实现方式:- 取[cls] token 对应的向量
- 将整句话的向量取 max/average pooling
- 将 bert 编码后的向量再输入 LSTM 或者 CNN
- 将bert 中间层的结果取出,加入运算
- Bert + RNN 或 CNN
由于Bert 权重不是随机的,RNN 或 CNN 权重随机,为防止Bert 权重失去意义,RNN 最多一层或双向,或 CNN 最多 2-3 层。 - 拓展
- 对比学习
- 海量向量查找
- 向量数据库
Annoy
在多个接近的分支上查找 - KD 树
实现空间分割,局部对比
均方差
中位数
- 向量数据库
- 目的
预设文文本所属的类别
- fastText
相关文章:
NLP 文本分类任务核心梳理
解决思路 分解为多个独立二分类任务将多标签分类转化为多分类问题更换 loss 直接由模型进行多标签分类 数据稀疏问题 标注更多数据,核心解决方案: 自己构造训练样本 数据增强,如使用 chatGPT 来构造数据更换模型 减少数据需求增加规则弥补…...
k8s中pod的创建过程和阶段状态
管理k8s集群 kubectl k8s中有两种用户 一种是登录的 一种是/sbin/nologin linux可以用密码登录,也可以用证书登录 k8s只能用证书登录 谁拿到这个证书,谁就可以管理集群 在k8s中,所有节点都被网络组件calico设置了路由和通信 所以pod的ip是可以…...
NSSCTF刷题篇1
js类型 [SWPUCTF 2022 新生赛]js_sign 这是一道js信息泄露的题目直接查看源码,有一个main.js文件点击之后,有一串数字和一段base64编码,解开base64编码得到这个编码为敲击码 解码在线网站:Tap Code - 许愿星 (wishingstarmoye.…...
[数据集][目标检测]棉花叶子病害检测数据集VOC+YOLO格式977张22类别
数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):977 标注数量(xml文件个数):977 标注数量(txt文件个数):977 标注类别…...
产品经理面试整理-常见面试问题
以下是一些常见的产品经理面试问题及其解答思路。这些问题涵盖了产品管理的各个方面,包括战略、执行、数据分析、用户体验、跨团队合作等。在准备这些问题时,使用结构化的回答方式(如STAR法)能够帮助你更好地表达你的观点和经验。 1. 常见产品经理面试问题 1.1 你如何定义用…...
数据库(选择题)
基本概念 数据库(DB):长期存储在计算机内的、有组织的、可共享的数据集合。 数据库管理系统(DBMS):它是数据库的机构,是一个系统软件,负责数据库中的数据组织、数据操纵、数据维护…...
粒子向上持续瀑布动画效果(直接粘贴到记事本改html即可)
代码: 根据个人喜好修改即可 <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>宽粒子向上…...
卷积神经网络(CNN):深度学习中的视觉奇迹
目录 一、什么是卷积神经网络? 二、CNN的核心组件 1. 卷积层(Convolutional Layer) 2. 激活函数(Activation Function) 3. 池化层(Pooling Layer) 4. 全连接层(Fully Connected…...
Vue:加载本地视频
目录 封装视频弹框调用视频组件 封装视频弹框 <template><el-dialog class"videoBox" :title"title" :visible.sync"visible" width"40%" :before-close"handleOnClose" :close-on-click-modal"false" …...
论文阅读:A Generalization of Transformer Networks to Graphs
论文阅读:A Generalization of Transformer Networks to Graphs 论文地址1 摘要2 贡献Graph TransformerOn Graph Sparsity(图稀疏)On Positional Encodings(位置编码)3 Graph Transformer Architecture(架…...
中国计量大学《2022年801+2022年819自动控制原理真题》 (完整版)
本文内容,全部选自自动化考研联盟的:《25届中国计量大学801819自控考研资料》的真题篇。后续会持续更新更多学校,更多年份的真题,记得关注哦~ 目录 2022年801真题 2022年819真题 Part1:2022年完整版真题 2022年801…...
创客匠人运营课堂|增强用户的参与度和忠诚度,这一个工具就能实现!
活动投票是通过营销活动来提升用户粘性及平台裂变效果的工具。可以让活动得到更好的传播,平台品牌得到更大的曝光。 使用场景 活动投票是一种互动营销手段,适用于各种活动场景,具有增强用户的参与度和忠诚度,提高活动的透明度和公…...
k8s 微服务 ingress-nginx 金丝雀发布
目录 一 什么是微服务 二 微服务的类型 三 ipvs模式 3.1 ipvs模式配置方式 四 微服务类型详解 4.1 clusterip 4.2 ClusterIP中的特殊模式headless 4.3 nodeport 4.4 loadbalancer 4.5 metalLB 4.6 externalname 五 Ingress-nginx 5.1 ingress-nginx功能 5.2 部署…...
Elasticsearch不停机切换(上云)方案
如何给飞行中的飞机换引擎? 背景 业务背景 略 技术背景 线下集群40个索引左右,总数据量不大,不到100G因为ES承担的业务鉴权业务,所以不能接受停机割接 还有就是ES中数据来自各个业务方,推送的时机不定,也没有完备的重推机制&…...
归纳一下Invoke,beginInvoke,还有InvokeRequire
1.在WinForms中的Invoke和BeginInvoke WinForms是一个单线程的UI框架。在多线程的环境下操作UI控件时。需要使用Invoke和BeginInvoke跨线程调起UI线程 这两的区别如下Invoke:同步调用,当前代码不在UI线程上执行时,会卡住当前线程࿰…...
Prompt最佳实践|指定输出的长度
在OpenAI的官方文档中已经提供了[Prompt Enginerring]的最佳实践,目的就是帮助用户更好的使用ChatGPT 编写优秀的提示词我一共总结了9个分类,本文讲解第6个分类:指定输出长度 提供更多的细节要求模型扮演角色使用分隔符指定任务步骤提供样例…...
离散制造 vs 流程制造:锚定精准制造未来,从装配线到化学反应,实时数据集成在制造业案例中的多维应用
使用 TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量替代 OGG, Kettle 等同步工具,以及基于 Kafka 的 ETL 解决方案,「CDC 流处理 数据集成」组合拳,加速仓内数据流转,帮助企业…...
教你一招:在微信小程序中为用户上传的图片添加时间水印
在微信小程序开发过程中,我们常常需要在图片上添加水印,以保护版权或增加个性化元素。本文将为大家介绍如何在微信小程序中为图片添加时间水印,让你的小程序更具特色。 实现步骤: 1. 创建页面结构 在pages目录下创建一个名为upl…...
MySQL --基本查询(上)
文章目录 1.Create1.1单行数据全列插入1.2多行数据指定列插入1.3插入否则更新1.4替换 2.Retrieve2.1 select列2.1.1全列查询2.1.2指定列查询2.1.3查询字段为表达式2.1.4 为查询结果指定别名2.1.5结果去重 2.2where 条件2.2.1英语不及格的同学及英语成绩 ( < 60 )2.2.2语文成…...
mysql学习教程,从入门到精通,SQL 删除数据(DELETE 语句)(19)
1、SQL 删除数据(DELETE 语句) 在SQL中,TRUNCATE TABLE 语句用于删除表中的所有行,但不删除表本身。这个操作通常比使用 DELETE 语句删除所有行要快,因为它不记录每一行的删除操作到事务日志中,而是直接重…...
从‘点接触’报错到成功划分:Fluent Meshing中四面体与多面体网格的实战选择指南
Fluent Meshing网格选择实战:从点接触报错到高效划分策略 当你在Fluent Meshing中遇到"点接触"导致的网格划分失败时,那种挫败感我深有体会。记得去年处理一个涡轮机冷却通道模型时,几个看似微不足道的点接触让整个项目停滞了两天。…...
如何完全掌握微信聊天数据:WeChatMsg免费工具的终极指南
如何完全掌握微信聊天数据:WeChatMsg免费工具的终极指南 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we/WeC…...
初创公司 0 代码上线 App:UXbot 全流程实战
非技术背景的初创公司创始人,可以使用 UXbot 这款 AI 无代码应用构建工具,在无需设计师和工程师介入的情况下,独立完成从产品需求描述到 Android APK 真机安装的完整链路。整个过程分为 5 个步骤,核心耗时约半天,输出物…...
ai开发ai:借助快马平台智能体辅助完成openclaw千问模型的深度配置与优化
最近在折腾OpenClaw配置千问模型的项目,发现整个过程特别适合用AI来辅助开发。这种"用AI开发AI应用"的循环特别有意思,今天就来分享下我的实践心得。 核心配置脚本的AI协作开发 配置OpenClaw最头疼的就是那些复杂的错误处理逻辑。我直接在In…...
如何用QPdf构建现代化Qt桌面PDF应用:技术实现与性能优化
如何用QPdf构建现代化Qt桌面PDF应用:技术实现与性能优化 【免费下载链接】qpdf PDF viewer widget for Qt 项目地址: https://gitcode.com/gh_mirrors/qpd/qpdf 在桌面应用开发中,PDF文档处理一直是技术难点。传统方案如QtPdf虽然稳定,…...
效率飙升:基于快马AI将繁琐cmd操作整合为自动化脚本工具
最近在开发过程中,经常需要重复执行一些系统维护和环境配置的cmd命令,每次都要手动输入或者查找历史记录,效率实在太低。于是我开始思考如何把这些零散的cmd命令整合成一个自动化工具,正好发现了InsCode(快马)平台这个神器&#x…...
3步拯救旧iPhone:LeetDown焕新工具让A6/A7设备重获新生
3步拯救旧iPhone:LeetDown焕新工具让A6/A7设备重获新生 【免费下载链接】LeetDown a GUI macOS Downgrade Tool for A6 and A7 iDevices 项目地址: https://gitcode.com/gh_mirrors/le/LeetDown LeetDown是一款专为macOS设计的图形化iOS设备降级工具…...
谷歌Gemma 4模型深度解析:开源王者来袭,单卡可跑,性能碾压20倍参数量对手
2026年4月2日,谷歌DeepMind悄然发布新一代开源大模型Gemma 4系列,瞬间引爆AI开源社区。作为谷歌迄今为止最智能的开放模型,Gemma 4不仅带来了覆盖手机到数据中心的全场景型号,更以Apache 2.0开源协议彻底放开限制,凭借…...
角谷猜想/考拉兹猜想:3N+1
角谷猜想的转化:一切自然数转化为形如3^n-1的自然数???作者: 3n1/3^n-1/GrainShell/谷壳(加壳/脱壳) 2026-04-02 角谷猜想,又叫3N1猜想,又叫collatz,谐…...
Excel-countif函数
使用countif对满足特定条件的单元格数进行计数。1.基本语法countif(range, criteria)1.range指定要检查的单元格区域2.criteria定义了计数条件,可以是数字、表达式、单元格引用或文本字符串2.典型用法1.如果A1和A10中的单元格大于100countif(A1:A10,">100&q…...
