当前位置: 首页 > news >正文

大模型时代下两种few shot高效文本分类方法

介绍近年(2022、2024)大语言模型盛行下的两篇文本分类相关的论文,适用场景为few shot。两种方法分别是setfit和fastfit,都提供了python的包使用方便。

论文1:Efficient Few-Shot Learning Without Prompts
题目:无需提示的高效少镜头学习
来源:huggingface 2022
文档:https://huggingface.co/docs/setfit/installation
python包:https://pypi.org/project/setfit/
github:https://github.com/huggingface/setfit/tree/main
论文:https://arxiv.org/pdf/2209.11055

摘要:
    解决few-shot的有效方法:PEFT、PET,存在的问题是需要人工构造prompts,并且需要大语言模型来提高精度。
    setfit:不需要prompt框架,使用sentence-transformers(ST)微调实现few-shot。
    setfit 的工作原理是首先在少量文本对上微调预训练的ST,以对比 Siamese 方式。然后使用生成的模型生成丰富的文本嵌入,用于训练分类头。

贡献:一种简单而无提示的方法——并提供了在实际少镜头设置中应用它的全面指南。
1.我们以 Siamese 的方式微调 ST 以进行文本分类目标,表明它显着提高了性能;
2.我们在少样本设置中演示了这种方法。

论文2:When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes
题目:大模型不适用时 使用fastfit:多类别下快速有效的文本分类方法
来源:IBM 2024
python包:https://pypi.org/project/fast-fit/
论文:https://arxiv.org/pdf/2404.12365
github:https://github.com/IBM/fastfit/tree/main

摘要:
    FastFit主要用于少镜头分类,尤其是有很多语义相似类别的场景
    方法:批对比学习+token级别的相似分数

现有挑战:少镜头+多类别+语义相似场景
    具体难点:扩展训练数据费时昂贵
    方法:调用大语言模型或者微调小语言模型
    1.利用大语言的多任务能力解决数据稀缺问题
        1.类别多的时候,LLM很难将所有类别都放进上下文窗口;
        2.类别放进了上下文窗口后,分类效果也是一个挑战;
        3.效果ok的话,长上下文和模型规模也会造成推理时间很慢。
    2.利用小语言模型对特定任务的适应性
        1.架构调整
        2.不适用于多类别的时候

本文的方法也是微调小语言模型的方法,能够提供3-20倍的加速。
具体方法:
    1.批对比学习
    2.token级别的相似分数
    3.文本增强方法

相关文章:

大模型时代下两种few shot高效文本分类方法

介绍近年(2022、2024)大语言模型盛行下的两篇文本分类相关的论文,适用场景为few shot。两种方法分别是setfit和fastfit,都提供了python的包使用方便。 论文1:Efficient Few-Shot Learning Without Prompts 题目:无需提示的高效少…...

Linux0.11 中全局描述符表(GDT)

在Linux内核中,全局描述符表(Global Descriptor Table,简称GDT)是一个关键的数据结构,主要用于管理处理器的内存段和相关的权限与属性。它属于x86架构中的保护模式特性,允许操作系统对内存访问进行更精细的…...

搜维尔科技:数据手套用于外固定虚拟现实模拟 、外固定增强现实模拟

数据手套用于外固定虚拟现实模拟、外固定增强现实模拟 搜维尔科技:数据手套用于外固定虚拟现实模拟、外固定增强现实模拟...

《三》菜单栏_工具栏_状态栏动作与实现

上期我们创建了辣么多的动作,那么这次我们要是开始实现这些动作,撸起袖子来吧: //菜单动作(ACtion)QAction *newAct;//新建QAction *openAct;//打开QAction *saveAct;//保存QAction *saveAsAct;//另存为QAction *prin…...

基于NTP服务器获取网络时间的实现

文章目录 1 NTP1.1 简介1.2 包结构1.3 UNIX 时间戳和NTP时间戳 2 代码实现2.1 实现步骤2.2 完整代码 3 结果 在某些场景下,单片机需要通过网络获取准确的时间进行数据同步,例如日志记录、定时任务等。然而,单片机本身无法直接获得准确的标准时…...

Web APIs(获取元素+操作元素+节点操作)

目录 1.API 和 Web API 2.DOM导读 DOM树 3.获取元素 getElementById获取元素 getElementsByTagName获取元素 H5新增方法获取 获取特殊元素 4.事件基础 执行事件 操作元素 修改表单属性 修改样式属性 使用className修改样式属性 获取属性的值 设置属性的值 移除…...

Android adb shell关于CPU核的命令

Android adb shell关于CPU核的命令 先使用命令: adb shell 进入控制台。 然后,直接在$后面输入下面命令,针对CPU的命令。 cat /proc/cpuinfo | grep ^processor | wc -l 查看当前手机的CPU是几核的。 cat sys/devices/system/cpu/online …...

基于springboot+mybatis+vue的项目实战之页面参数传递

如图所示&#xff0c;删除操作可以用按钮实现&#xff0c;也可以用超链接来实现。 1、第一种情况&#xff0c;用按钮实现。 html页面相关&#xff1a; <button type"button" click"deleteId(peot.id)">删除</button> <script>new Vue(…...

CSS-浮动

float (浮动) 作用&#xff1a;盒子的顶点是一样的&#xff0c;具备行内块的特征&#xff0c;能设置宽高 属性&#xff1a;float 属性值&#xff1a;left 浮动在网页左边 right 浮动在网页右边 .a{width: 100px;height: 100px;float:left;background-color: red;}.b…...

MFC:字符串处理

例子 //多字节char* szTest "abc多字节";int nLen strlen(szTest);//9//宽字节wchar_t* szTest2 L"abc多字节";int nlen2 wcslen(szTest2);//6//测试项目配置为Unicodewchar_t* szTesz3 TEXT("abcd");//char* -> CStringCString strTes…...

虚拟仿真云平台在教育应用中的优势和意义

虚拟仿真云实验教学平台作为一种新型的教学方法&#xff0c;近年来在高校教育中得到了十分广泛的应用。它通过模拟真实的实验场景和实验操作&#xff0c;让学生在计算机上进行实验操作和数据处理&#xff0c;为学生提供了更加便捷、可靠、有效的实验学习环境。本文&#xff0c;…...

CPU的的处理流程如何快速记忆

为了快速记忆CPU的处理流程&#xff0c;可以将其简化成五个主要阶段&#xff0c;通常称为“冯诺依曼架构”的五个基本步骤&#xff0c;或者是流水线处理的几个阶段。下面是一种便于记忆的简化版本&#xff1a; CPU处理流程的五个阶段&#xff1a; 取指令&#xff08;Instructi…...

AI视频教程下载:基于OpenAl、LangChain、 Replicate开发AI应用程序

欢迎来到令人兴奋的 AI 应用世界&#xff01;在这门课程中&#xff0c;你将学习到创建一个能够与用户互动、理解自然语言、处理音频输入&#xff0c;甚至分析图像的真正智能应用所需的技能和技术。 AI 工具和技术 你将获得使用几个知名 AI API 和技术的实际经验。这些行业领先…...

【C++】继承相关(基类与派生类的继承关系以及细节整理)

目录 00.引言 01.继承的定义 02.基类和派生类对象 03.继承中的作用域 04.派生类的默认成员函数 05.友元、静态成员 00.引言 继承是面向对象编程中的一个重要概念&#xff0c;它的作用是创建一个新的类&#xff0c;该类可以从一个已存在的类&#xff08;父类/基类&#x…...

【Web后端】监听器Listener

1、简介 用来监听Servlet组件对象状态发生变化的组件可以监听的源包括:ServetRequest、HttpSession、ServletContext当监听到事件源状态发生变化时&#xff0c;会有对应的响应行为 2、使用方法 在web.xml文件中配置 <listener> <listener-class>com.coder.util.…...

C/C++ 初级球球大作战练手

效果演示&#xff1a; https://live.csdn.net/v/385490 游戏初始化 #include <stdbool.h> #include<stdio.h> #include<stdlib.h> #include<time.h> #include<graphics.h> #include <algorithm> #include<math.h> #include<mmsy…...

ES6之字符串的扩展

字符串的扩展 关键的扩展点及其示例&#xff1a; Unicode 表示与处理 JavaScript 共有6种方法可以表示一个字符。codePointAtpos&#xff1a;String.fromCodePoint…codePoints&#xff1a; **字符串的遍历 for … of **字符串方法的增强 includessearchString[, position]&…...

微信小程序开发,构建NPM报错解决

报错信息如下&#xff1a; message&#xff1a; NPM packages not found. Please confirm npm packages which need to build are belong to miniprogramRoot directory. Or you may edit project.config.jsons packNpmManually and packNpmRelationList appid: wx7144a5d5411…...

【异常】SpringBoot整合RabbitMQ-发送消息报错

错误信息 reply-code406, reply-textPRECONDITION_FAILED - inequivalent arg ‘x-message-ttl’ for queue ‘hello-queue’ in vhost ‘/lq’: received none but current is the value ‘10000’ of type ‘signedint’, class-id50, method-id10 错误原因 hello-queue这…...

通过钉钉卡片进行工单审批

我们通常通过钉钉机器人来发送通知&#xff0c;提醒审批人名下有待办工单需要处理。这种通知方式仅能提醒审批人到ITSM中处理&#xff0c;审批人需要打开电脑登陆平台处理&#xff0c;我们就考虑是否能有一种方式能够满足移动端审批&#xff1f; 这里我们可以使用ITSM的移动端版…...

用 n8n 搭建自己的自动化工作流平台

用 n8n 搭建自己的自动化工作流平台分类&#xff1a;开源项目部署n8n 适合Webhook、邮件通知、表单处理和 API 自动化。这类主题真正跑起来并不难&#xff0c;难的是上线后稳定、可备份、能排错。本文按实操方式整理一套可以直接落地的流程&#xff0c;默认你已经会登录 Linux …...

抖音下载神器:免费批量下载抖音视频、图集、音乐和直播回放完整指南

抖音下载神器&#xff1a;免费批量下载抖音视频、图集、音乐和直播回放完整指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser f…...

智谱ZCube组网架构革新:不动硬件提升15%集群推理吞吐,行业转向“挖效率”

【导语&#xff1a;过去行业在算力军备竞赛中多靠买GPU、建集群堆算力&#xff0c;如今这一路径被重新审视。智谱公开ZCube组网架构&#xff0c;在不增加硬件的情况下提升了集群推理吞吐&#xff0c;同时OpenAI等发布MRC网络协议&#xff0c;行业正从“堆硬件”向“挖效率”转向…...

恩智浦eIQ Time Series Studio:嵌入式时间序列AI从数据到部署的自动化实践

1. 项目概述与核心价值如果你正在为嵌入式设备开发一个基于传感器数据的智能功能&#xff0c;比如通过振动信号判断电机是否故障&#xff0c;或者通过电流波形识别家电的工作模式&#xff0c;你大概率会面临一个经典困境&#xff1a;算法模型在PC上跑得好好的&#xff0c;一到资…...

对比直接购买,使用Taotoken的Token Plan套餐如何节省API成本

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 对比直接购买&#xff0c;使用Taotoken的Token Plan套餐如何节省API成本 1. 成本管理中的常见挑战 对于需要持续调用大模型API的开…...

2026年AI编程助手功能对比:主流工具横评

2026年AI编程助手功能对比&#xff1a;主流工具横评在2026年Q2的AI编程助手功能实测中&#xff0c;Trae以98%的代码生成准确率和全链路开发能力&#xff0c;成为功能覆盖最全面的国产工具。下面从核心功能、场景适配、价格等维度&#xff0c;横向对比6款主流AI编程助手&#xf…...

告别盲目复制粘贴:深度解析CW32固件库结构,让你的MDK工程更清晰

告别盲目复制粘贴&#xff1a;深度解析CW32固件库结构&#xff0c;让你的MDK工程更清晰 当你从官网下载CW32固件库压缩包并解压后&#xff0c;面对cw32f030-stdperiph-lib目录下密密麻麻的文件夹&#xff0c;是否感到无从下手&#xff1f;很多开发者习惯直接修改官方例程来开发…...

基于ARM核心板的BMS分层硬件方案:从BMU到BAMS的选型与实现

1. 项目概述&#xff1a;为什么BMS是储能系统的“大脑”与“保镖”在电化学储能系统这个庞大的“能量银行”里&#xff0c;电池模组是负责存钱的“金库”&#xff0c;储能变流器&#xff08;PCS&#xff09;是负责存取款和货币兑换的“柜台”&#xff0c;而电池管理系统&#x…...

MoE架构揭秘:逐Token路由与活跃参数量的工程真相

1. 项目概述&#xff1a;当“千亿参数”不再是个吓人的数字&#xff0c;而是一套精打细算的调度系统你肯定见过这类标题&#xff1a;“GPT-4拥有1.8万亿参数&#xff01;”——第一反应是震撼&#xff0c;第二反应是疑惑&#xff1a;我的显卡连加载一个7B模型都得开量化&#x…...

2026论文必藏降AIGC软件大曝光:一键压到安全线谁最稳

2026年的学术战场已经彻底变了天&#xff0c;论文不再是简单的知识输出&#xff0c;而是一场与AI检测系统的极限博弈。过去大家还在为查重率发愁&#xff0c;现在却集体陷入了更深层的焦虑——如何在不牺牲论文质量的前提下&#xff0c;把AIGC率压到最低&#xff1f;随着AI检测…...