当前位置: 首页 > article >正文

一个简单到尴尬却有效的SFT实验

卷友们好我是rumor。上周Apple有篇论文做了一个简单到有点尴尬的实验从模型自己采样一批代码答案不过滤对错不执行验证直接拿去SFT。结果Qwen3-30B在LiveCodeBench v6上pass1从42.4%涨到55.3%相对提升30%。其他不同模型上也有一定增长。论文名叫Embarrassingly Simple Self-Distillation作者自己也觉得这件事不应该有效——但它就是有效了。Simple Self-DistillationSimple Self-DistillationSSD的方法很简单只有三步从当前模型用高温T_train约1.0-2.0采样N个答案全部打包成训练数据不管对错标准cross-entropy SFT没有verifier没有reward没有teacher模型没有任何正确性判断。压力测试T_train调到2.0采出来62%是乱码没有可提取的代码。用这堆垃圾数据训完pass1还是涨了5.7个百分点。这说明SFT学到的不是什么是正确答案而是别的东西。SSD跑出结果后作者做了一个对照实验直接在推理时用高温采样decode-only不做任何训练passk会不会也涨答案是不会。高温推理无法复现SSD的效果。这说明关键变化发生在训练里——SFT之后模型权重本身变了这个变化不能靠调推理参数来模拟。那训练改了什么问题的根源作者提出的假设从LLM生成过程的一个基本矛盾出发。写代码时不同位置的token面临完全不同的情形。有些位置几乎没有选择。写完def quicksort(arr):之后下一行结构几乎固定已经决定递归函数名只有quicksort。这类位置的分布是尖的——一个token占绝大多数剩下是干扰噪声。论文叫它Lock位置。有些位置有很多合法选择。Partition的具体实现、边界条件有多种合法写法。这类位置的分布是平的——几个token概率差不多走哪条都行。论文叫它Fork位置。矛盾在于温度是全局参数没法对两类位置分别处理。温度低→Lock干净但Fork被压扁pass5失去意义温度高→Fork有多样性但Lock的干扰噪声跑回来输出质量下降这就是precision-exploration conflict精确-探索冲突。SSD在做什么SSD不知道哪些是Lock位置、哪些是Fork位置但它和推理时的截断top-k/p配合对两类位置产生了不同的效果。SSD训练的核心作用是帮Fork位置。用高温采样的数据做SFT相当于让模型去拟合一个更均匀的分布——在Fork位置多条合法路径的概率变得更接近多样性被写进模型权重。这样推理时即使用正常温度Fork位置的探索空间也比训练前更大。这叫within-support reshaping支持集内重塑。Lock位置的改善主要来自推理时的截断。top-k/p把概率最低的那些token砍掉support compression支持集压缩Lock位置的干扰噪声本来就在分布尾部这一刀直接切掉了它们。这个操作和SSD训练无关——有截断就有这个效果。两件事各司其职训练给Fork多样性截断给Lock精确性。这解释了为什么decode-only不行推理时用高温确实给了Fork多样性但同时在Lock位置放大了干扰没有东西纠正它。SSD的做法是把Fork的多样性烧进权重推理时用正常温度截断Lock干净Fork也有多样性。为了验证假说作者搭了一个最小化的受控环境模型必须先通过一个Fork状态多条合法路径再连续通过三个Lock状态只有一个正确选择才算成功。SSD之前低温能过Lock但卡在Fork高温能过Fork但在Lock出错——两全其美的温度不存在。SSD训练之后可行的温度区间变宽了成功率提升。实验效果从实验结果可以看到Hard题涨幅 Easy题Qwen3-30B-InstructHard 15.3pp vs Easy 6.5pp。Hard题有更多Fork位置算法决策点多SSD的多样性提升在这里更显著。pass5涨幅 pass130B-Instructpass5 18.1pp vs pass1 12.9pp。SSD没有让模型坍缩到单一输出它真的在扩展探索空间。跨模型泛化Llama-3.1-8B 3.5ppQwen3-4B 7.5ppQwen3-30B 12.9ppThinking版本也有提升。不是某个模型的特化。Thinking模型涨幅较小Qwen3-30B-Instruct 12.9pp而Qwen3-30B-Thinking只涨了2.1pp。论文没有解释这个现象但从机制上比较好理解Thinking模型已经在用另一种方式解决Fork问题了——它把探索过程写进reasoning chain在thinking tokens里显式地试不同路径最终答案生成时大部分已经是Lock位置。SSD要优化的Fork多样性Thinking模型通过CoT链已经内化了所以边际收益更小。反过来这也支持了SSD的机制假说如果涨幅真的来自Fork多样性提升那本来就有显式探索能力的Thinking模型涨得少是预期行为。关于除了代码外其他领域的效果其他任务的影响与模型大小有关作者将编程领域SSD后的模型在数学推理、通用代码生成和代码理解上做了测试结论是30B模型性能大致稳定小模型4B/8B则出现退化Llama-3.1-8B在AIME上几乎归零原因是格式问题——SSD让它倾向输出code block而非最终数字答案。。数学等其他领域还没验证其他领域的SSD尚未验证。总结看完这篇论文再次感叹深度学习的博大精深难道之前没人发现这个问题吗其实之前大家很少用这么高的temperate直觉上看到那些数据就觉得不行。所以即使之前有很多self-training的工作他们通过低温度采样到的样本也不一定能对fork有较大提升。高温采样不筛选这个组合此前没有被系统测试过。再进一步思考SFT到底在优化什么SSD把SFT的优化目标劈成了两半学什么是对的和学哪里该探索、哪里该锁定。后者不需要正确答案高温乱码也能提供。当前数据军备竞赛里大量的标注和执行验证是在为第一件事付钱却把第二件事当成了理所当然的附赠。这两件事是可以分开的而且其中一件便宜很多。我是朋克又极客的AI算法小姐姐rumor北航本硕大模型算法工程师谷歌开发者专家欢迎关注我带你学习带你肝一起在人工智能时代旋转跳跃眨巴眼「尴尬的实验值得尴尬的赞」

相关文章:

一个简单到尴尬却有效的SFT实验

卷友们好,我是rumor。上周Apple有篇论文做了一个简单到有点尴尬的实验:从模型自己采样一批代码答案,不过滤对错,不执行验证,直接拿去SFT。结果Qwen3-30B在LiveCodeBench v6上,pass1从42.4%涨到55.3%&#x…...

基恩士VL扫描仪:高效检测场景的适配之选

一、引言企业选购3D扫描仪时,“哪个品牌性价比高”是核心决策难题。性价比并非单纯看价格高低,而是精度、效率、操作成本与长期服务的综合平衡,这也是企业筛选3D扫描仪品牌的核心评判维度。当前制造业检测流程优化需求迫切,接触式…...

3个核心突破:科研工作者的文献获取难题终极解决方案

3个核心突破:科研工作者的文献获取难题终极解决方案 【免费下载链接】zotero-scipdf Download PDF from Sci-Hub automatically For Zotero7 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-scipdf 作为科研工作者,你是否经常遇到这些困扰&…...

Uber成为亚马逊AI芯片最新拥趸,云服务竞争白热化

周二,亚马逊宣布Uber扩大其AWS云服务合约,将更多打车功能迁移到亚马逊芯片上运行。Uber将特别扩大对AWS Graviton芯片(低功耗ARM架构服务器CPU)的使用,并开始试用Trainium3——AWS对标英伟达的AI芯片。这项合作与其说是…...

ChatGLM3-6B-128K实战案例:Ollama中构建政府政策文件智能解读与条款匹配

ChatGLM3-6B-128K实战案例:Ollama中构建政府政策文件智能解读与条款匹配 1. 项目背景与需求场景 在日常工作中,我们经常需要处理大量的政策文件、法规条文和规范性文档。这些文件往往篇幅冗长、条款复杂,人工阅读和理解需要耗费大量时间和精…...

使用Anaconda配置清华镜像源加速PyTorch安装

1. 为什么需要配置清华镜像源? 如果你在国内使用Anaconda安装PyTorch,可能会遇到下载速度慢、安装失败的问题。这主要是因为PyTorch的默认下载源位于国外服务器,网络传输距离远,再加上某些网络限制,导致下载速度很不理…...

3种高效方法:快速部署BetterNCM插件管理器

3种高效方法:快速部署BetterNCM插件管理器 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer BetterNCM-Installer是一款专为网易云音乐客户端设计的插件管理器,提…...

Qwen2.5-7B新手部署:如何用最简单的方法运行阿里大模型

Qwen2.5-7B新手部署:如何用最简单的方法运行阿里大模型 1. 引言 Qwen2.5-7B是阿里云最新开源的大语言模型,相比前代版本在知识量、编程能力和数学能力等方面都有显著提升。对于想要体验这款强大AI模型的新手来说,部署过程可能会显得有些复杂…...

颠覆式效率革命:Krita智能选区插件重新定义图像分割工作流

颠覆式效率革命:Krita智能选区插件重新定义图像分割工作流 【免费下载链接】krita-vision-tools Krita plugin which adds selection tools to mask objects with a single click, or by drawing a bounding box. 项目地址: https://gitcode.com/gh_mirrors/kr/kr…...

Skill vs App:一场入口范式的争夺

田晏林 发自 凹非寺量子位 | 公众号 QbitAI中关村科学城国际创新服务集聚区的会议室,座无虚席。原定2点开始的沙龙活动,不少观众提前一个小时就到场。他们大多是从业多年的产品经理、创业者,也有大学生和刚入行的年轻人。OpenClaw带来的连锁反…...

暗黑破坏神2终极单机增强插件:PlugY完全指南,三步搞定无限仓库与技能重置

暗黑破坏神2终极单机增强插件:PlugY完全指南,三步搞定无限仓库与技能重置 【免费下载链接】PlugY PlugY, The Survival Kit - Plug-in for Diablo II Lord of Destruction 项目地址: https://gitcode.com/gh_mirrors/pl/PlugY 你是否曾经在暗黑破…...

Java的运行时数据区

Java虚拟机在执行Java程序时会把它所管辖的内存划分为若干个区域,这些区域各有用途,生命周期也各自不同。1、程序计数器。是每条线程都有的一小块私有区域。在程序执行时,一个CPU内核内只能有一条线程执行,不会有多条线程并行执行…...

如何用OpenCore Legacy Patcher让旧Mac焕发新生?3个核心技巧揭秘

如何用OpenCore Legacy Patcher让旧Mac焕发新生?3个核心技巧揭秘 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你的旧Mac还在跑着过时的macOS版…...

镭神智能C32激光雷达实战:从开箱到点云可视化全流程解析

1. 开箱与硬件连接 第一次拿到镭神智能C32激光雷达时,包装箱里会有这些关键部件:雷达主机、电源适配器、网线、HDMI线(可选)和说明书。我建议先找个宽敞的工作台,把所有配件摊开检查一遍,避免遗漏。 连接步…...

技术揭秘:SMUDebugTool如何实现AMD Ryzen处理器的深度硬件调试

技术揭秘:SMUDebugTool如何实现AMD Ryzen处理器的深度硬件调试 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: ht…...

OpenClaw多模型对比:千问3.5-9B与其他开源模型性能实测

OpenClaw多模型对比:千问3.5-9B与其他开源模型性能实测 1. 为什么需要多模型对比 去年冬天,当我第一次在本地部署OpenClaw时,最让我头疼的问题不是安装配置,而是选择哪个大模型作为后端。官方文档列出了十几种兼容模型&#xff…...

如何让经典魔兽争霸在现代系统重生?WarcraftHelper兼容性解决方案全解析

如何让经典魔兽争霸在现代系统重生?WarcraftHelper兼容性解决方案全解析 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 当你在Windows 11…...

网易云音乐永久直链解析API完整指南:高效获取稳定音乐链接

网易云音乐永久直链解析API完整指南:高效获取稳定音乐链接 【免费下载链接】netease-cloud-music-api 网易云音乐直链解析 API 项目地址: https://gitcode.com/gh_mirrors/ne/netease-cloud-music-api 还在为网易云音乐分享链接频繁失效而烦恼吗?…...

Qwen3.5-4B-Claude-Opus-GGUF智能助手:产品需求文档结构化分析与PRD撰写辅助

Qwen3.5-4B-Claude-Opus-GGUF智能助手:产品需求文档结构化分析与PRD撰写辅助 1. 产品需求文档撰写的挑战与解决方案 产品需求文档(PRD)是产品开发过程中至关重要的文件,它定义了产品的功能、特性和行为。然而,撰写高质量的PRD往往面临以下挑…...

如何用MTKClient解决联发科设备变砖问题:从入门到精通的全流程高效实战指南

如何用MTKClient解决联发科设备变砖问题:从入门到精通的全流程高效实战指南 【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient MTKClient是一款专注于联发科(MTK&#…...

小白必看!Qwen-Image-2512-SDNQ Web服务完整使用指南,附常见问题解决

小白必看!Qwen-Image-2512-SDNQ Web服务完整使用指南,附常见问题解决 1. 从零开始:认识你的AI画师 Qwen-Image-2512-SDNQ是一款强大的图片生成模型,现在通过Web服务的形式让每个人都能轻松使用。想象一下,你只需要在…...

海康工业相机LabVIEW二次开发实战——参数配置优化与图像高效存储

1. 海康工业相机与LabVIEW开发环境搭建 第一次接触海康工业相机时,我也被它丰富的功能接口和复杂的参数体系搞得晕头转向。但实际用LabVIEW开发后发现,只要掌握几个关键点,就能快速上手。海康官方提供的MVS客户端是个好东西,安装后…...

DamaiHelper抢票神器:从原理到实战的智能抢票全攻略

DamaiHelper抢票神器:从原理到实战的智能抢票全攻略 【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。 项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper DamaiHelper是一款基于Python开发的大麦网自动化抢票工具,通过智能模拟…...

Qwen3-14B镜像部署案例:汽车4S店智能顾问系统客户问答落地

Qwen3-14B镜像部署案例:汽车4S店智能顾问系统客户问答落地 1. 项目背景与需求分析 在汽车销售与服务行业,4S店每天需要处理大量客户咨询,包括车型参数、购车政策、维修保养等各类问题。传统客服模式面临三大痛点: 人力成本高&a…...

中兴光猫终极管理工具:zteOnu工厂模式与Telnet一键开启指南

中兴光猫终极管理工具:zteOnu工厂模式与Telnet一键开启指南 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu zteOnu是一款专为中兴光猫设备设计的强大管理工具,能…...

3步解决地理数据处理难题:面向多角色的开源工具Mapshaper

3步解决地理数据处理难题:面向多角色的开源工具Mapshaper 【免费下载链接】mapshaper Tools for editing Shapefile, GeoJSON, TopoJSON and CSV files 项目地址: https://gitcode.com/gh_mirrors/ma/mapshaper 在当今数据驱动的时代,地理信息的价…...

Xilinx Video IP(二)AXI4-Stream视频数据流与FIFO深度优化

1. AXI4-Stream视频数据流基础 第一次接触Xilinx的Video IP时,很多人会被AXI4-Stream接口搞得一头雾水。其实把它想象成一条传送带就很好理解了——视频数据就像流水线上的包裹,按照固定节奏从源头运送到目的地。这条"传送带"有几个关键特性&a…...

FLUX.1-dev像素生成器参数详解:如何通过Scale控制LoRA模组强度

FLUX.1-dev像素生成器参数详解:如何通过Scale控制LoRA模组强度 1. 认识像素幻梦的LoRA模组系统 像素幻梦(Pixel Dream Workshop)作为基于FLUX.1-dev的像素艺术生成终端,其核心优势在于灵活的LoRA模组系统。LoRA(Low-Rank Adaptation)技术允许我们在不改…...

Lenovo Legion Toolkit革新:全场景精准调控拯救者笔记本性能

Lenovo Legion Toolkit革新:全场景精准调控拯救者笔记本性能 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit Len…...

KMS_VL_ALL_AIO开源激活工具:批量授权管理与本地服务部署的高效解决方案

KMS_VL_ALL_AIO开源激活工具:批量授权管理与本地服务部署的高效解决方案 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO KMS_VL_ALL_AIO 是一款智能开源激活工具,专为解决…...