当前位置: 首页 > article >正文

【LLM】kimi 1.5模型架构和训练流程

note

  • 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。

文章目录

  • note
  • 一、kimi 1.5模型训练流程
    • 预训练
    • SFT训练
    • long-CoT SFT
    • RL训练
    • long2short
  • 小结
  • Reference

一、kimi 1.5模型训练流程

推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。
在这里插入图片描述

预训练

语言数据涵盖五个领域:英语、中文、代码、数学推理和知识。多模态数据,包括图像描述、图文交错[^1]、OCR数据、知识以及问答数据集,使我们的模型能够获得视觉 - 语言能力。严格的质量控制确保了整个预训练数据集的相关性、多样性和平衡性。

SFT训练

100w文本sft数据(任务具体分布见图)和100w多模态sft数据(没说具体分布,光列任务),通过一些 infra 的优化,先训 32k,再训 128k。

  • 非推理任务:包括问答、写作和文本处理,首先通过人工标注构建了一个种子数据集。这个种子数据集用于训练一个种子模型。随后,收集了各种prompt,并使用种子模型为每个提示生成多个响应。标注者随后对这些响应进行排名,并优化排名最高的响应以产生最终版本。
  • 对于数学和编码等推理任务,基于规则和基于奖励建模的验证比人工判断更准确、更高效,使用拒绝采样来扩展SFT数据集。

普通SFT数据集包含大约100万文本数据,50万一般问答,20万编码,20万数学和科学,5千创意写作,2万长上下文任务,如总结、文档问答、翻译和写作。此外,构建了100万文本视觉数据,涵盖各种类别,包括图表解读、OCR、图像引导的对话、视觉编码、视觉推理以及带有视觉辅助的数学/科学问题。 我们首先在32k token的序列长度下训练模型1个epoch,然后在128k token的序列长度下再训练1个epoch。在第一阶段(32k),学习率从 2×10−5 衰减到 2×10−6,然后在第二阶段(128k)重新升温到 1×10−5,最后衰减到 1×10−6。为了提高训练效率,将多条训练数据 packing 到每个单独的训练序列中。

long-CoT SFT

从 RL prompt 集合里采 prompt,通过提示工程构建了一个小而高质量的 long-CoT warmup 数据集,包含文本和图像输入的经过准确验证的推理路径。

生成的 warmup 数据集旨在封装人类推理的基本认知过程,如:

规划(模型在执行前系统地概述步骤)
评估(对中间步骤进行批判性评估)
反思(使模型重新考虑并完善其方法)
探索(鼓励考虑替代解决方案)

RL训练

和 deepseek 类似,也是用了 on-policy 的强化学习策略(不过不是GRPO,而是在线策略镜像下降的变体)。kimi 在设计奖励函数时引入长度惩罚来缓解模型“过度思考”,主打一个引导模型产生短思考且结果正确的回答。

在这里插入图片描述

long2short

包括权重平均、拒绝采样和SFT、强化学习训练等一套流程,使用 long-CoT 模型来提升 short-CoT 模型能力。

模型融合。这里说的是权重融合,long/short 模型的权重直接融合。这种在业界已经用的很多了,可以在业务中尝试起来,而且不用训练。

  • 最短拒绝采样。一次生成 x 条样本,把最短的那条选出来,前提是结果要对。
  • 长短样本的 DPO。和上面类似(一条正样本),这里是构建的是正负 pair 样本(两条样本),短而正确的作为正样本,错误的是负样本或者1.5长于短样本的作为负样本。
  • long2short强化学习。在一阶段 RL 之后,使用长度惩罚来减少模型生成的长度。

小结

Test-time scaling + RL 或许是接下来要重点聚焦的大模型技术了

Reference

[1] Kimi k1.5 的技术报告:https://arxiv.org/abs/2501.12599
[2]《自顶向下方式深度解读 DeepSeek-R1》:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.html
[3]知乎大佬木尧:https://www.zhihu.com/people/muyaostudio,一张图速通 Kimi-k1.5 论文
[4]DeepSeek-R1 coldstart 数据:https://bruceyuan.com/post/deepseek-r1-paper-reading-notes.htmlChao
[6]bilibili:https://space.bilibili.com/12420432
[7]YouTube:https://www.youtube.com/@bbruceyuan
[8] 细节之王 Kimi K1.5,大模型算法工程师复现推理模型必读文章之一
[9] Kimi k1.5 背后的长长长长长思考

相关文章:

【LLM】kimi 1.5模型架构和训练流程

note 推出两个多模态模型,深度思考模型 long-CoT 对标 o1,通用模型 short-CoT 模型对标 gpt-4o。 文章目录 note一、kimi 1.5模型训练流程预训练SFT训练long-CoT SFTRL训练long2short 小结Reference 一、kimi 1.5模型训练流程 推出两个多模态模型&…...

deepseek在pycharm中的配置和简单应用

对于最常用的调试python脚本开发环境pycharm,如何接入deepseek是我们窥探ai代码编写的第一步,熟悉起来总没坏处。 1、官网安装pycharm社区版(免费),如果需要安装专业版,需要另外找破解码。 2、安装Ollama…...

第二十四天 学习分布式数据管理,了解如何在多个设备间共享数据

HarmonyOS分布式数据管理实战:轻松实现多设备数据共享 一、为什么需要分布式数据管理? 在万物互联的时代,我们的智能设备数量正在快速增长。根据IDC最新报告,2023年平均每个用户拥有6.2台智能设备。HarmonyOS的分布式能力正是为…...

Android15 Camera框架中的StatusTracker

StatusTracker介绍 StatusTracker是Android15 Camera框架中用来协调Camera3各组件之间状态转换的类。 StatusTracker线程名:std::string("C3Dev-") mId "-Status" Camera3 StatusTracker工作原理 StatusTracker实现批处理(状态…...

MyBatis-Plus 注解大全

精心整理了最新的面试资料和简历模板,有需要的可以自行获取 点击前往百度网盘获取 点击前往夸克网盘获取 MyBatis-Plus 注解大全 MyBatis-Plus 是基于 MyBatis 的增强工具,通过注解简化了单表 CRUD 操作和复杂查询的配置。以下是常用注解的分类及详细说…...

【MySQL_03】数据库基本--核心概念

文章目录 一、数据库基础1.1 数据库基础定义1.2 数据库分类与典型产品1.3 数据库模型1.4 数据库层次结构1.5 数据库核心机制1.6 数据表和视图1.61 数据表(Table)1.62 视图(View) 1.7 键类型1.8 MySQL数据类型1.9 数据库范式化 二、…...

Ubuntu 下 nginx-1.24.0 源码分析 (1)

main 函数在 src\core\nginx.c int ngx_cdecl main(int argc, char *const *argv) {ngx_buf_t *b;ngx_log_t *log;ngx_uint_t i;ngx_cycle_t *cycle, init_cycle;ngx_conf_dump_t *cd;ngx_core_conf_t *ccf;ngx_debug_init(); 进入 main 函数 最…...

边缘计算盒子:解决交通拥堵的智能方案

在当今的智能交通系统中,边缘计算盒子(Edge Computing Box)正逐渐成为不可或缺的核心组件。这种设备通过将计算能力下沉到网络边缘,极大地提升了数据处理的速度和效率,特别适用于实时性要求极高的交通监控场景。本文将…...

工程化与框架系列(22)--前端性能优化(中)

前端性能优化(运行) 🏃 引言 运行时性能直接影响用户交互体验和应用流畅度。本文将深入探讨前端运行时性能优化的各种策略和技术,包括渲染优化、内存管理、计算优化等关键主题,帮助开发者构建高性能的Web应用。 运行…...

API调试工具的无解困境:白名单、动态IP与平台设计问题

引言 你是否曾经在开发中遇到过这样的尴尬情形:你打开了平台的API调试工具,准备一番操作,结果却发现根本无法连接到平台?别急,问题出在调试工具本身。今天我们要吐槽的就是那些神奇的开放平台API调试工具,…...

C#模拟鼠标点击,模拟鼠标双击,模拟鼠标恒定速度移动,可以看到轨迹

C#模拟鼠标点击,模拟鼠标双击,模拟鼠标恒定速度移动,可以看到轨迹 using System; using System.Collections.Generic; using System.Linq; using System.Runtime.InteropServices; using System.Text; using System.Threading.Tasks;namespa…...

php虚拟站点提示No input file specified时的问题及权限处理方法

访问站点,提示如下 No input file specified. 可能是文件权限有问题,也可能是“.user.ini”文件路径没有配置对,最简单的办法就是直接将它删除掉,还有就是将它设置正确 #配置成自己服务器上正确的路径 open_basedir/mnt/qiy/te…...

RISC-V汇编学习(三)—— RV指令集

有了前两节对于RISC-V汇编、寄存器、汇编语法等的认识,本节开始介绍RISC-V指令集和伪指令。 前面说了RISC-V的模块化特点,是以RV32I为作为ISA的核心模块,其他都是要基于此为基础,可以这样认为:RISC-V ISA 基本整数指…...

java 重点知识 — JVM存储模块与类加载器

1 jvm主要模块 方法区 存储了由类加载器从.class文件中解析的类的元数据(类型信息、域信息、方法信息)及运行时常量池(引用符号及字面量)。 所有线程共享;内存不要求连续,可扩展,可能发生垃圾回…...

WPF有哪些使用率高的框架

架构类库 Community Toolkit MVVMMVVM Light UI类库 MahApps.MetroMaterial Design In XAML Toolkit 图标类库 MahApps.Metro.IconPacks...

idea中使用DeepSeek让编程更加便捷

IDEA中使用DeepSeek让编程更加便捷 对于开发者来说,IDEA(IntelliJ IDEA)是一款强大的开发工具。但你是否知道,通过安装DeepSeek这款插件,可以让你的编程体验更上一层楼?今天,我们就来聊聊如何在…...

创建Electron35 + vue3 + electron-builder项目,有很过坑,记录过程

环境: node v20.18.0 npm 11.1.0 用到的所有依赖: "dependencies": {"core-js": "^3.8.3","vue": "^3.2.13","vue-router": "^4.5.0"},"devDependencies": {"ba…...

elasticsearch是哪家的

Elasticsearch:数据搜索与分析的领航者 在当今这个信息爆炸的时代,快速且准确地处理海量数据成为了众多企业和组织追求的目标。而Elasticsearch正是在这个背景下脱颖而出的一款强大的开源搜索引擎。它是由位于美国加利福尼亚州的Elastic公司所开发和维护…...

nginx基础http基础

目录 nginx简介正向代理&反向代理正向代理反向代理What Is a Reverse Proxy Server? High-Performance Load Balancing (负载均衡)Problem(问题)Solution(解决方案)常见负载均衡算法Round Robin(轮询)…...

5. MySQL 存储引擎(详解说明)

5. MySQL 存储引擎(详解说明) 文章目录 5. MySQL 存储引擎(详解说明)1. 查看存储引擎2. 设置系统默认的存储引擎3. 设置表的存储引擎3.1 创建表时指定存储引擎3.2 修改表的存储引擎 4. 引擎介绍4.1 InnoDB 引擎:具备外键支持功能的事务存储引擎4.2 MyISAM 引擎&…...

基于LabVIEW的伺服阀高频振动测试闭环控制系统

为实现伺服阀在设定位置上下快速移动(1kHz控制频率)的振动测试目标,需构建基于LabVIEW的闭环控制系统。系统需满足高速数据采集、实时控制算法(如PID或自适应控制)、高精度电流驱动及传感器反馈处理等需求。结合用户提…...

97.在 Vue 3 中使用 OpenLayers 根据两行根数 (TLE) 计算并显示卫星轨迹(EPSG:3857)

前言 在许多卫星应用场景中,我们需要 基于 TLE(Two-Line Element Set, 两行根数)计算卫星轨迹,并在地图上进行可视化。本文将使用 Vue 3 OpenLayers satellite.js,实现 实时计算卫星轨迹,并在地图上动态更…...

Android Coil总结

文章目录 Android Coil总结概述添加依赖用法基本用法占位图变形自定义ImageLoader取消加载协程支持缓存清除缓存监听 简单封装 Android Coil总结 概述 Coil 是一个用于 Android 的 Kotlin 图像加载库,旨在简化图像加载和显示的过程。它基于 Kotlin 协程&#xff0…...

fastjson漏洞#不出网#原理#流量特征

原理 本质是java的反序列化漏洞,由于引进了自动检测类型的(autotype)功能,fastjson在对json字符串反序列化的时候,会读取type内容,会试图将json内容反序列化成这个对象,并调用这个类的setter方…...

云计算:虚拟化、容器化与云存储技术详解

在上一篇中,我们深入探讨了网络安全的核心技术,包括加密、认证和防火墙,并通过实际案例和细节帮助读者全面理解这些技术的应用和重要性。今天,我们将转向一个近年来迅速发展的领域——云计算。云计算通过提供按需访问的计算资源,彻底改变了IT基础设施的构建和管理方式。本…...

使用 marked.min.js 实现 Markdown 编辑器 —— 我的博客后台选择之旅

最近,我决定为个人博客后台换一个编辑器。之前的富文本编辑器虽然功能齐全,但生成的 HTML 代码繁杂,维护起来非常麻烦。为了追求更简洁高效的写作体验,我开始研究 Markdown 编辑器,并最终选择了 marked.min.js。 1. 传…...

Linux系统基于ARM平台的LVGL移植

软硬件介绍:Ubuntu 20.04 ARM 和(Cortex-A53架构)开发板 基本原理 LVGL图形库是支持使用Linux系统的Framebuffer帧缓冲设备实现的,如果想要实现在ARM开发板上运行LVGL图形库,那么就需要把LVGL图形库提供的关于帧缓冲设…...

LeetCode 2070.每一个查询的最大美丽值:排序 + 二分查找

【LetMeFly】2070.每一个查询的最大美丽值:排序 二分查找 力扣题目链接:https://leetcode.cn/problems/most-beautiful-item-for-each-query/ 给你一个二维整数数组 items ,其中 items[i] [pricei, beautyi] 分别表示每一个物品的 价格 和…...

电力场景绝缘子缺陷分割数据集labelme格式1585张4类别

数据集格式:labelme格式(不包含mask文件,仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):1585 标注数量(json文件个数):1585 标注类别数:4 标注类别名称:["broken part","broken insulat…...

【计算机网络】深入解析 HTTP 协议的概念、工作原理和通过 Fiddler 抓包查看 HTTP 请求/响应的协议格式

网络原理— HTTP 1. 什么是HTTP? HTTP(全称为"超文本传输协议")是一种应用非常广泛的应用层协议: HTTP 往往是基于传输层的 TCP 协议实现的 (HTTP1.0,HTTP1.1,HTTP2.0 均为TCP,HTTP3基于UDP实现) 我们平时打开一个网站,就是通过HTTP协议来…...