当前位置：首页 > article >正文

Qwen3 技术报告解读一

article 2026/2/8 4:41:42

📘 Qwen3 技术报告解读：通义千问系列新成员的技术亮点与能力分析

一、论文写了什么？

本文来自阿里通义实验室发布的 《Qwen3 Technical Report》，介绍了其最新一代大语言模型 Qwen3 的技术架构、训练方法以及在多个关键任务上的性能表现。Qwen3 是继 Qwen2.5 后的又一次全面升级，涵盖从 0.6B 到 235B 参数的不同版本，支持多种任务类型，包括自然语言理解、数学推理、代码生成、多语言处理等。

✅ 关键词：大规模语言模型、MoE 架构、强化学习（RL）、思维链（CoT）、多语言支持、长上下文扩展

二、论文主要的工作做了什么内容？

1. 提出新一代 Qwen3 模型架构

Qwen3 包括两种类型的模型：

Dense 模型：适用于小规模部署或边缘设备
Mixture-of-Experts（MoE）模型：通过专家路由机制实现高效计算，适合大规模服务部署

参数范围从 0.6B 到 235B，满足不同场景下的需求。

2. 设计了 Thinking Mode Fusion 等创新训练策略

作者引入了三种训练阶段来提升模型能力：

（1）Pretraining（预训练）

使用高质量、多样化的数据集进行基础语言建模。
强调数据质量与多样性，为后续训练打下坚实基础。

（2）Supervised Fine-tuning（监督微调）

在多个领域构建了高质量指令跟随数据集（如 Math、Code、Agent、Reasoning）。
提升模型对用户意图的理解与响应准确性。

（3）Reinforcement Learning（强化学习）

建立覆盖 20+ 任务类别 的奖励系统，定制评分标准。
特别强调推理能力、稳定性与安全性优化。
结合 Rule-based Reward 和 Model-based Reward with Reference Answer，引导模型生成更合理、可解释的内容。

3. 评估结果验证了 Qwen3 的强大能力

作者在多个基准测试中对 Qwen3 进行了全面评估，包括：

通用能力：MMLU、BBH、GSM8K、AIME、ZebraLogic、AutoLogi
编码与 Agent 能力：BFCLv3、LiveCodeBench、Codeforces
多语言能力：Multi-IF、INCLUDE、MMMLU、MT-AIME、PolyMath、MlogiQA

实验结果显示，Qwen3 在多个任务上显著优于现有开源模型，甚至接近或超越部分闭源模型。

三、论文取得了哪些进展？

任务	提升效果
数学推理（AIME’24）	Qwen3-235B 达到 76.0%，远超 Qwen2.5
编程能力（LiveCodeBench）	相比基线模型提升约 30%~50%
多语言理解（INCLUDE）	Qwen3-235B 达到 67.8 分，表现优异
长文本处理	支持上下文长度扩展，适配复杂推理
推理泛化能力	在 ZebraLogic、AutoLogi 上表现突出

此外，Qwen3 在中文理解和生成方面也进行了重点优化，推出了一系列中文专用模型（如 Qwen3-1.7B、Qwen3-0.6B），进一步提升了在中国本地化任务中的表现。

四、论文里面有哪些新颖的技术？

1. Thinking Mode Fusion（思维模式融合）

允许模型在不同推理模式间切换（如 CoT、Chain-of-Thought、Direct Answer）
不需要显式提示即可自动选择合适的推理路径
提高回答准确率与逻辑性

2. 基于规则与参考答案的双奖励机制

Rule-based Reward：用于指导格式、推理步骤、任务规范等
Model-based Reward：使用参考答案作为 Ground Truth 来打分
二者结合防止“奖励作弊”（Reward Hacking）

3. 多任务 RL 训练框架

设计了面向不同应用场景的 RL 任务，如：
- 检索增强生成（RAG）
- Agent-Based Tasks
- 逻辑推理任务
通过环境反馈让模型学会长期决策与自我修正

4. 高效的 MoE 架构设计

采用 Mixture-of-Experts 架构，在保证性能的同时控制推理成本
支持动态专家选择机制，提升资源利用率

5. 长上下文扩展与压缩机制

支持 extremely long context 的训练与推理
提出 Pre-RMSNorm、CRMSNorm 等新型归一化层，提升训练效率

五、总结

Qwen3 是当前最值得期待的大语言模型之一，它不仅在模型规模、训练方法、任务覆盖面上都实现了突破，还在以下方向表现出色：

方向	表现
数学与逻辑推理	显著优于多数开源模型
多语言支持	支持 55 种语言
代码与 Agent 能力	在 LiveCodeBench、BFCL 上领先
可控性与可解释性	强化学习 + 规则奖励机制提升输出质量

未来，通义团队将继续在以下几个方向发力：

数据质量与多样性提升
更优模型架构设计（如压缩、长上下文扩展）
强化学习系统升级（特别是 Agent-based 学习）
开放更多模型权重供社区研究使用（Apache 2.0 协议）

📌 如果你喜欢这篇文章，请点赞、收藏，并关注我，我会持续更新更多关于 AI、LLM、视觉-语言模型等内容！

Qwen3 技术报告解读一

📘 Qwen3 技术报告解读：通义千问系列新成员的技术亮点与能力分析一、论文写了什么？ 本文来自阿里通义实验室发布的《Qwen3 Technical Report》，介绍了其最新一代大语言模型 Qwen3 的技术架构、训练方法以及在多个关键任务上的…...

编程日记 2025/11/27 23:39:50

详解开漏输出和推挽输出

开漏输出和推挽输出以上是 GPIO 配置为输出时的内部示意图，我们要关注的其实就是这两个 MOS 管的开关状态，可以组合出四种状态： 两个 MOS 管都关闭时，输出处于一个浮空状态，此时他对其他点的电阻是无穷大的&#xff…...

编程日记 2026/1/25 9:23:29

【八股消消乐】索引失效与优化方法总结

😊你好，我是小航，一个正在变秃、变强的文艺倾年。 🔔本专栏《八股消消乐》旨在记录个人所背的八股文，包括Java/Go开发、Vue开发、系统架构、大模型开发、具身智能、机器学习、深度学习、力扣算法等相关知识点&#xff…...

编程日记 2026/2/1 3:04:20

一步一步配置 Ubuntu Server 的 NodeJS 服务器详细实录——4. 配置服务器终端环境 zsh , oh my zsh, vim

前言通过前面几篇文章，我们顺利的安装了 ubuntu server 服务器，并且配置好了 ssh 免密登录服务器，也安装好了服务器常用软件安装,接下来，我们要仔细的配置一下我们的终端环境，让服务器的终端更加好用。一般情况下…...

编程日记 2026/1/25 3:45:15

引言 "三道防线"模型架构图 #mermaid-svg-wbeppAbwa3Vb3nL2 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-wbeppAbwa3Vb3nL2 .error-icon{fill:#552222;}#mermaid-svg-wbeppAbwa3Vb3nL2 .error-text{fi…...

编程日记 2026/1/25 10:26:57

【Spring底层分析】Spring AOP基本使用+万字底层源码阅读分析

一、AOP基本使用三步： 将业务逻辑组件和切面类都加入到容器中，告诉Spring哪个是切面类（Aspect）在切面类上的每一个通知方法上标注通知注解，告诉Spring何时（Before、After、Around……）何地运…...

编程日记 2026/1/25 6:34:44

Python数据分析及可视化中常用的6个库及函数（二）

Python数据分析及可视化中常用的6个库及函数（二）摘要：以下是Python数据分析及可视化常用的6个库的详细介绍，包括它们的概述以及每个库中最常用的10个函数（如果某些库常用函数不足10个，则列出所有常用函数）。每个函数都附带功能描述、用法说明和使用示例。这些库…...

编程日记 2025/11/27 1:27:50

新德通科技：以创新驱动光通信一体化发展，赋能全球智能互联

在数字经济与AI技术高速发展的今天，光通信作为信息传输的核心基础设施，正迎来前所未有的升级浪潮。深圳新德通科技有限公司（以下简称“新德通科技”）凭借其深厚的技术积累与一体化产品布局，成为行业内的中坚力量。本文…...

编程日记 2026/1/25 7:02:33

Selenium的底层原理

Selenium 底层主要依赖于 WebDriver 协议（即 W3C WebDriver 规范，早期也有 JSON Wire Protocol）来实现对浏览器的远程控制，其核心架构可以分为以下几层： Selenium 客户端（Client Library） 支持多…...

编程日记 2025/10/28 1:56:48

PostgreSQL的扩展 auth_delay

PostgreSQL的扩展 auth_delay auth_delay 是 PostgreSQL 提供的一个安全相关扩展，主要用于防止暴力破解攻击。它通过在认证失败后引入人为延迟来增加暴力破解的难度。一、扩展基础功能：在认证失败后增加延迟目的：减缓暴力破解和字典攻击…...

编程日记 2025/10/15 1:43:31

[Java 基础]Java 是什么

Java 是一门编程语言。查看编程语言热门排行：https://www.tiobe.com/tiobe-index/ Java 的特点： 面向对象：Java 是面向对象的语言，支持封装、继承和多态等特性。平台无关性：Java 通过“一次编写，到处…...

编程日记 2025/11/2 23:02:41

Qt学习2

跟学视频 1.菜单栏和工具栏 //菜单栏最多只能有一个//菜单栏创建QMenuBar * bar menuBar();//将菜单栏放到窗口中setMenuBar(bar);//创建菜单QMenu * fileMenu bar->addMenu("开始");QMenu * editMenu bar->addMenu("编辑");//创建菜单项QAction…...

编程日记 2025/11/25 4:45:47

C++ 内存泄漏检测器设计

文章目录 1. C中的动态内存分配2. 什么是内存泄漏3. 内存泄漏的代码案例4. 内存泄漏检查器的设计模块1：位置信息捕获：模块2：内存分配跟踪：模块3：内存释放跟踪：模块4：泄漏记录存储：模…...

编程日记 2026/1/25 10:58:31

在 Linux 上安装 Nmap 工具

📦 在 Linux 上安装 Nmap 工具指南 Nmap（Network Mapper）是功能强大的网络扫描工具，以下是各种 Linux 发行版的安装方法： 🧩 通用安装方法 1. 使用包管理器安装（推荐） # Debian/…...

编程日记 2025/12/22 6:51:22

从零打造AI面试系统全栈开发

🤖 AI面试系统开发完整教程 📋 项目概述本教程将带你从零开始构建一个完整的AI面试系统，包含前端、后端、AI集成和部署的全流程。源码地址技术栈前端: React TypeScript Vite Vaadin Components后端: Spring Boot Spring Securi…...

编程日记 2025/12/5 23:57:28

破局与进阶：ueBIM 在国产 BIM 赛道的差距认知与创新实践

作为国产BIM领域的探索者，斯维尔ueBIM自诞生以来始终以追赶国际头部技术为目标，但不可否认的是，在核心功能覆盖、行业生态成熟度以及全球市场占有率等方面，我们与Autodesk Revit、Bentley Systems等国际巨头仍存在显著差距。这种差…...

编程日记 2026/2/5 17:25:23

分布式流处理与消息传递——向量时钟 (Vector Clocks) 算法详解

Java 实现向量时钟 (Vector Clocks) 算法详解一、向量时钟核心原理 #mermaid-svg-JcZ1GT0r1ZNSy6W7 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-JcZ1GT0r1ZNSy6W7 .error-icon{fill:#552222;}#mermaid-svg-JcZ…...

编程日记 2026/1/22 18:40:41

20250603在荣品的PRO-RK3566开发板的Android13下的命令行查看RK3566的温度

20250603在荣品的PRO-RK3566开发板的Android13下的命令行查看RK3566的温度 2025/6/3 11:58 RK3566的cpu运行效率 top rk3566_t:/ # rk3566_t:/ # rk3566_t:/ # cd /sys/class/thermal/ rk3566_t:/sys/class/thermal # ls -l rk3566_t:/sys/class/thermal # cd thermal_zone0/ r…...

编程日记 2026/1/26 9:33:42

帝可得 - 设备管理

一. 需求说明设备管理主要涉及到三个功能模块，业务流程如下： 新增设备类型: 允许管理员定义新的售货机型号，包括其规格和容量。新增设备: 在新的设备类型定义后，系统应允许添加新的售货机实例，并将它们分配到特定的…...

编程日记 2026/1/26 10:39:17

FTXUI配置

对于 FTXUI 的安装与配置, 官方已经给出了三种方案. 第一种: 使用 FetchContent 远程拉取第二种: 在你本地安装 FTXUI 库, 然后通过 find_package 使用第三种: 使用 Git 子模块 FetchContent 无需手动下载安装 FTXUI, 通过 CMake 自动从 GitHub 拉取并编译依赖 include(Fet…...

编程日记 2025/10/28 4:41:17

Caliper压力测试

目前FISCO BCOS适配的Caliper版本为0.2.0，请在部署Caliper运行环境时确保Caliper的版本为0.2.0，如在部署或使用过程中遇到任何问题，请优先参考 https://github.com/FISCO-BCOS/FISCO-BCOS/issues/1248 中的解决方案进行排查。 1. 环境要求 …...

编程日记 2025/11/27 7:47:43

【iOS安全】使用LLDB调试iOS App | LLDB基本架构 | LLDB安装和配置

LLDB基本架构参考： https://crifan.github.io/ios_re_dynamic_debug/website/debug_code/lldb_debugserver.html https://book.crifan.org/books/ios_re_debug_debugserver_lldb/website/ LLDB安装和配置 1. 让iPhone中出现/Developer/usr/bin/debugserver 最初…...

编程日记 2026/1/26 9:33:41

一、核心概念深入解析

一、核心概念深入解析 1. shared_ptr 的线程安全性澄清引用计数是原子操作：shared_ptr 的引用计数（use_count）在多线程中递增 / 递减是安全的（原子操作），但对象本身的读写需额外同步（如 std:…...

编程日记 2026/1/20 2:39:58

python直方图

在Python中，绘制直方图（Histogram）是一项非常常见的任务，通常用于数据可视化，以展示数据的分布情况。Python中有多种库可以绘制直方图，其中最常用的两个库是Matplotlib和Seaborn。此外，Pandas库…...

编程日记 2026/1/8 8:15:55

[特殊字符] Unity 性能优化终极指南 — Text / TextMeshPro 组件篇

UGUI Text组件的不当使用及其性能瓶颈与优化在Unity UGUI系统中，Text 组件（或其升级版 TextMeshPro）是显示文本信息的核心元素。然而，如果不当使用，它极易成为UI性能瓶颈的罪魁祸首，尤其是在预制体、属性…...

编程日记 2025/12/14 13:46:26

Idea 配置 Maven 环境

下载 Maven 官网：https://maven.apache.org/index.html 点击左侧 Downloads，然后选择 Files 中的 zip 包下载（下载慢可以使用迅雷） 配置 Maven 将压缩包解压，比如我解压后放到了 D:\developer\environment\apache-…...

编程日记 2026/1/26 13:46:44

git clone报错：SSL certificate problem: unable to get local issuer certificate

上述报错的完整信息是： Cloning into test... fatal: unable to access https://github.com/xxxx/xxxx.git/: SSL certificate problem: unable to get local issuer certificate 该报错表示 Git 在使用 HTTPS 协议克隆仓库时，无法验证 GitHub 的 SSL …...

编程日记 2025/12/23 16:41:03