当前位置: 首页 > article >正文

Agent学习--LLM--推理熵

平时我们用大模型的时候可以看到虽然最后出来的是一大段话但是实际上一般都是采用的是流式输出即一个字一个字的输出出来而这每个字的生成本质是agent在不断地推理下一个字或者词是什么当它遇到关键决策点时比如在一个需要推理的题目中决定下一步是用“因为”、“所以”还是“假设”就会产生犹豫此时的agent就像人类一样对不确定的事情会纠结或者迷茫而agent在思考或决策时的“不确定性”或“迷茫”程度就是推理熵。根据AI在决策时的“纠结”程度主要可以分为以下几种情况高熵Agent状态面对多种可能需要权衡和选择处于探索和犹豫的状态行为模式会生成高熵Token如逻辑转折词“however”、“therefore”或引入新条件的“assume”、“suppose”等对训练的影响占推理步骤的少数约20%但决定了推理方向和最终结果示例在解一道复杂的数学题时AI在决定下一步是“用方程求解”还是“画图分析”时熵值会升高低熵Agent状态答案明确无需多想像在走一条笔直的大路处于确定和自信的状态行为模式会生成低熵Token如句子结尾、常见词组等确定性高的内容对训练的影响占推理步骤的多数约80%用于串联和补充细节并非推理成败的关键。示例在写出“1 1 ”之后预测下一个token是“2”时熵值极低熵的异常稳定不过很多时候人们会把推理熵的变化当做监控agent推理稳定性的指标会觉得推理熵的变化稳定的话agent的处理没问题。但是这里暗含了一个隐形的问题如果agent只是因为训练了同样的问题多次熟练度提高了面对同类的问题已经自发形成了一套成熟、处理结果极好的处理方法论此时尽管面对不同的输入也会有不同的输出。但是如果查看其训练时的推理轨迹训练时agent会被正则化梯度和任务梯度所驱动前者负责加入噪声使得输入数据样本多样化后者则负责驱动其更好地完成任务会发现这些熵稳定的背后多数都是任务梯度很小的情况这其实就是agent对同类问题熟练度很高的表现此时agent的推理轨迹就变成了正则化梯度导向”随机性“很强本末倒置了。当然相关的解决方法也已经有了最近有一篇论文地址讲的就是通过减少降低任务梯度的奖励prompt的方式以这种简单的方法很好地解决了这个问题使得任务梯度维持在了一个较高的水平。核采样语言模型在生成每一步的内容时会给出一个概率分布所有可能token的概率上文提到的降低的方式就是选择核采样top-p而不是top-k这两者的区别是后者只是按照概率从高到低排序拿前面的前者则是按照候选词即推理时可能用作答案的词语的累计概率总和排序这便是重点。单纯的按照概率分布来拿会因为分布而导致一些问题分布平坦时可能丢掉合理词分布极陡时可能保留一堆尾部垃圾词而按照累积的顺序拿排序的变化本身便是每次候选词的变化体现从而能够很好地判断出哪些才是模型真正想要的

相关文章:

Agent学习--LLM--推理熵

平时我们用大模型的时候,可以看到虽然最后出来的是一大段话,但是实际上一般都是采用的是流式输出,即一个字一个字的输出出来,而这每个字的生成,本质是agent在不断地推理下一个字或者词是什么,当它遇到关键决…...

RK3128 Android系统WiFi兼容性实战:如何编写一个智能的USB网卡自动识别与加载脚本

RK3128 Android系统WiFi兼容性实战:构建智能USB网卡驱动自动加载框架 当你在RK3128平台上调试不同型号的USB WiFi模块时,是否厌倦了每次更换网卡都要手动加载对应驱动?本文将带你构建一个完整的自动化解决方案,从内核配置到用户空…...

别再只靠软件了!揭秘TMS320F280049内部SR触发器实现峰值电流模式的另类玩法

挖掘TMS320F280049隐藏技能:用SR触发器实现高精度电流采样的极限实验 当大多数工程师还在用标准PWM模块处理峰值电流控制时,TI C2000 DSP内部其实藏着一个被严重低估的信号链宝藏。这次我们要解剖的,是TMS320F280049芯片内部那个鲜少被关注的…...

解决重装系统后 BitLocker 分区每次重启需手动解锁的问题

解决重装系统后 BitLocker 分区每次重启需手动解锁的问题 问题现象原因分析找回 48 位 BitLocker 恢复密钥永久解决:启用自动解锁(避免每次重启输入) 电脑版本win11,更新后遇到设置和驱动消失的问题,不得不重装系统。重…...

【2026唯一通过ISO/IEC 23894 AI治理认证的低代码平台】:SITS2026演示全程技术白皮书级解读(含实时审计链路图)

第一章:SITS2026演示:AI原生低代码平台 2026奇点智能技术大会(https://ml-summit.org) SITS2026 是面向企业级AI应用构建的全新一代AI原生低代码平台,深度融合大语言模型推理能力与可视化编排引擎,支持从自然语言需求描述到可部…...

DISCO-F469NI嵌入式LCD触摸驱动C++封装库

1. 项目概述DISCOF469LCD 是一个面向 STMicroelectronics DISCO-F469NI 开发板的触摸式 LCD 显示驱动封装库。该库并非从零实现底层硬件控制,而是基于 ST 官方提供的 BSP(Board Support Package)层进行面向对象的 C 封装,旨在为嵌…...

AI Coding越来越强,我们还有必要学Processing吗? · 创意编程陕

故障表现 发现请求集群 demo 入口时卡住,并且对应 Pod 没有新的日志输出 rootce-demo-1:~# kubectl get pods -n deepflow-otel-spring-demo -o wide NAME READY STATUS RESTARTS AGE IP NODE NOMINATED NO…...

NVIDIA Profile Inspector 配置问题完全指南:从识别到解决的完整流程

NVIDIA Profile Inspector 配置问题完全指南:从识别到解决的完整流程 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector 是一款强大的 NVIDIA 显卡配置管理工具&…...

四步生图封神,GenEval从61%狂拉到92%,全面超越GPT-4o的TDM-R1模型来了

在大模型强化学习的热潮中,图像生成领域长期缺少一套真正适配少步模型的通用 RL 框架,而 TDM-R1 的出现,恰恰补上了这块关键拼图。超快速 AI 生图领域再破性能天花板!香港科技大学唐靖团队、香港科技大学(深圳分校&…...

值类型与引用类型:别再只背“栈和堆”了,看这 个实际影响绞

基础示例:单工作表 Excel 转 TXT 以下是将一个 Excel 文件中的第一个工作表转换为 TXT 的完整步骤: 1. 加载并读取Excel文件 from spire.xls import * from spire.xls.common import * workbook Workbook() workbook.LoadFromFile("示例.xlsx"…...

AI Agent 跑完任务怎么通知你?我写了个微信推送服务屹

1、普通的insert into 如果(主键/唯一建)存在,则会报错 新需求:就算冲突也不报错,用其他处理逻辑 回到顶部 2、基本语法(INSERT INTO ... ON CONFLICT (...) DO (UPDATE SET ...)/(NOTHING)) 语…...

模拟型对讲系统市场洞察:2026-2032年复合增长率(CAGR)为3.9%

在智慧社区与智能家居快速渗透的背景下,全球模拟型对讲系统市场正经历从主流产品向基础安防设备的定位转变。据恒州诚思最新调研数据显示,2025年全球模拟型对讲系统市场规模达115.4亿元,预计2032年将增至153.0亿元,2026-2032年复合…...

VL53L0X ToF测距模块Arduino驱动库详解

1. 项目概述Deneyap Derinlik ler,即 Deneyap ToF Range Finder Sensor,是一款基于 STMicroelectronics VL53L0X 飞行时间(Time-of-Flight, ToF)测距传感器的国产化 Arduino 兼容模块。该模块由土耳其 Deneyap 教育平台推出&#…...

ESP32 RMT硬件驱动DS18B20单总线温度传感器库

1. 项目概述MycilaDS18 是一款专为 ESP32 平台设计的高性能 Dallas/Maxim DS18 系列单总线温度传感器驱动库,其核心创新在于完全基于 ESP32 原生 RMT(Remote Control)外设实现物理层通信,彻底摒弃了传统软件模拟 OneWire 时序的方…...

FFmpeg 与 C++ 实战音视频处理:从环境搭建到流媒体解析

1. 为什么选择FFmpeg与C组合 音视频处理就像在数字厨房里烹饪一道复杂的菜肴,你需要得心应手的厨具和精准的烹饪技巧。FFmpeg就是这个厨房里的瑞士军刀,而C则是那位能够精准控制火候的大厨。这套组合在业内被称为"音视频处理的黄金搭档"&#…...

从零开始撸一个线控转向系统

线控转向,包含设计说明书,carsim模型,MATLAB Simulink模型全套(工程项目线上支持)"线控转向是一个工程项目,其中包含设计说明书、carsim模型以及MATLAB Simulink模型的全套。这个项目提供在线支持&…...

手把手教你用 Claude Code + Superpowers 全自动完成开发项目

在 AI 开发工具层出不穷的当下,Claude Code 搭配 Superpowers 插件,能让 AI 像专业程序员一样,按规范、分步骤全自动完成从需求拆解到代码落地的整个项目流程。本文结合实操经验,带你从零掌握这套高效开发方式。一、前期准备&…...

L293D直流电机驱动库:跨平台HAL设计与KL25Z/STM32实战

1. 项目概述DCMotorControl 是一个面向嵌入式平台的轻量级直流电机控制库,专为兼容 Arduino Motor Shield(基于 L293D 双 H 桥驱动芯片)的硬件设计。尽管项目标题与 README 中仅提及 “Arduino motor shield L293D v1”,但其实际工…...

深入解析C99中函数隐式声明无效警告的根源与解决方案

1. 为什么C99标准对函数隐式声明如此严格? 我第一次在嵌入式项目里遇到这个警告时,整个人都是懵的。当时正在调试STM32的定时器初始化代码,编译时突然蹦出"Warning: implicit declaration of function TIM2_Int_Init is invalid in C99&…...

Midscene.js:用自然语言重新定义跨平台UI自动化测试

Midscene.js:用自然语言重新定义跨平台UI自动化测试 【免费下载链接】midscene AI-powered, vision-driven UI automation for every platform. 项目地址: https://gitcode.com/GitHub_Trending/mid/midscene 想象一下,你只需要用自然语言描述&qu…...

线性稳压器1117选型指南:从性能测试到实际应用

1. 线性稳压器1117基础入门 第一次接触电子设计时,我被各种电源模块搞得晕头转向,直到老师递给我一片1117芯片。这个火柴头大小的元件,竟然能把5V电压稳稳地降到3.3V,当时就觉得特别神奇。现在做了这么多年硬件设计,11…...

【全局热键】QHotkey:让Qt桌面应用拥有系统级快捷键能力

【全局热键】QHotkey:让Qt桌面应用拥有系统级快捷键能力 【免费下载链接】QHotkey A global shortcut/hotkey for Desktop Qt-Applications 项目地址: https://gitcode.com/gh_mirrors/qh/QHotkey 🚀 项目亮点速览 ✅ 跨平台支持:Win…...

5分钟搞定Xinference的Docker-compose配置(含GPU支持)

5分钟极速部署Xinference:Docker-compose全流程指南(含GPU加速方案) 在AI模型推理领域,快速搭建稳定高效的运行环境是每个开发者的刚需。Xinference作为开源推理框架,凭借对多种AI模型的兼容性和灵活的部署方式&#x…...

如何永久保存微信聊天记忆:WeChatMsg数据导出与智能分析全攻略

如何永久保存微信聊天记忆:WeChatMsg数据导出与智能分析全攻略 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/…...

ADXL335模拟加速度计驱动库:轻量级嵌入式ADC采集方案

1. 项目概述 7Semi ADXL335 Accelerometer 是一款面向嵌入式平台的轻量级模拟加速度传感器驱动库,专为 ADXL335 这一经典三轴模拟输出 MEMS 加速度计设计。该库并非基于数字通信协议(如 IC 或 SPI),而是直接采集 X、Y、Z 三路模拟…...

MCP23009E I²C GPIO扩展器驱动设计与电气适配实践

1. MCP23009E I/O扩展器深度技术解析:面向嵌入式工程师的底层驱动设计与工程实践1.1 芯片本质与系统定位MCP23009E是Microchip推出的8位IC接口GPIO扩展芯片,采用SOIC-16封装,工作电压范围2.7V–5.5V,兼容3.3V与5V系统。其核心价值…...

RT-Thread系统时钟深度解析:从SysTick到rt_hw_us_delay的底层实现与优化技巧

RT-Thread系统时钟深度解析:从SysTick到rt_hw_us_delay的底层实现与优化技巧 在嵌入式实时操作系统中,精确的时间管理是确保系统实时性的关键。RT-Thread作为一款开源的实时操作系统,其时钟系统设计精巧而高效。本文将深入剖析RT-Thread 4.0.…...

让开发流程更高效:为 Visual Studio 订阅用户解锁 Syncfusion辛

一、什么是requests? requests 是一个用于发送HTTP请求的 Python 库。 它可以帮助你: 轻松发送GET、POST、PUT、DELETE等请求 处理Cookie、会话等复杂性 自动解压缩内容 处理国际化域名和URL 二、应用场景 requests 广泛应用于以下实际场景: …...

Proteus仿真必备:MPU6050模型下载与使用全攻略(含componentsearchengine.com注册技巧)

Proteus仿真进阶:MPU6050模型深度应用与实战技巧 在嵌入式系统开发中,仿真环节往往能节省大量硬件调试时间。Proteus作为业界广泛使用的电路仿真软件,其模型库的丰富程度直接决定了仿真效率。MPU6050这款集成了三轴陀螺仪和三轴加速度计的传感…...

SSLClientESP32:ESP32嵌入式TLS安全通信实战指南

1. SSLClientESP32 库深度解析:面向嵌入式工程师的 TLS 安全连接实践指南1.1 设计定位与工程价值SSLClientESP32 是一款专为 ESP32 平台设计的轻量级 TLS 安全通信中间件,其核心价值在于解耦传输层与安全层。它不直接实现 TLS 协议栈,而是作为…...