当前位置: 首页 > article >正文

DeepSeek R1推理模型实战:思维链提取与应用

摘要DeepSeek-R1是中国AI的里程碑之作其显式的思维链Chain-of-Thought输出为调试和透明性带来了革命性提升。本文基于browser-use webui的特殊适配代码讲解如何在浏览器自动化Agent中充分利用R1的推理能力。一、DeepSeek-R1 vs 普通模型区别在哪普通LLM是黑盒——输入问题直接输出答案。R1则是白盒——先展示完整的思考过程再给出结论。普通模型DeepSeek-R1User普通模型DeepSeek-R1User如何预订故宫门票思考用户想预订故宫门票...需要访问官网...检查预约流程...注意提前7天规则.../思考1. 访问官网... 2. 选择日期...如何预订故宫门票1. 访问官网... 2. 选择日期...R1的输出格式think 嗯用户想要预订故宫门票。让我想想步骤 1. 首先需要访问故宫博物院官方网站 2. 找到门票预约入口 3. 选择参观日期和时间段 4. 填写参观者信息 5. 注意故宫门票需要提前7天预约 /think 以下是预订故宫门票的详细步骤 1. 访问 https://www.dpm.org.cn 2. 点击购票...二、问题LangChain默认丢弃了思维链LangChain的ChatOpenAI封装只提取.content字段think块被直接丢弃。这对调试是巨大损失——当Agent做错决策时你永远不知道它当时在想什么。browser-use webui为此编写了专门的适配类。三、源码实现提取reasoning_content3.1 API版本DeepSeekR1ChatOpenAI# src/utils/llm_provider.pyfromopenaiimportOpenAIfromlangchain_openaiimportChatOpenAIclassDeepSeekR1ChatOpenAI(ChatOpenAI): 专为DeepSeek-R1设计的ChatOpenAI子类 额外提取reasoning_content字段 def__init__(self,*args,**kwargs):super().__init__(*args,**kwargs)# 使用原生OpenAI客户端非LangChain封装self.clientOpenAI(base_urlkwargs.get(base_url),api_keykwargs.get(api_key))asyncdefainvoke(self,input,configNone,*,stopNone,**kwargs):# 1. 将LangChain消息格式转换为OpenAI格式message_history[]formsgininput:ifisinstance(msg,SystemMessage):message_history.append({role:system,content:msg.content})elifisinstance(msg,AIMessage):message_history.append({role:assistant,content:msg.content})else:message_history.append({role:user,content:msg.content})# 2. 调用原生APIresponseself.client.chat.completions.create(modelself.model_name,messagesmessage_history)# 3. 提取两个字段推理过程 正式回复reasoning_contentresponse.choices[0].message.reasoning_content contentresponse.choices[0].message.content# 4. 封装回LangChain消息格式returnAIMessage(contentcontent,reasoning_contentreasoning_content# 自定义字段)definvoke(self,input,...):# 同步版本逻辑相同...3.2 Ollama本地版本DeepSeekR1ChatOllama对于本地运行的deepseek-r1:14bOllama的输出格式略有不同classDeepSeekR1ChatOllama(ChatOllama):asyncdefainvoke(self,input,...):# 先调用父类获取原始输出org_ai_messageawaitsuper().ainvoke(inputinput)org_contentorg_ai_message.content# Ollama的R1格式think推理过程/think正式回复reasoning_contentorg_content.split(/think)[0].replace(think,)contentorg_content.split(/think)[1]# 清理可能的JSON标记if**JSON Response:**incontent:contentcontent.split(**JSON Response:**)[-1]returnAIMessage(contentcontent,reasoning_contentreasoning_content)四、在Agent中利用思维链4.1 日志记录让每次决策都有据可查asyncdefstep(self,step_info):# 调用LLM获取决策responseawaitself.llm.ainvoke(messages)# 如果使用的是R1记录推理过程ifhasattr(response,reasoning_content)andresponse.reasoning_content:logger.info(f【Step{step_info.step_number}推理过程】\n{response.reasoning_content})# 执行正式决策actionparse_action(response.content)awaitself.controller.act(action)4.2 UI展示在Chatbot中显示思考过程# 在_handle_new_step回调中formatted_output_format_agent_output(output)# 如果有reasoning_content追加到消息中ifhasattr(output,reasoning_content)andoutput.reasoning_content:reasoning_htmlf details summary 查看AI思考过程/summary pre{output.reasoning_content}/pre /details final_contentreasoning_htmlbr/formatted_outputelse:final_contentformatted_output4.3 调试分析找出Agent犯错的原因# 任务完成后分析推理过程defanalyze_failures(history):forstepinhistory:ifstep.resultandstep.result[0].error:# 该步骤出错了打印当时的推理过程ifhasattr(step.model_output,reasoning_content):print(f步骤{step.step_number}出错时的思考)print(step.model_output.reasoning_content)五、R1在浏览器自动化中的优势场景35%25%20%15%5%R1适用场景复杂多步决策异常处理推理网页结构分析任务规划分解常规简单点击场景为什么R1更强示例复杂表单填写能逐步推理字段关系税务申报、医疗预约异常页面处理分析弹窗/验证码原因遇到登录拦截时调整策略多标签页协调规划标签页切换顺序比价购物、跨系统操作失败重试策略推理失败原因并调整元素未找到时的替代方案六、注意事项与成本权衡6.1 Token成本R1的think块通常占输出的30%~60%。这意味着同样的任务R1的输入输出Token可能比普通模型多2~3倍建议设置max_input_tokens限制防止超长网页内容灌入6.2 延迟推理过程增加了首Token延迟Time to First Token。对于需要快速响应的实时交互场景建议使用deepseek-chat非reasoner版本作为主模型仅在planner_llm任务规划中使用R1# Agent Settings中的推荐配置主模型deepseek-chat快速执行 Planner模型deepseek-reasoner深度规划七、总结DeepSeek-R1的思维链不是冗余输出而是AI可解释性的重要突破。browser-use webui通过DeepSeekR1ChatOpenAI和DeepSeekR1ChatOllama两个适配类让R1的推理能力无缝融入浏览器自动化工作流。核心建议在开发和调试阶段全程开启R1上线后根据成本敏感度和延迟要求灵活切换chat/reasoner版本。

相关文章:

DeepSeek R1推理模型实战:思维链提取与应用

摘要:DeepSeek-R1是中国AI的里程碑之作,其显式的思维链(Chain-of-Thought)输出为调试和透明性带来了革命性提升。本文基于browser-use webui的特殊适配代码,讲解如何在浏览器自动化Agent中充分利用R1的推理能力。 一、…...

LLM记忆管理框架:突破上下文限制,实现智能长程对话

1. 项目概述:当大模型拥有“记忆”会怎样?最近在折腾大语言模型应用开发的朋友,估计都绕不开一个核心痛点:上下文长度限制。无论是 OpenAI 的 GPT 系列,还是开源的 Llama、Qwen 等模型,都有一个固定的上下文…...

告别机械凸轮!用STM32F4和EtherCAT实现电子凸轮,附完整C代码与避坑指南

基于STM32F4与EtherCAT的电子凸轮系统实战:从机械到数字化的工业升级 在包装机械、印刷设备、自动化生产线等工业场景中,凸轮机构曾长期占据主导地位。传统机械凸轮通过精密加工的金属轮廓,将旋转运动转化为预设的往复运动轨迹。但随着工业4.…...

液压执行器力控制的强化学习安全框架设计

1. 液压执行器力控制中的强化学习挑战与解决方案液压执行器凭借其高功率密度特性,在工业自动化、工程机械和机器人领域有着广泛应用。然而,这类系统的力控制一直面临三大技术难题:强非线性动力学特性、参数不确定性以及训练过程中的安全性风险…...

NXP S32K-144开发环境搭建与Keil MDK 5调试实战

1. NXP S32K-144开发环境搭建与Keil MDK 5基础配置1.1 硬件准备与开发板特性解析NXP S32K-144评估板搭载Cortex-M4内核,主频高达112MHz,配备256KB Flash和32KB SRAM。开发板上的关键组件包括:板载OpenSDA调试器(基于Kinetis K20 M…...

ARM SME2指令集:多向量浮点运算与性能优化

1. ARM SME2指令集概述在当今处理器架构领域,向量化计算已成为提升性能的关键技术。ARMv9架构引入的SME2(Scalable Matrix Extension 2)指令集代表了向量计算的最新发展方向,特别针对浮点密集型运算进行了深度优化。作为SME的扩展…...

Unity ShaderGraph涂鸦实战:用RenderTexture和笔刷脚本,5分钟给3D模型‘纹身’

Unity ShaderGraph涂鸦实战:用RenderTexture和笔刷脚本,5分钟给3D模型‘纹身’ 想象一下,在游戏开发中为角色添加个性化纹身,或是让玩家在武器上留下独特标记——这种实时交互的涂鸦功能,往往被认为是高级特效的范畴。…...

别再死记硬背了!图解特征值与特征向量:从图像压缩到推荐系统的直观理解

图解特征值与特征向量:从图像压缩到推荐系统的直观理解 数学概念常常因为抽象而令人望而生畏,但当我们用生活中的例子来理解它们时,这些概念就会变得生动起来。想象一下,你正在整理衣柜——你会把相似的衣服放在一起,把…...

混合信号音频系统设计:集成化与性能优化

1. 混合信号音频系统的设计哲学在当代便携设备设计中,音频子系统正面临前所未有的挑战。我经手过的智能手机项目中,音频电路往往要处理至少12种不同的信号路径——从蜂窝通信的窄带语音到高保真音乐播放,再到游戏音效和视频会议音频。传统分立…...

新手秒懂timed_out:在快马平台动手实验,掌握超时机制第一课

今天在学网络请求时遇到了一个让我头疼的概念——timed_out(超时)。作为一个刚入门的新手,这个概念听起来很抽象,但通过InsCode(快马)平台的交互式实验,我终于搞明白了它的原理和应用场景。下面分享我的学习笔记&#…...

Arm Corstone SSE-310中断系统与UART驱动开发实战

1. Arm Corstone SSE-310中断系统架构解析Corstone SSE-310作为Arm推出的子系统解决方案,其中断控制器设计继承了Cortex-M系列处理器的NVIC(Nested Vectored Interrupt Controller)架构,同时针对FPGA扩展场景进行了专门优化。Cort…...

ESP32全链路硬件开发框架:JTAG统一接口与AI自动化调试实践

1. 项目概述:为AI编码助手打造的ESP32全链路硬件开发框架如果你和我一样,长期在嵌入式开发的一线摸爬滚打,那你一定对“烧录-调试-修改-再烧录”这个循环深恶痛绝。每次修改一行代码,都要经历编译、连接调试器、打开串口监视器、复…...

别只当文献管理器!VOSviewer实战:用ESN案例教你一眼看穿学术江湖的派系与大佬

学术江湖的派系解码:用VOSviewer透视ESN领域的研究版图 当你第一次踏入回声状态网络(ESN)的研究领域时,是否曾感到迷茫?面对海量文献,如何快速识别这个"学术江湖"中的关键人物、核心团队和前沿方向?这就像初…...

从iris数据集到你的数据:手把手复现ggplot2显著性检验组合图,避坑geom_jitter与stat_compare_means

从经典案例到实战迁移:ggplot2显著性检验组合图的深度避坑指南 第一次在R中成功复现教程里的iris数据集可视化时,那种成就感就像解开了一道数学难题。但当你兴冲冲地把代码套用到自己的实验数据上,突然跳出的错误提示和扭曲的图表布局&#x…...

2025最权威的五大AI写作助手推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在数字化内容创作里头,AI生成的文本常常会被检测工具给识别出来。为了能够降低人…...

别再只知道“自动对焦”了!手机拍照的PDAF、CDAF和激光对焦,到底哪个更快更准?

别再只知道“自动对焦”了!手机拍照的PDAF、CDAF和激光对焦,到底哪个更快更准? 每次用手机拍照时,你是否遇到过这样的场景:想抓拍奔跑的宠物,结果画面糊成一片;在餐厅昏暗灯光下自拍&#xff0c…...

基于RAG的本地PDF智能问答系统:从原理到工程实践

1. 项目概述:当你的PDF文档库有了“智能大脑”最近在折腾本地知识库和智能问答的朋友,估计对RAG(检索增强生成)这个词已经不陌生了。简单来说,它就像一个给大语言模型(LLM)配的“外挂知识库”&a…...

嵌入式固件更新:微编程器架构与S-record解析实战

1. 嵌入式固件更新的核心挑战与解决方案在嵌入式系统开发领域,固件更新功能的设计一直是个令人头疼的问题。想象一下这样的场景:你开发的工业控制器已经部署在数百公里外的工厂里,突然发现了一个关键的安全漏洞需要修复。如果没有可靠的远程更…...

GodotSteam集成指南:从开源引擎到Steam平台发布全流程

1. 项目概述:当开源游戏引擎遇见全球最大PC游戏平台如果你是一位独立游戏开发者,或者对游戏开发感兴趣,正在使用或考虑使用Godot这款轻量级、开源的游戏引擎,那么你迟早会面临一个现实问题:如何将你的游戏发布到Steam上…...

从CVBS到HDMI:那些年我们用过的视频接口,哪个还在你家服役?

从CVBS到HDMI:那些年我们用过的视频接口,哪个还在你家服役? 周末整理书房时,在储物箱底部翻出一台落满灰尘的DVD播放机。当指尖触碰到那三个标志性的红黄白RCA接口时,二十年前全家围坐观看《泰坦尼克号》光盘的记忆突然…...

轻量级Markdown编辑器mide-lite:设计理念、技术实现与效率实践

1. 项目概述:一个轻量级Markdown编辑器的诞生 最近在折腾个人知识库和文档写作,发现市面上的Markdown编辑器要么功能臃肿、启动缓慢,要么过于简陋、缺乏必要的辅助功能。作为一个经常需要写技术文档、项目README和日常笔记的开发者&#xff…...

别再只盯着MES了!半导体/面板厂CIM系统全家桶(EAP/YMS/SPC)保姆级入门指南

半导体制造CIM系统全景解析:从EAP到YMS的实战协同指南 走进任何一座现代化的半导体晶圆厂或面板生产线,你会看到数百台精密设备在无尘环境中高速运转。但比这些物理设备更复杂的,是背后那个看不见的"数字神经系统"——CIM&#xff…...

Belmont:基于Go的零配置前端构建工具,性能与开发体验的平衡之道

1. 项目概述:一个被低估的现代前端构建工具最近在梳理团队内部的前端工程化方案时,我又重新审视了blake-simpson/belmont这个项目。说实话,第一次在 GitHub 上看到它时,我差点就把它划归到“又一个玩具项目”的范畴里。但当我真正…...

RTOS选型如何影响嵌入式产品开发效率与成本

1. RTOS选择对产品上市时间的影响机制在嵌入式系统开发领域,实时操作系统(RTOS)的选择往往被工程师视为纯粹的技术决策,但实际上这更是一个商业战略问题。根据Embedded Market Forecasters(EMF)的研究数据,RTOS的选择直接影响42%的项目能否按…...

Sunshine游戏串流主机:打造个人游戏云服务的完整指南

Sunshine游戏串流主机:打造个人游戏云服务的完整指南 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 想象一下这样的场景:你的高性能游戏电脑在书房&#x…...

从‘丑但实用’到稳定运行:我们的CUIT智能车电磁杆布局进化史与代码分享

从‘丑但实用’到稳定运行:CUIT智能车电磁杆布局进化史与代码分享 1. 硬件迭代:电磁杆布局的三次革命 第一次看到我们智能车的电磁杆布局时,评委的表情就像看到了一堆杂乱无章的金属丝。但正是这个"丑八怪",最终以98%的…...

PVE虚拟机玩转黑群晖:除了安装DSM 7.2,这些进阶调优让你的NAS更好用

PVE虚拟机玩转黑群晖:除了安装DSM 7.2,这些进阶调优让你的NAS更好用 当你已经在Proxmox VE(PVE)上成功部署了DSM 7.2系统,基础功能已经就绪,但真正的挑战才刚刚开始。一个真正"好用"的虚拟化NAS系…...

Ollama网格搜索工具:自动化超参数调优提升大模型微调效率

1. 项目概述:自动化超参数调优的利器在机器学习和深度学习项目的实战中,模型训练往往不是一蹴而就的。我们选定一个基础模型架构后,真正决定其最终性能上限的,常常是那些看似不起眼的“超参数”。学习率、批次大小、优化器类型、权…...

告别重复劳动:一键自动化编译安装Nginx的Bash脚本编写与调试心得

告别重复劳动:一键自动化编译安装Nginx的Bash脚本编写与调试心得 在DevOps的日常工作中,频繁在不同环境中部署定制化Nginx服务是家常便饭。每次手动执行编译安装不仅耗时费力,还容易因环境差异导致各种意外错误。本文将分享如何将繁琐的手动过…...

NexusAgent智能代理框架:构建自动化系统的核心架构与实践

1. 项目概述:一个面向Nexus生态的智能代理框架最近在开源社区里,一个名为huangqianqian120/NexusAgent的项目引起了我的注意。乍一看这个标题,你可能会联想到“Nexus”这个词在技术领域里通常指代一个核心的、连接性的枢纽,比如Ma…...