当前位置：首页 > news >正文

【Preference Learning】Reasoning with Language Model is Planning with World Model

news 2026/2/9 11:04:49

arxiv: https://arxiv.org/abs/2305.14992

问题背景：当前LLM推理受到几个关键因素的限制：

（1）LLM缺乏世界模型（一种人类就有的对环境的心理表征，可以模拟行动以及活动对外部世界状态的影响）去预测世界状态和模拟执行动作产生的长期结果影响，从而导致规划能力和执行动作能力不足。

（2）缺乏奖励机制来评估和引导推理走向理想状态。

（3）无法平衡探索（未访问过的节点）与利用（访问过的节点），从而无法有效地探索广阔的推理空间。

本文方法概述：提出RAP（Resoning via Planning）框架，让LLM能够以接近人类意识规划的方式进行推理。RAP通过世界模型增强LLM，并通过有指导准则的规划进行推理，让后续产生有高奖励值的推理路径。

本文方法框架：

语言模型作为世界模型

用自然语言在prompt中定义状态和动作。
根据定义的状态和动作，将推理过程描述为马尔可夫过程（MDP）。

奖励设计

动作的log概率作为奖励。
采样多次世界模型的答案，使用生成最多的答案比例作为置信度。根据当前状态下得到的置信度会作为奖励。
让LLM自己去评估结果。（LLM识别推理错误，要比避免在生成中产生错误更容易）
根据特定任务可以启发式的插入就爱你老公i函数。

采用蒙特卡洛树搜索进行规划

MCTS迭代式的构建了一颗搜索树，节点代表状态，边代表活动和在当前状态下应用动作生成下一个状态的过渡。
选择
使用上限置信界限（UCT）去选择节点，来平衡探索（未访问的节点）和利用（访问过的高价值的节点）

其中N(s)是节点s在之前的迭代中被访问的次数，c(s,a)是状态s下进行动作a的子节点。之前访问的子节点越少（即该子节点的不确定性越高），方程中第二项就越高。权重w控制着探索和里用的平衡。当w为0时，退化为贪心搜索方式。当w不为0时，若某一条路径经常被选择，会逐渐减小未来会产生的收益增益，让LLM对探索较少的路径进行探索。

扩展
当节点不为终端节点的时候，将根据叶结点的状态，使用LLM对d个可能的动作进行采样，然后使用LLM预测各自的下一个状态，从而产生新的子节点，直至达到叶子结点为止。
反向传播
当达到叶结点时候进行反向传播。
构架完成进行推理
达到预订MCTS的迭代次数，则终止算法并从构建的树中选择最终的推理轨迹进行评估。选择方式有两种；1）从根节点开始，每次选择Q值最高的动作，直到达到终端叶子结点。2）从生成高奖励的迭代中选择路径，或者选择访问次数最多的叶结点。本文在实践中发现方法二效果更好。
路径融合
RAP可以从不同的MCTS迭代中产生多个轨迹和答案，这些轨迹和答案将聚合形成最终的答案。但是，像规划生成、逻辑推理的问题需要完整的推理轨迹作为输出，这一类不会被使用路径融合。

实验情况

实验场景：规划生成、数学推理问题、逻辑推理
实验设置：基座模型Llama-33B、temperature=0.8
基线方法：COT、Least-to-Most、Self-Consistency（SC）
实验效果：
- 规划生成
  - 采用Blocksworld数据集，该数据集主要用于让Agent移动不同颜色的方块，达到目标要求。
- 数学推理
  - 采用GSM8K数据集
- 逻辑推理
  - 采用PrOntoQA数据集，提供一组事实和逻辑规则，模型需要基于事实应用逻辑规则，来验证事实的真假。

在这里插入图片描述

【Preference Learning】Reasoning with Language Model is Planning with World Model

arxiv: https://arxiv.org/abs/2305.14992 问题背景：当前LLM推理受到几个关键因素的限制： （1）LLM缺乏世界模型（一种人类就有的对环境的心理表征，可以模拟行动以及活动对外部世界状态的影响）去…...

编程日记 2024/9/29 19:48:49

OJ在线评测系统后端基础部分开发完善CRUD相关接口

完善相关接口判斷编程语言是否合法先从用户的请求拿到Language package com.dduo.dduoj.service.impl;import com.baomidou.mybatisplus.core.conditions.query.QueryWrapper; import com.baomidou.mybatisplus.extension.service.impl.ServiceImpl; import com.dduo.dduoj…...

编程日记 2024/9/29 19:46:47

计算机网络--TCP、UDP抓包分析实验

计算机网络实验目录实验目的实验环境实验原理 1、UDP协议 2、TCP协议实验具体步骤实验目的 1、掌握使用wireshark工具对UDP协议进行抓包分析的方法，掌握UDP协议的报文格式，掌握UDP协议校验和的计算方法，理解UDP协议的优缺点&am…...

编程日记 2024/9/29 19:41:41

FreeRTOS的中断管理

前言 FreeRTOS的任务有优先级，MCU的硬件中断有中断优先级，这是两个不同的概念，FreeRTOS的任务管理要用到硬件中断，使用FreeRTOS时候也可以使用硬件中断，但是硬件中断ISR的设计要注意一些设计原则，在本节中我…...

编程日记 2024/9/29 19:39:40

JS加密=JS混淆？（JS加密、JS混淆，是一回事吗？）

JS加密、JS混淆，是一回事吗？ 是的！在国内，JS加密，其实就是指JS混淆。 1、当人们提起JS加密时，通常是指对JS代码进行混淆加密处理，而不是指JS加密算法（如xor加密算法、md5加密算法、…...

编程日记 2024/9/29 19:36:34

hive-拉链表

目录拉链表概述缓慢变化维拉链表定义拉链表的实现常规拉链表历史数据每日新增数据历史数据与新增数据的合并分区拉链表拉链表概述缓慢变化维通常我们用一张维度表来维护维度信息，比如用户手机号码信息。然而随着时间的变化，某些用户信息会发生改…...

编程日记 2024/9/29 19:35:33

高并发内存池（六）：补充内容

目录有关大于256KB内存的申请和释放处理方法处理大于256KB的内存申请补充内容1 补充内容2 补充内容3 处理大于256KB的内存释放新增内容1 新增内容2 测试函数使用定长内存池替代new 释放对象时不传对象大小补充内容1 补充内容2 补充内容3 补充内容4 测试…...

编程日记 2024/9/29 19:32:29

高性能存储 SIG 月度动态：优化 fuse 提升 AI 存储接入能力，erofs 工具发布新版本

本次月报综合了 SIG 在 7、8 两个月的工作进展，包含多项新特性、优化、Bugfix 等。 SIG 整体进展 fuse 支持 failover，并优化 background 读写公平性，提升 AI 存储接入场景的能力。 erofs page cache 共享特性已发到上游社区，re…...

编程日记 2024/9/29 19:31:28

2024 年最新 Protobuf 结构化数据序列化和反序列化详细教程

Protobuf 序列化概述 Protobuf（Protocol Buffers）是由Google开发的一种语言中立、平台中立、可扩展的序列化结构数据的方法。它用于在不同系统之间高效地交换数据。Protobuf使用定义文件（.proto）来描述数据结构，并通过…...

编程日记 2024/9/29 19:29:26

【小程序】微信小程序课程 -4 项目实战

目录 1、效果图 2、创建项目 2.1 创建小程序端 2.1.1 先创建纯净项目 2.1.2 删除components 2.1.4 删除app.json红色部分 2.1.5 删除index.json红色部分 2.1.6 删除index.wxss全部内容 2.1.7 删除index.wxml全部内容 2.1.8 app.json创建4个页面 2.1.9 app.json添加…...

编程日记 2024/9/29 19:28:24

【期刊】论文索引库-SCI\SSCI\IE\南大核心\北大核心\CSCD等

外文期刊检索 SCI SCI即《科学引文索引》(Science Citation Index），是由美国科学信息研究所（Institute for Scientific Information）创建于1961年，收录文献的作者、题目、源期刊、摘要、关键词，不仅可以从文献引证的角度评估文章的学术价值，还可以迅速方便地组建研究课…...

编程日记 2024/9/29 19:27:23

开源链动 2+1 模式 S2B2C 商城小程序：社交电商团队为王的新引擎

摘要：本文深入探讨在社交电商领域中，团队的重要性以及如何借助开源链动 21 模式 S2B2C 商城小程序，打造具有强大竞争力的团队，实现个人价值与影响力的放大，创造被动收入，迈向财富自由之路，同时为…...

编程日记 2024/9/29 19:26:22

使用Fiddler Classic抓包工具批量下载音频资料

1. 通过F12开发者工具，下载音频文件浏览器打开音频列表->F12快捷键->网络->媒体，播放一个音频文件，右边媒体下生成一个音频文件，右击“在新标签页中打开”，可以下载这个音频文件。 2.通过Fiddler Classic抓…...

编程日记 2024/9/29 19:25:21

QT开发：基于Qt实现的交通信号灯模拟器：实现一个带有倒计时功能的图形界面应用

介绍本文将介绍如何使用Qt框架实现一个简单的交通信号灯控制程序。本程序包括一个图形界面，显示红、黄、绿三色信号灯，并通过定时器控制信号灯的切换。同时，我们还将实现一个带有按钮的界面，用于展示信号灯的状态。 1. 安装Qt开…...

编程日记 2024/9/29 19:23:18

【编程基础知识】网络I/O模型详解：从阻塞到异步

引言网络I/O模型是网络编程的核心，它们决定了应用程序如何进行读写操作以与网络进行数据交换。了解不同的网络I/O模型对于设计高效、可扩展的网络应用程序至关重要。一、阻塞I/O（Blocking I/O） 1. 定义阻塞调用：当应用程序…...

编程日记 2024/9/29 19:22:17

yolo自动化项目实例解析（六）自建UI（主窗口、预览窗口）

前面我们大致把各个代码块梳理出来了，但是还是不知道从那块开始，我们这里主要先通过ui页面的元素去推理整个执行过程，我们首先需要知道ui功能里面有那些组件 qt设计师基础控件 Qt Designer 是一个图形界面设计工具，用于创建 Qt 应…...

编程日记 2024/9/29 19:21:15

Unity优质教程分类汇总【持续更新中】

以下收录的均为作者自己看过的觉得比较好的教程基础 Unity入门： https://www.bilibili.com/video/BV1HX4y1V71E?p13 生命周期 https://docs.unity.cn/cn/2022.3/uploads/Main/monobehaviour_flowchart.svg https://zhuanlan.zhihu.com/p/551294000 编程技巧…...

编程日记 2024/9/29 19:20:14

真正掌握left join on 和 where 的差别

总结用 where 是先连接然后再筛选用 on 是先筛选再连接数据库在通过连接两张或多张表来返回记录时，都会生成一张中间的临时表，然后再将这张临时表返回给用户。在使用left jion时，on和where条件的区别如下： on条件是在生成临时表…...

编程日记 2024/9/29 19:19:13

神经网络在多分类问题中的应用

作者简介：热爱数据分析，学习Python、Stata、SPSS等统计语言的小高同学~个人主页：小高要坚强的博客当前专栏：Python之机器学习本文内容：神经网络在多分类问题中的应用作者“三要”格言：要坚强、要努力、要学习目录 1. 引言 2.数据构造 3.划分数据集 4.神经网络实现多…...

编程日记 2024/9/29 19:18:12

nginx的安装和使用

源码安装 1.环境准备：卸载其他方式安装的web应用，防止端口冲突 2.下载nginx源码包 wget https://nginx.org/download/nginx-1.20.2.tar.gz 3.源码编译安装 yum install -y gcc pcre-devel zlib-devel #安装依赖包 useradd -M -s /sbin/nologin ngi…...

编程日记 2024/9/29 19:08:00

AI-调查研究-01-正念冥想有用吗？对健康的影响及科学指南

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2026/2/8 5:11:39

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2026/2/8 20:43:02

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

【VLNs篇】07：NavRL—在动态环境中学习安全飞行

项目内容论文标题NavRL: 在动态环境中学习安全飞行 (NavRL: Learning Safe Flight in Dynamic Environments)核心问题解决无人机在包含静态和动态障碍物的复杂环境中进行安全、高效自主导航的挑战，克服传统方法和现有强化学习方法的局限性。核心算法基于近端策略优化…...

编程新知 2026/2/7 4:16:41

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/1/25 9:03:19

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中，科研绘图是必不可少的，一张好看的图形会是文章很大的加分项。为了便于使用，本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中，获取方式： R 语言科研绘图模板 --- sciRplothttps://mp.…...

编程新知 2026/1/30 2:34:31

破解路内监管盲区：免布线低位视频桩重塑停车管理新标准

城市路内停车管理常因行道树遮挡、高位设备盲区等问题，导致车牌识别率低、逃费率高，传统模式在复杂路段束手无策。免布线低位视频桩凭借超低视角部署与智能算法，正成为破局关键。该设备安装于车位侧方0.5-0.7米高度，直接规避树枝遮…...

编程新知 2026/2/1 15:29:27

comfyui 工作流中图生视频如何增加视频的长度到5秒

comfyUI 工作流怎么可以生成更长的视频。除了硬件显存要求之外还有别的方法吗？ 在ComfyUI中实现图生视频并延长到5秒，需要结合多个扩展和技巧。以下是完整解决方案： 核心工作流配置（24fps下5秒120帧） #mermaid-svg-yP…...

编程新知 2025/11/4 17:30:04

数据库正常，但后端收不到数据原因及解决

从代码和日志来看，后端SQL查询确实返回了数据，但最终user对象却为null。这表明查询结果没有正确映射到User对象上。在前后端分离，并且ai辅助开发的时候，很容易出现前后端变量名不一致情况，还不报错，只是单…...

编程新知 2026/1/1 2:56:38

__VUE_PROD_HYDRATION_MISMATCH_DETAILS__ is not explicitly defined.

这个警告表明您在使用Vue的esm-bundler构建版本时，未明确定义编译时特性标志。以下是详细解释和解决方案： ‌问题原因‌： 该标志是Vue 3.4引入的编译时特性标志，用于控制生产环境下SSR水合不匹配错误的详细报告1使用esm-bundler…...

编程新知 2025/11/2 19:29:07