论文笔记:Large Language Models as Analogical Reasoners
iclr 2024 reviewer打分5558
1 intro
- 基于CoT prompt的大模型能够更好地解决复杂推理问题
- 然而传统CoT需要提供相关的例子作为指导,这就增加了人工标注的成本
- ——>Zero-shot CoT避免了人工标注来引导推理
- 但是对于一些复杂的任务难以完成推理,例如code generation
- ——>论文提出一种“归纳学习”的提示方法
- 首先设计prompt让大模型生成出与当前问题比较相关的问题和答案,以辅助问答提出的问题

2 preliminary
-
给定一个问题x
-
首先通过prompt将问题映射到文本输入ϕ ( x )
-
zero-shot ϕ ( x ) 就是x zero-shot CoT ϕ ( x ) 是[x] think step by step few-shot CoT ϕ ( x ) 是[x]和一些带label的例子
,即
[x1][r1][a1].....[xK][rK][aK][x]
-
-
任务目标是调用LLM解决这个问题【生成目标答案y】
-
生成的目标答案可以包含reasoning path r【推理过程】和答案a
-
-
3 方法
3.1 Self-Generated Exemplars
- 让大模型从在训练阶段掌握的problem-solving knowledge中生成出相关的问题和解决方法

3.1.1 prompt举例

3.1.2 大模型给的答案

大模型先生成出3个相关的且互不相同的problem,并给出相应的解决方案,然后再对目标问题进行解决。
3.1.3 self-generated instruction的三个核心部分
- 明确地让大模型生成相关且不同的样例。
- 因为大模型会偏向于重复地生成一些经典的问题,导致误导
- single-pass VS independent exemplar generation
- 所谓single-pass,就是直接prompt,让模型生成3个样例
- independent exemplar generation:让模型生成若干样例,然后采样3个样例,之后再重新设计prompt让大模型进行生成
- ——>通过实验,发现single-pass效果最好
- 生成的样例数量:3~5最佳
3.2 Self-generated Knowledge + Exemplars
- 对于像代码生成等复杂的任务,3.1这样的案例生成方法不一定能过让模型很好地解决此类问题
- ——>论文提出一种high-level generation方法。通过设计如下指令来实现:

- 【让模型先思考选择什么algorithm,以及algorithm对应的tutorial】
有点类似于:论文笔记:Take a Step Back:Evoking Reasoning via Abstraction in Large Language Models-CSDN博客的后退一步?
3.2.1 prompt 案例

3.2.2 大模型给的答案

4 实验
4.1 实验任务
- 数学问题:GSM8K、MATH等;
- 代码生成:动态规划、图算法等复杂的编程题
4.2 效果比较
4.2.1 数学问题

4.2.2 代码生成

4.3 few-shot example 数量的异同

相关文章:
论文笔记:Large Language Models as Analogical Reasoners
iclr 2024 reviewer打分5558 1 intro 基于CoT prompt的大模型能够更好地解决复杂推理问题 然而传统CoT需要提供相关的例子作为指导,这就增加了人工标注的成本——>Zero-shot CoT避免了人工标注来引导推理 但是对于一些复杂的任务难以完成推理,例如c…...
第3章 数据定义语言DDL
文章目录 第3章 DDL语言:数据定义语言3.1 MySQL的数据类型3.2 表的创建:create3.3 表的删除:drop3.4 快速创建表3.5 快速删除表中的数据:truncate3.6 修改表结构:alter 第5章 约束5.1 非空约束:not null5.2…...
C#操作MySQL从入门到精通(7)——对查询数据进行简单过滤
前言 我们在查询数据库中数据的时候,有时候需要剔除一些我们不想要的数据,这时候就需要对数据进行过滤,比如学生信息中,我只需要年龄等于18的,类似这种操作,本文就是详细介绍如何对查询的数据进行初步的过滤。 1、等于操作符 本次查询student_age 等于20的数据,使用我…...
【CVE复现计划】CVE-2024-0195
CVE-2024-0195 简介: SpiderFlow是新一代开源爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。基于springbootlayui开发的前后端不分离,也可以进行二次开发。该系统/function/save接口存在RCE漏洞,攻击者可以构造恶意命…...
k8s的ca以及相关证书签发流程
k8s的ca以及相关证书签发流程 1. kube-apiserver相关证书说明2. 生成CA凭证1.1. 生成CA私钥1.2. 生成CA证书 2. 生成kube-apiserver凭证2.1. 生成kube-apiserver私钥2.2. 生成kube-apiserver证书请求2.3. 生成kube-apiserver证书 3. 疑问和思考4. 参考文档 对于网站类的应用&am…...
思迈特软件与上海德拓签署战略合作协议,携手赋能企业数字化转型
3月27日,广州思迈特软件有限公司(简称“思迈特软件”)与上海德拓信息技术有限公司(简称“德拓信息”)正式签约建立战略合作伙伴关系。双方将在数字化转型、数据服务、数据应用以及市场资源等多个领域展开深度合作&…...
【快捷部署】015_Minio(latest)
📣【快捷部署系列】015期信息 编号选型版本操作系统部署形式部署模式复检时间015MiniolatestCentOS 7.XDocker单机2024-04-09 一、快捷部署 #!/bin/bash ################################################################################# # 作者:c…...
<网络安全>《72 微课堂<什么是靶场?>》
1 简介 网络安全靶场是一种模拟真实网络环境的技术或平台。 网络安全靶场基于虚拟化技术,能够模拟网络架构、系统设备、业务流程的运行状态及运行环境,用于支持网络安全相关的学习、研究、检验、竞赛和演习等活动,旨在提高人员及机构的网络…...
Golang | Leetcode Golang题解之第18题四数之和
题目: 题解: func fourSum(nums []int, target int) (quadruplets [][]int) {sort.Ints(nums)n : len(nums)for i : 0; i < n-3 && nums[i]nums[i1]nums[i2]nums[i3] < target; i {if i > 0 && nums[i] nums[i-1] || nums[i]…...
自动驾驶中的传感器融合算法:卡尔曼滤波器和扩展卡尔曼滤波器
自动驾驶中的传感器融合算法:卡尔曼滤波器和扩展卡尔曼滤波器 附赠自动驾驶学习资料和量产经验:链接 介绍: 追踪静止和移动的目标是自动驾驶技术领域最为需要的核心技术之一。来源于多种传感器的信号,包括摄像头,雷达…...
基于ssm的星空游戏购买下载平台的设计与实现论文
摘 要 随着科学技术的飞速发展,各行各业都在努力与现代先进技术接轨,通过科技手段提高自身的优势,商品交易当然也不能排除在外,随着商品交易管理的不断成熟,它彻底改变了过去传统的经营管理方式,不仅使商品…...
DSOX6004A是德科技DSOX6004A示波器
181/2461/8938产品概述: 特点: 是德科技DSOX6004A具有7合1集成功能,结合了数字通道、串行协议分析、内置双通道波形发生器、频率响应分析、内置数字万用表和带累加器的内置10位计数器。1千兆赫至6千兆赫4个模拟通道在12.1英寸电容式多点触摸屏上轻松查…...
golang 使用 cipher、aes 实现 oauth2 验证
在Go语言中,crypto/cipher包提供了加密和解密消息的功能。这个包实现了各种加密算法,如AES、DES、3DES、RC4等,以及相应的模式,如ECB、CBC、CFB、OFB、CTR等。以下是如何使用crypto/cipher包进行加密和解密操作的基本步骤…...
LLMs之FreeGPT35:FreeGPT35的简介、安装和使用方法、案例应用之详细攻略
LLMs之FreeGPT35:FreeGPT35的简介、安装和使用方法、案例应用之详细攻略 目录 FreeGPT35的简介 FreeGPT35的安装和使用方法 1、部署和启动服务 Node 2、使用 Docker 部署服务: 运行 Docker 容器以部署服务 使用 Docker Compose 进行更方便的容器化…...
【力扣一刷】代码随想录day32(贪心算法part2:122.买卖股票的最佳时机II、55. 跳跃游戏、45.跳跃游戏II )
目录 【122.买卖股票的最佳时机II】中等题 方法一 贪心算法 方法二 动态规划 【55. 跳跃游戏】中等题 【尝试】 递归 (超时) 方法 贪心算法 【45.跳跃游戏II】中等题 方法 贪心算法 【122.买卖股票的最佳时机II】中等题(偏简单࿰…...
安卓远离手机app
软件介绍 远离手机是专门为防止年轻人上瘾而打造的生活管理类的软件,适度用手机,保护眼睛,节约时间。 下载 安卓远离手机app...
yolov5旋转目标检测遥感图像检测-无人机旋转目标检测(代码和原理)
YOLOv5(You Only Look Once version 5)是一个流行且高效的实时目标检测深度学习模型,最初设计用于处理图像中的水平矩形边界框目标。然而,对于旋转目标检测,通常需要对原始YOLOv5架构进行扩展或修改,以便能…...
云手机提供私域流量变现方案
当今数字营销领域,私域流量是一座巨大的金矿,然而并非人人能够轻易挖掘。一家营销公司面临着利用社交、社区、自媒体等应用积累私域流量,并通过销售产品、推送广告等方式实现流量变现的挑战与困境。本文将详细介绍这家公司是如何通过云手机&a…...
树的基本概念与二叉树
文章目录 树的基本概念与二叉树一、树的概念和结构1. 树的概念2. 树的相关概念 二、树的存储1. 左孩子右兄弟表示法2. 双亲表示法 三、二叉树1. 特殊的二叉树1.1 满二叉树1.2 完全二叉树 树的基本概念与二叉树 一、树的概念和结构 1. 树的概念 树是一种非线性的数据结构,它是…...
什么是物理服务器?
物理服务器又叫做独立服务器,指物理上的单独服务器,是有着实体的服务器并不是虚拟的,物理服务器也可以理解成一台超大的电脑,但是对于普通的家用电脑来说,物理服务器需要长期处于开机的状态,对于硬件性能消…...
千问3.5-2B保姆级教程:从模型原理到业务集成的全栈技术路径
千问3.5-2B保姆级教程:从模型原理到业务集成的全栈技术路径 1. 认识千问3.5-2B视觉语言模型 千问3.5-2B是Qwen系列中的小型视觉语言模型,它能够同时理解图片内容和处理自然语言。简单来说,这个模型就像是一个能"看懂"图片并回答问…...
【帮宝抑菌膏】宝宝额头起红疹子怎么办?宝妈必看的原因与护理指南
宝宝额头突然冒出一片片红疹子,不仅让宝宝难受哭闹,更让新手父母揪心不已。作为深耕母婴护理领域十余年的专业品牌,帮宝凭借丰富的育儿指导经验和科学护理方案,为宝妈们提供全方位的解决方案。当发现宝宝额头起红疹子时࿰…...
intv_ai_mk11实战手册:构建AI增强型Confluence知识库——自动打标签+关联推荐
intv_ai_mk11实战手册:构建AI增强型Confluence知识库——自动打标签关联推荐 1. 项目背景与价值 在现代企业知识管理中,Confluence作为广泛使用的知识库平台,面临着内容组织效率低下的挑战。传统手动分类和标签管理方式存在三个核心痛点&am…...
Vue项目里嵌入一个专属绘图工具:我是如何用Drawio-Embed定制企业级流程设计器的
Vue项目中定制企业级流程设计器:基于Drawio-Embed的深度集成实践 当企业级应用需要内置可视化流程设计能力时,现成解决方案往往难以满足高度定制化的业务需求。本文将分享如何基于Drawio核心引擎,通过Vue生态实现一个深度集成、可完全定制的流…...
GraphRAG实战:我是如何用它分析公司内部文档,让客服响应时间缩短近30%的
GraphRAG实战:我是如何用它分析公司内部文档,让客服响应时间缩短近30%的 作为一家中型电商企业的技术负责人,我最近半年一直在与客服团队的一个顽固问题搏斗:每当新品上线或促销活动期间,客服人员需要花费大量时间在不…...
dy自动化采集数据滑动验证码绕过实战指南
1. 理解dy滑动验证码的运作机制 当你用脚本快速刷dy视频时,经常会遇到那个烦人的滑块验证码。这其实是平台防止机器人滥用的重要防线。我刚开始做自动化采集时,每次遇到这个滑块都会头皮发麻——程序卡住不动,数据采集被迫中断。后来经过反复…...
效率倍增器:利用快马AI自动生成网络设备批量巡检与健康报告脚本
最近在深圳做网络运维的朋友跟我吐槽,每天要手动巡检几十台网络设备,检查CPU、内存、接口状态这些指标,不仅耗时还容易出错。于是我尝试用InsCode(快马)平台帮他解决这个问题,效果出奇的好。今天就把这个自动化巡检脚本的实现过程…...
想了解欧拉好猫参数?这篇文章给你详细答案!
在当今新能源汽车市场蓬勃发展的背景下,欧拉好猫凭借其独特的魅力,在众多车型中脱颖而出,吸引了众多消费者的目光。以下将对欧拉好猫的相关参数及技术亮点进行详细解析。外观设计与尺寸欧拉好猫采用复古未来主义的设计风格,圆润的…...
【HTTP】HTTP协议核心体系:请求方法与状态码全结构化解析(附《思维导图》)
文章目录HTTP协议核心体系:请求方法与状态码全结构化解析一、核心基础概念1.1 HTTP方法的两大核心属性(规范级定义)1.2 HTTP状态码分类规则二、HTTP请求方法2.1 标准核心方法(RFC 7231 定义)2.1.1 只读类方法ÿ…...
亚马逊AMC数据驱动时代,选对ERP才能玩转精准投放
随着亚马逊广告生态的持续升级,AMC(Amazon Marketing Cloud)作为高阶数据分析工具,正成为头部卖家精细化运营的“标配”。AMC能够整合品牌在亚马逊站内外多渠道的广告与消费者行为数据,但其核心价值在于数据的打通与应…...
