语言模型和人类的推理都依赖内容
人类不太擅长逻辑,需要依赖内容直觉进行推理。许多认知研究表明,人类的推理并不是完全抽象的(不是完全的形式与内容分离)。
相反,我们的推理取决于问题的内容:
- 当内容支持逻辑推理时,我们回答得更准确,
- 当内容和逻辑冲突时,我们会犯更多的错误。
这篇论文对最先进的大型语言模型和人类进行了评估,发现语言模型反映了人类在这些任务中观察到的许多相同模式--与人类一样,当任务的语义内容更准确时,模型的回答也更准确。
这些相似之处既反映在回答模式中,也反映在较低层次的特征中,如模型回答分布与人类响应时间之间的关系。我们的研究结果对理解人类的这些认知效应以及语言模型性能的影响因素都有意义。
抽象推理是智能系统的一项关键能力。
大型语言模型(LMs)在抽象推理任务中的表现超过了预期,但也表现出许多不完美之处。然而,人类的抽象推理也是不完美的。例如,人类的推理会受到现实世界知识和信念的影响,并表现出明显的 "内容效应";当问题的语义内容支持正确的逻辑推理时,人类的推理会更加可靠。
这些与内容相关的推理模式在有关人类智力基本性质的争论中发挥着核心作用。
在这里,我们研究了语言模型(其先验预期捕捉到了人类知识的某些方面)是否同样在逻辑问题的答案中混入了内容。
我们在三个逻辑推理任务中探讨了这一问题:自然语言推理、判断三段论的逻辑有效性和华森选择任务。
- 在简单的NLI自然语言推理任务中,无论内容如何,LM和人类都接近天花板。
- 在更困难的三段论和Wason任务中,准确性降低,并且当内容支持逻辑时,人类和LM都表现出比不支持逻辑时更好的性能。
在许多情况下,这些相似之处延伸到捕获人类内容效应的更精细的细节,例如内容对无效三段论的影响大于有效三段论,甚至在内容和其他任务变量的准确性控制中存在显着的项目级相关性。
相似之处还不仅仅是准确性;
- 在NLI和三段论任务中,我们发现人类响应时间和模型置信度之间存在项目级关联(logprob差异),即使在控制内容等时也是如此。
- 在Wason任务中,响应时间以不同的方式很重要-即使是现实的(内容支持的)版本对人类来说也比我们预期的要困难,只有响应最慢的子集(80秒)在这些问题上表现出高于机会的表现。
总的来说,我们发现LM和人类在推理任务上的表现有很大的重叠:内容对准确性和其他行为指标产生了类似的影响。人类和LMs都不是理想的抽象推理者
人类不太擅长逻辑,但内容可以在一定程度上提供帮助。
观点:推理源于直觉的证据
这篇令人信服的证据表明,人类和LLM大模型在推理时都非常依赖直观的归纳过程,而不是纯粹的逻辑演绎。以下是其中的三个主要原因:
首先,推理的准确性在很大程度上取决于人类和LLM的语义内容,这一发现表明了直觉知识和偏见的影响。如果推理是纯粹的逻辑(形式)推理,那么它就不会受到所涉及的实体是否符合现实世界关系的影响。内容效应揭示了直觉对逻辑应用的影响。
其次,人类与 LLM大模型 之间的相似性意味着人类与 LLM 有着共同的归纳、直觉基础。LLM 从语言的统计模式中获取知识,而不是逻辑规则的指导。它们通过归纳学习获得的偏差与人类的直觉如出一辙,这表明人类的推理与归纳有关。
第三,正规的逻辑教育只能部分减少人类的内容偏差。这表明仅靠明确的逻辑训练无法消除直觉偏差的影响。尽管进行了逻辑训练,但这些偏差依然存在,这有力地说明直觉过程在人类推理中发挥着不可或缺的作用。
总之,人类与 LLM 在将内容与逻辑相融合方面的相似之处、模型归纳与人类直觉之间的共性以及逻辑训练的局限性共同提供了令人信服的证据,证明人类和人工智能在推理时都会利用直觉和演绎。这些发现使人们对将人类推理视为纯粹逻辑系统的观点产生了怀疑。推理似乎深受对世界统计模式的直觉吸收的影响。
https://www.jdon.com/69468.html
相关文章:
语言模型和人类的推理都依赖内容
人类不太擅长逻辑,需要依赖内容直觉进行推理。许多认知研究表明,人类的推理并不是完全抽象的(不是完全的形式与内容分离)。 相反,我们的推理取决于问题的内容: 当内容支持逻辑推理时,我们回答…...
5.1 运输层协议概述
思维导图: 前言: 第5章 运输层笔记 1. 概览 主要内容:介绍运输层协议的特点、进程间通信、端口、UDP和TCP协议、可靠传输、TCP报文段的首部格式、TCP的关键概念(如滑动窗口、流量控制、拥塞控制和连接管理)。重要性…...
Jmeter保存csv数据文件出现乱码
在Jmeter的聚合报告中,点击“Save Table Data”,打开保存的CSV文件中文出现乱码。这是因为CSV文件的格式不是UTF-8导致。 解决办法如下: 方法:使用记事本打开csv文件(打开方式选择记事本),点击左上角菜单“文件-》另存…...
双闭环直流电机调速系统设计
要 在我们日常生活中,无刷直流电机随处可见,因为其相比其他电机而言结构相对简单,运行稳定且便于维修等优势,最重要的是直流电机在调速方面具有很好的优势。随着自动控制技术和微电子技术的不断革新,目前的技术水平为…...
[ poi-表格导出 ] java.lang.NoClassDefFoundError: org/apache/poi/POIXMLTypeLoader
解决报错: org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/poi/POIXMLTypeLoader 报错描述: 表格导出本来使用正常,偶然就报了以上错误…...
基于FPGA的图像差分运算及目标提取实现,包含testbench和MATLAB辅助验证程序
目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2022/07/28 01:51:…...
闭环思维笔记
这本书的情况我已经看完了,道理方面还是不错的,但案例方面跟我前几年在抖音看到的畅销书的案例一样,答辩,所以要看的人一定要根据不同的情况和场景去实施。 闭环思维的核心就是有始、有终、有反馈,在开始和结束过程中前…...
JMeter如何开展性能测试
文章目录 性能测试指标理解透彻以及测算微聊性能测试性能测试流程准备流程 👑作者主页:Java冰激凌 性能测试指标理解透彻以及测算 虚拟用户数: 线程 用户并发数:指在某一时间,一定数量的虚拟用户同时对系统的某个功…...
使用logback按天生成日志并按等级进行分类
先看效果---->>>> 按照:error、info、warn进行分类: 每个文件里面按日期进行分类: 其中对应的Maven如下: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven…...
【Linux】Linux项目部署及更改访问端口号和jdk、tomcat、MySQL环境搭建的配置安装
目录 一、作用 二、配置 1、上传安装包 2、jdk 2.1、解压对应安装包 2.2、环境变量搭建 3、tomcat 3.1、解压对应安装包 3.2、启动 3.3、设置防火墙 3.4、设置开发端口 4、MySQL 三、后端部署 四、Linux部署项目 1、单体项目 五、修改端口访问 1、进入目录 2…...
Pytorch 注意力机制解析与代码实现
目录 什么是注意力机制1、SENet的实现2、CBAM的实现3、ECA的实现4、CA的实现 什么是注意力机制 注意力机制是深度学习常用的一个小技巧,它有多种多样的实现形式,尽管实现方式多样,但是每一种注意力机制的实现的核心都是类似的,就…...
Python上下文管理:with语句执行原理
什么是上下文管理器 上下文管理器(Context Manager)是 Python 中用于管理资源分配和释放的一种机制。它允许您在进入和退出代码块时执行特定的操作,例如打开和关闭文件、建立和关闭数据库连接、获取和释放锁等。上下文管理器常常与 with 语句…...
Mac-Java开发环境安装(JDK和Maven)
JDK安装 1、访问oracle官网,下载jdk 点击下载链接:https://www.oracle.com/java/technologies/downloads/#java11-mac 选择Mac版本,下载dmg 打勾点击下载,跳转登陆,没有就注册,输入账号密码即可下载成功…...
mac下的vscode配置编译环境
基础开发环境 创建Dockerfile文件,内容如下: FROM ubuntu:20.04RUN apt update & apt install make gcc cmake git ninja-build -y CMD [ "sleep", "infinity" ]创建docker-compose.yml文件,内容如下: …...
洗衣洗鞋柜洗衣洗鞋小程序
支持:一键投递、上门取衣、自主送店、多种支付方式 TEL: 17638103951(同V) -----------------用户下单-------------- -------------------------多种支付和投递方式------------------------- -----------------商家取鞋--------------...
vi vim 末尾编辑按GA 在最后一行下方新增一行编辑按Go
vim 快速跳到文件末尾 在最后一行下方新增一行 移到末尾,并且进入文本录入模式 GA (大写G大写A) 在一般模式(刚进入的模式,esc模式) GA 或 Shift ga 先 G 或 shiftg 到最后一行 然后 A 或 shifta 到本行末尾 并且进入文本录入模式 在最后一行下方新增一行 (光标换行,文字不…...
LeetCode热题100 240.搜索二维矩阵||
题目描述: 编写一个高效的算法来搜索 m*n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例1: 输入:matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,2…...
Anaconda安装及使用教程
前言:鉴于本人曾经学过计算机双学位,近日突然发现电脑上装了Anaconda,然而脑子里对为什么装这个,啥时候装的以及怎么用的都忘记了。因此,想学习了解下这个软件。 1 Anaconda简介 Anaconda,一个开源的Pyth…...
动态规划算法实现------转换(编辑、变换)问题
目录 一、字符串转换问题 1.1问题 1.2确定动态规则(DP、状态转移方程)、初始值 (1)插入操作实现状态转移 (2)删除操作实现状态转移 (3)替换操作实现状态转移 (4)初始值 1.3动态规划算法代码实现 (1)完整代码 (2)程序速度优化 二、矩阵变换问题 2.1问题 2.2矩阵乘法 (1)矩阵相乘…...
C#使用Oracle.ManagedDataAccess.dll
1、添加引用 在网上下载一个Oracle.ManagedDataAccess.dll,引用即可,视操作系统的位数,最重要的是减少了Oracle客户端的安装; 2、web.config字串 <appSettings> <add key"hrp" value"Data Source (…...
大麦抢票终极指南:告别手速焦虑,轻松锁定心仪演出门票
大麦抢票终极指南:告别手速焦虑,轻松锁定心仪演出门票 【免费下载链接】ticket-purchase 大麦自动抢票,支持人员、城市、日期场次、价格选择 项目地址: https://gitcode.com/GitHub_Trending/ti/ticket-purchase 面对热门演唱会门票&q…...
一站式跨平台资源下载神器:5分钟掌握高效网络资源管理
一站式跨平台资源下载神器:5分钟掌握高效网络资源管理 【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 在数字内容…...
通过taotoken cli工具一键配置多开发环境下的api密钥与端点
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 通过taotoken cli工具一键配置多开发环境下的api密钥与端点 在团队协作或个人多项目开发中,管理不同大模型服务的API密…...
Vue3与Element Plus在企业级后台系统中的架构设计与深度实践
Vue3与Element Plus在企业级后台系统中的架构设计与深度实践 【免费下载链接】vue3-admin-plus 👏 An amazing admin framework of vue3 项目地址: https://gitcode.com/gh_mirrors/vu/vue3-admin-plus 在企业级后台管理系统的开发中,开发者常面临…...
AI 协同革命背后:多智能体系统的失控风险
子玥酱 (掘金 / 知乎 / CSDN / 简书 同名) 大家好,我是 子玥酱,一名长期深耕在一线的前端程序媛 👩💻。曾就职于多家知名互联网大厂,目前在某国企负责前端软件研发相关工作,主要聚…...
BurpShiroPassiveScan被动检测原理与实战调优指南
1. 这不是“加个插件就能挖到Shiro反序列化”的幻觉,而是你真正理解被动检测边界的开始很多人第一次在Burp Suite里装上 BurpShiroPassiveScan,点开一个Java老系统首页,看到插件弹出一条“疑似Shiro RememberMe Cookie”的告警,就…...
终极指南:3步解锁网易云音乐NCM格式的完整Windows解决方案
终极指南:3步解锁网易云音乐NCM格式的完整Windows解决方案 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾经下载了网易云音乐的歌曲&…...
使用workbuddy 30分钟搭建微信小程序
前言 今天发现一个超好用的工具WorkBuddy可以非常快速地进行搭建小程序,还有进行一些代码的修改,简直是一个开发小程序的好帮手,今天用一节很小的短篇介绍一下整个创建部署和搭建过程。 第一步下载workbuddy 创建小程序 首先需要下载work…...
uv虽快但包管理体验差:命令笨拙、更新不安全,改进之路在何方?
【uv项目承接与特点】自2023年以来,作者首次有空承接新的项目。Astral的uv在Python世界掀起热潮,它速度极快,能轻松处理Python版本,还能用一个二进制文件替代半打工具,作者之前也写过多篇关于它的文章。【uv使用体验问…...
Motrix Next v3.8.10 | 开源多线程下载管理器神器
Motrix Next v3.8.10是一款全新重构升级的开源多线程下载管理器,老牌原版 Motrix 早已停止更新,老旧架构存在诸多安全漏洞与性能缺陷。而 Motrix Next 基于 Tauri 2Vue3 全新重构开发,补齐了原版技术短板,软件全程纯净无任何广告加…...
