当前位置: 首页 > news >正文

语言模型和人类的推理都依赖内容

人类不太擅长逻辑,需要依赖内容直觉进行推理。许多认知研究表明,人类的推理并不是完全抽象的(不是完全的形式与内容分离)。

相反,我们的推理取决于问题的内容:

  • 当内容支持逻辑推理时,我们回答得更准确,
  • 当内容和逻辑冲突时,我们会犯更多的错误。

这篇论文对最先进的大型语言模型和人类进行了评估,发现语言模型反映了人类在这些任务中观察到的许多相同模式--与人类一样,当任务的语义内容更准确时,模型的回答也更准确。

这些相似之处既反映在回答模式中,也反映在较低层次的特征中,如模型回答分布与人类响应时间之间的关系。我们的研究结果对理解人类的这些认知效应以及语言模型性能的影响因素都有意义。

抽象推理是智能系统的一项关键能力。
大型语言模型(LMs)在抽象推理任务中的表现超过了预期,但也表现出许多不完美之处。然而,人类的抽象推理也是不完美的。例如,人类的推理会受到现实世界知识和信念的影响,并表现出明显的 "内容效应";当问题的语义内容支持正确的逻辑推理时,人类的推理会更加可靠。

这些与内容相关的推理模式在有关人类智力基本性质的争论中发挥着核心作用。

在这里,我们研究了语言模型(其先验预期捕捉到了人类知识的某些方面)是否同样在逻辑问题的答案中混入了内容。

我们在三个逻辑推理任务中探讨了这一问题:自然语言推理、判断三段论的逻辑有效性和华森选择任务。

  • 在简单的NLI自然语言推理任务中,无论内容如何,LM和人类都接近天花板。
  • 在更困难的三段论和Wason任务中,准确性降低,并且当内容支持逻辑时,人类和LM都表现出比不支持逻辑时更好的性能。

在许多情况下,这些相似之处延伸到捕获人类内容效应的更精细的细节,例如内容对无效三段论的影响大于有效三段论,甚至在内容和其他任务变量的准确性控制中存在显着的项目级相关性。

相似之处还不仅仅是准确性;

  • 在NLI和三段论任务中,我们发现人类响应时间和模型置信度之间存在项目级关联(logprob差异),即使在控制内容等时也是如此。
  • 在Wason任务中,响应时间以不同的方式很重要-即使是现实的(内容支持的)版本对人类来说也比我们预期的要困难,只有响应最慢的子集(80秒)在这些问题上表现出高于机会的表现。

总的来说,我们发现LM和人类在推理任务上的表现有很大的重叠:内容对准确性和其他行为指标产生了类似的影响。人类和LMs都不是理想的抽象推理者

人类不太擅长逻辑,但内容可以在一定程度上提供帮助。

观点:推理源于直觉的证据
这篇令人信服的证据表明,人类和LLM大模型在推理时都非常依赖直观的归纳过程,而不是纯粹的逻辑演绎。以下是其中的三个主要原因:

首先,推理的准确性在很大程度上取决于人类和LLM的语义内容,这一发现表明了直觉知识和偏见的影响。如果推理是纯粹的逻辑(形式)推理,那么它就不会受到所涉及的实体是否符合现实世界关系的影响。内容效应揭示了直觉对逻辑应用的影响。

其次,人类与 LLM大模型 之间的相似性意味着人类与 LLM 有着共同的归纳、直觉基础。LLM 从语言的统计模式中获取知识,而不是逻辑规则的指导。它们通过归纳学习获得的偏差与人类的直觉如出一辙,这表明人类的推理与归纳有关。

第三,正规的逻辑教育只能部分减少人类的内容偏差。这表明仅靠明确的逻辑训练无法消除直觉偏差的影响。尽管进行了逻辑训练,但这些偏差依然存在,这有力地说明直觉过程在人类推理中发挥着不可或缺的作用。

总之,人类与 LLM 在将内容与逻辑相融合方面的相似之处、模型归纳与人类直觉之间的共性以及逻辑训练的局限性共同提供了令人信服的证据,证明人类和人工智能在推理时都会利用直觉和演绎。这些发现使人们对将人类推理视为纯粹逻辑系统的观点产生了怀疑。推理似乎深受对世界统计模式的直觉吸收的影响。

https://www.jdon.com/69468.html

相关文章:

语言模型和人类的推理都依赖内容

人类不太擅长逻辑,需要依赖内容直觉进行推理。许多认知研究表明,人类的推理并不是完全抽象的(不是完全的形式与内容分离)。 相反,我们的推理取决于问题的内容: 当内容支持逻辑推理时,我们回答…...

5.1 运输层协议概述

思维导图: 前言: 第5章 运输层笔记 1. 概览 主要内容:介绍运输层协议的特点、进程间通信、端口、UDP和TCP协议、可靠传输、TCP报文段的首部格式、TCP的关键概念(如滑动窗口、流量控制、拥塞控制和连接管理)。重要性…...

Jmeter保存csv数据文件出现乱码

在Jmeter的聚合报告中,点击“Save Table Data”,打开保存的CSV文件中文出现乱码。这是因为CSV文件的格式不是UTF-8导致。 解决办法如下: 方法:使用记事本打开csv文件(打开方式选择记事本),点击左上角菜单“文件-》另存…...

双闭环直流电机调速系统设计

要 在我们日常生活中,无刷直流电机随处可见,因为其相比其他电机而言结构相对简单,运行稳定且便于维修等优势,最重要的是直流电机在调速方面具有很好的优势。随着自动控制技术和微电子技术的不断革新,目前的技术水平为…...

[ poi-表格导出 ] java.lang.NoClassDefFoundError: org/apache/poi/POIXMLTypeLoader

解决报错: org.springframework.web.util.NestedServletException: Handler dispatch failed; nested exception is java.lang.NoClassDefFoundError: org/apache/poi/POIXMLTypeLoader 报错描述: 表格导出本来使用正常,偶然就报了以上错误…...

基于FPGA的图像差分运算及目标提取实现,包含testbench和MATLAB辅助验证程序

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 timescale 1ns / 1ps // // Company: // Engineer: // // Create Date: 2022/07/28 01:51:…...

闭环思维笔记

这本书的情况我已经看完了,道理方面还是不错的,但案例方面跟我前几年在抖音看到的畅销书的案例一样,答辩,所以要看的人一定要根据不同的情况和场景去实施。 闭环思维的核心就是有始、有终、有反馈,在开始和结束过程中前…...

JMeter如何开展性能测试

文章目录 性能测试指标理解透彻以及测算微聊性能测试性能测试流程准备流程 ​👑作者主页:Java冰激凌 性能测试指标理解透彻以及测算 虚拟用户数: 线程 用户并发数:指在某一时间,一定数量的虚拟用户同时对系统的某个功…...

使用logback按天生成日志并按等级进行分类

先看效果---->>>> 按照&#xff1a;error、info、warn进行分类&#xff1a; 每个文件里面按日期进行分类&#xff1a; 其中对应的Maven如下&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven…...

【Linux】Linux项目部署及更改访问端口号和jdk、tomcat、MySQL环境搭建的配置安装

目录 一、作用 二、配置 1、上传安装包 2、jdk 2.1、解压对应安装包 2.2、环境变量搭建 3、tomcat 3.1、解压对应安装包 3.2、启动 3.3、设置防火墙 3.4、设置开发端口 4、MySQL 三、后端部署 四、Linux部署项目 1、单体项目 五、修改端口访问 1、进入目录 2…...

Pytorch 注意力机制解析与代码实现

目录 什么是注意力机制1、SENet的实现2、CBAM的实现3、ECA的实现4、CA的实现 什么是注意力机制 注意力机制是深度学习常用的一个小技巧&#xff0c;它有多种多样的实现形式&#xff0c;尽管实现方式多样&#xff0c;但是每一种注意力机制的实现的核心都是类似的&#xff0c;就…...

Python上下文管理:with语句执行原理

什么是上下文管理器 上下文管理器&#xff08;Context Manager&#xff09;是 Python 中用于管理资源分配和释放的一种机制。它允许您在进入和退出代码块时执行特定的操作&#xff0c;例如打开和关闭文件、建立和关闭数据库连接、获取和释放锁等。上下文管理器常常与 with 语句…...

Mac-Java开发环境安装(JDK和Maven)

JDK安装 1、访问oracle官网&#xff0c;下载jdk 点击下载链接&#xff1a;https://www.oracle.com/java/technologies/downloads/#java11-mac 选择Mac版本&#xff0c;下载dmg 打勾点击下载&#xff0c;跳转登陆&#xff0c;没有就注册&#xff0c;输入账号密码即可下载成功…...

mac下的vscode配置编译环境

基础开发环境 创建Dockerfile文件&#xff0c;内容如下&#xff1a; FROM ubuntu:20.04RUN apt update & apt install make gcc cmake git ninja-build -y CMD [ "sleep", "infinity" ]创建docker-compose.yml文件&#xff0c;内容如下&#xff1a; …...

洗衣洗鞋柜洗衣洗鞋小程序

支持&#xff1a;一键投递、上门取衣、自主送店、多种支付方式 TEL: 17638103951(同V) -----------------用户下单-------------- -------------------------多种支付和投递方式------------------------- -----------------商家取鞋--------------...

vi vim 末尾编辑按GA 在最后一行下方新增一行编辑按Go

vim 快速跳到文件末尾 在最后一行下方新增一行 移到末尾,并且进入文本录入模式 GA (大写G大写A) 在一般模式(刚进入的模式,esc模式) GA 或 Shift ga 先 G 或 shiftg 到最后一行 然后 A 或 shifta 到本行末尾 并且进入文本录入模式 在最后一行下方新增一行 (光标换行,文字不…...

LeetCode热题100 240.搜索二维矩阵||

题目描述&#xff1a; 编写一个高效的算法来搜索 m*n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性&#xff1a; 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例1&#xff1a; 输入&#xff1a;matrix [[1,4,7,11,15],[2,5,8,12,19],[3,6,9,16,2…...

Anaconda安装及使用教程

前言&#xff1a;鉴于本人曾经学过计算机双学位&#xff0c;近日突然发现电脑上装了Anaconda&#xff0c;然而脑子里对为什么装这个&#xff0c;啥时候装的以及怎么用的都忘记了。因此&#xff0c;想学习了解下这个软件。 1 Anaconda简介 Anaconda&#xff0c;一个开源的Pyth…...

动态规划算法实现------转换(编辑、变换)问题

目录 一、字符串转换问题 1.1问题 1.2确定动态规则(DP、状态转移方程)、初始值 (1)插入操作实现状态转移 (2)删除操作实现状态转移 (3)替换操作实现状态转移 (4)初始值 1.3动态规划算法代码实现 (1)完整代码 (2)程序速度优化 二、矩阵变换问题 2.1问题 2.2矩阵乘法 (1)矩阵相乘…...

C#使用Oracle.ManagedDataAccess.dll

1、添加引用 在网上下载一个Oracle.ManagedDataAccess.dll&#xff0c;引用即可&#xff0c;视操作系统的位数&#xff0c;最重要的是减少了Oracle客户端的安装&#xff1b; 2、web.config字串 <appSettings> <add key"hrp" value"Data Source (…...

python --导出数据库表结构(pymysql)

import pymysql from pymysql.cursors import DictCursor from typing import Optional, Dict, List, Anyclass DBSchemaExporter:"""MySQL数据库表结构导出工具&#xff0c;支持提取表和字段注释使用示例:>>> exporter DBSchemaExporter("local…...

深入解析I²C总线接口:从基础到应用

IC总线概述与基本概念 一句话概述&#xff1a;本章节将介绍IC总线的历史、定义及其在嵌入式系统中的作用&#xff0c;帮助读者建立对IC的基本理解。 IC&#xff08;Inter-Integrated Circuit&#xff09;总线是一种广泛应用于嵌入式系统中的串行通信协议&#xff0c;最初由飞利…...

Animate On Scroll 用于在用户滚动页面时实现元素的动画效果

AOS (Animate On Scroll) 详细介绍 什么是AOS&#xff1f; AOS&#xff08;Animate On Scroll&#xff09;是一个轻量级的JavaScript库&#xff0c;用于在用户滚动页面时实现元素的动画效果。它允许网页元素在进入或离开视口&#xff08;viewport&#xff09;时触发各种CSS动…...

11. vue pinia 和react redux、jotai对比

对比 Vue 的 Pinia&#xff0c;和 React 的 Redux、Jotai&#xff0c;分中英文简要介绍、特性、底层原理、使用场景。 简单介绍 1.1 Pinia&#xff08;Vue&#xff09; • 英文&#xff1a;Pinia is the official state management library for Vue 3, designed to be simple…...

【推荐算法】DeepFM:特征交叉建模的革命性架构

DeepFM&#xff1a;特征交叉建模的革命性架构 一、算法背景知识&#xff1a;特征交叉的演进困境1.1 特征交叉的核心价值1.2 传统方法的局限性 二、算法理论/结构&#xff1a;双路并行架构2.1 FM组件&#xff1a;显式特征交叉专家2.2 Deep组件&#xff1a;隐式高阶交叉挖掘机2.3…...

【基础】每天掌握一个Linux命令 - awk

目录 【基础】每天掌握一个Linux命令 - awk一、工具概述二、安装方式Ubuntu/Debian系统&#xff1a;CentOS/RHEL系统&#xff1a;macOS系统&#xff1a; 三、核心功能四、基础用法基本语法常用选项内置变量基本操作示例1. 打印文件所有内容2. 打印每行的第一个字段3. 指定分隔符…...

.net jwt实现

.NET 中实现 JWT 认证&#xff1a;详细指南 在现代的 Web 应用开发中&#xff0c;安全认证是至关重要的一环。JSON Web Token&#xff08;JWT&#xff09;作为一种广泛使用的认证机制&#xff0c;为 API 提供了安全、便捷的身份验证方式。本文将详细介绍如何在 ASP.NET Core 项…...

精益数据分析(94/126):30/10/10用户参与法则与定价策略的科学制定

精益数据分析&#xff08;九十四&#xff09;&#xff1a;30/10/10用户参与法则与定价策略的科学制定 在创业过程中&#xff0c;如何衡量用户参与度是否健康&#xff1f;又该如何制定科学的定价策略实现营收最大化&#xff1f;今天&#xff0c;我们将深入解析Union Square Ven…...

从零开始的数据结构教程(六) 贪心算法

&#x1f36c; 标题一&#xff1a;贪心核心思想——发糖果时的最优分配策略 贪心算法 (Greedy Algorithm) 是一种简单直观的算法策略。它在每一步选择中都采取在当前状态下最好或最优&#xff08;即最有利&#xff09;的选择&#xff0c;从而希望得到一个全局最优解。这就像你…...

React---扩展补充

一些额外的扩展 4.3 高阶组件 高阶组件是参数为组件&#xff0c;返回值为新组件的函数&#xff1b; 高阶组件 本身不是一个组件&#xff0c;而是一个函数&#xff1b;其次&#xff0c;这个函数的参数是一个组件&#xff0c;返回值也是一个组件&#xff1b; import React fr…...