当前位置: 首页 > news >正文

哈佛大学 || 概念空间中学习动态的涌现:探索隐藏能力

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读

今天主要看一个问题:在模型中的学习动态是如何涌现的。

在现代生成模型的研究与应用中,不断发现这些模型在处理训练数据时展现出了惊人的能力,这些能力很可能源于它们识别并操纵数据生成过程中的抽象概念的能力。然而,关于模型学习这些概念的决定因素、学习的顺序以及操纵这些概念的能力,仍有许多基本问题尚未解决。

为了探索这些问题,哈佛大学的论文中提出了概念空间中的学习动态问题。

在概念空间中,每一个轴都代表数据生成过程中的一个独立概念。通过在这个空间中描述学习动态,识别出概念学习的速度以及学习顺序是如何被数据的特性所控制的。更令人惊讶的是,模型在概念空间中学习动态的方向突然转变的时刻,这些点正好对应于隐藏能力的出现,即模型具有操纵某一概念的能力,但这些能力还不能通过简单的输入提示来引发。


4600ed99f5278407f89e452e64ad9696.jpeg

论文标题: Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

机构:

  1. Department of Physics, Harvard University, Cambridge, MA, USA
  2. Center for Brain Science, Harvard University, Cambridge, MA, USA
  3. Physics & Informatics Laboratories, NTT Research, Inc., Sunnyvale, CA, USA
  4. EECS Department, University of Michigan, Ann Arbor, MI, USA

论文链接:https://arxiv.org/pdf/2406.19370.pdf

什么是概念空间

在现代生成模型的研究中,概念空间框架提供了一个新颖的视角来分析和理解模型如何学习和操纵数据生成过程中的概念。概念空间是一个抽象的坐标系统,其轴对应于数据生成过程中的独立概念。这些概念可以是形状、大小、颜色等,每一个轴代表一个概念的变化维度。

通过在概念空间中分析模型的学习动态,可以观察到模型如何逐步学习各个概念,并且如何在学习过程中突然转变其学习方向。这些转变点通常对应于模型突然获得新能力的时刻,即模型已经具备了操纵某一概念的能力,但这些能力在常规输入提示下尚未显现。

例如,考虑一个以形状、大小和颜色为概念的概念空间,如果模型在训练中看到了蓝色圆形,那么在概念空间中,这可以表示为沿着颜色和形状轴的一个点。如果后续模型能够生成红色圆形或蓝色三角形,这表明模型已经学会了在概念空间中沿颜色或形状轴移动,从而操纵这些概念生成新的图像样本。

学习动态的实验设置

为了具体分析模型在概念空间中的学习动态,设计了一系列实验,使用合成的玩具数据集来控制数据生成过程。这些数据集包含了具有不同形状、大小和颜色的2D对象能够精确地追踪模型在学习各个概念时的表现。

1. 实验数据生成:定义了三个概念:颜色(红色、蓝色)、大小(大、小)、形状(圆形、三角形)。生成了2048个图像,每个图像中的对象位置随机但属性固定。

2. 模型训练与测试:使用变分扩散模型,条件化地生成32x32的图像。训练集包括大红圆、大蓝圆和小红圆等类别,测试集则包括小蓝圆,以评估模型对概念的操纵能力和泛化能力。

3. 评估指标:训练了概念分类器来评估生成图像是否符合目标概念类。这些分类器基于U-Net架构,通过平均池化层和多个MLP分类头来独立评估每个概念变量。

通过这些设置,可以详细地观察和分析模型在概念空间中的学习轨迹,以及不同概念信号强度如何影响模型学习概念的速度和顺序。这些实验不仅帮助理解生成模型的内部工作机制,还为评估和提升模型的概念操纵能力提供了实验基础。

2821240db06cfa399f4ce5914d0c3a48.jpeg

概念信号对学习速度的影响

在现代生成模型的学习过程中,概念信号的作用至关重要。概念信号是指数据生成过程中对概念变量值变化的敏感度。这一度量指标直接影响模型学习概念的速度,从而决定了模型能够多快地掌握并操纵这些概念。

通过对不同概念信号强度的实验,发现概念信号的大小直接决定了模型学习特定概念的速度。例如,在实验中,通过调整颜色和大小概念的RGB对比度和对象大小差异,我们观察到当概念信号较强时,模型学习该概念的速度明显加快。这一发现不仅展示了概念信号在概念学习中的直接作用,还进一步揭示了不同概念信号强度可能导致的学习速度差异

d9923496e2e4216888656022e5038e09.jpeg

图3:概念信号决定了学习速度。当不同类别之间的颜色(左)和大小(右)的分离增加时,概念学习的速度与梯度步长时间的反比。当概念类和概念之间的像素差异较大时,概念学习速度更快。


概念学习的突变和阶段转换

在概念空间中的学习动态分析揭示了概念学习过程中的突变和阶段转换现象。研究表明,模型的学习轨迹在概念空间中经历了明显的转折点,这些转折点恰好对应于模型突然获得操纵概念的隐藏能力的时刻。

具体来说,通过分析模型在概念空间中的学习轨迹,观察到学习动态可以被划分为两个阶段:第一阶段是隐藏能力的学习阶段,在这一阶段中,尽管模型还不能通过简单的输入提示来产生期望的输出,但已经存在系统性的潜在干预措施可以引导模型生成期望的输出;第二阶段是从输入空间学习生成期望输出的阶段。

这种从概念记忆到概念操作能力突变的现象,不仅玩具模型数据集上有所体现,也在更广泛的实际应用模型中得到了验证。这一发现对于理解和优化生成模型的训练过程具有重要意义,提供了一个新的视角来观察和解释模型在学习过程中能力的突然变化和阶段性进展。

隐藏能力的实际激发

在现代生成模型的训练过程中,观察到一个有趣的现象:模型在概念空间中的学习动态会突然转变方向。这些转变点与隐藏能力的出现密切相关,即模型已经具备了操纵某一概念的能力,但这些能力尚未通过简单的输入提示被激发出来。这种能力的突然出现,称之为“隐藏能力的实际激发”。

例如,在一个以形状、颜色和大小为概念的合成数据集上训练的条件生成模型中,尽管模型在初期不能直接通过输入空间生成期望的输出(如从训练中未见过的概念类别生成样本),但通过潜在的干预,可以引导模型生成这些输出。这表明,在模型的训练过程中,某些能力是潜在学习并突然“觉醒”的,而这通常在模型的学习轨迹中的某个转折点发生。

通过实验,发现在模型的学习动态中,这些转折点准确地对应于模型能力的突然增强,这一点在图4(b)中的学习轨迹中得到了体现。在这些点上,模型从概念记忆阶段过渡到能够生成训练集外概念的阶段。这种现象不仅在合成数据集上观察到,在更广泛的应用场景中也有所体现,如在大规模的文本到图像的生成模型中也观察到了类似的隐藏能力的突发。

ba0ec51795c4c24ade827c3edd11e6dd.jpeg

图4:概念信号支配着泛化动力学。(a)在分布内概念类00的概念空间中学习动态(左下)。(b)学习动态(OOD)概念类11(右上)。我们在x轴上绘制颜色的精度,在y轴上绘制大小。归一化颜色概念信号电平采用颜色编码。01和10的两个轨迹可以用来说明概念记忆


概念未指定对学习动态的影响

在实际应用中,输入指令往往是未完全指定的,这种未指定性会对模型学习概念及其操纵能力产生重大影响。例如,在训练数据中,如果“红色三角形”中的“红色”一词被遮蔽,模型在未遮蔽情况下可能能正确理解和生成“蓝色三角形”,但在遮蔽后,模型生成的图像颜色可能会从蓝色逐渐偏向紫色,最终变为红色,如图7所示。这说明模型在概念学习上的混淆,未能将形状和颜色彻底分离,从而影响了其对未见概念的泛化能力。

26be8589d73b491432fb1b86ac25bed6.jpeg

图7:不规范和概念学习。(a)最先进的生成模型[101]错误地生产了一个红草莓(右上角)的提示符“黄草莓”。(b)在训练数据不不足的情况下,模型F准确地学习形状和颜色的概念,成功地推广到看不见的节点蓝色三角形(最左边)。当掩模应用于提示红色三角形时,三角形的概念信号越来越开始与概念红色相关。这将导致输出图像随着掩蔽程度的增加而从蓝色变成紫色(面板从左到右)。最终,三角形的颜色尺寸会折叠,使模型偏向于只生成红色三角形(最右边)。


通过对概念未指定的系统研究发现,随着遮蔽提示的增加,模型学习特定概念的速度会减慢,概念的泛化能力也会受到抑制。这种现象在图8和图9中有详细的展示,模型的学习动态受到了明显的影响。尤其是在高遮蔽比例下,模型对概念的理解开始偏离正确的轨道,导致输出结果与期望的概念类别不符。

ec42aacffc790070f9b0db67fd80534a.jpeg

图8:规格不足延迟分布分发(OOD)泛化。随着掩蔽提示百分比的增加,精度达到0.8以上所需的梯度步数。更高比例的蒙面提示减慢了概念学习的速度。

c599d3d263df75074396724709315c4f.jpeg

图9:规格不足阻碍了分布外(OOD)泛化。(a)具有不同程度的提示掩蔽的学习动态,从0%到100%,以及生成的图像。在0%掩蔽(右上图像),模型正确地从提示“蓝色三角形”中生成蓝色三角形图像。随着掩蔽量的增加(从右到左),图像逐渐转向不正确的颜色,即红色。(b)基于等式的概念空间下欠规范学习动力学仿真 2.我们的玩具模型复制了一个经过训练的网络的学习动态。


总体来看,概念未指定不仅延缓了模型对概念的学习,还可能导致模型在面对未见概念类别时表现出的泛化能力下降。这一发现对于设计更为健壮的生成模型具有重要的指导意义,特别是在输入条件可能存在高度不确定性的应用场景中。

相关文章:

哈佛大学 || 概念空间中学习动态的涌现:探索隐藏能力

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读 今天主要看一个问题:在模型中的学习动态是如何涌现的。 在现代生成模型的研究与应用中,不断发现这些模型在处理训练数据时展现出了惊人的能力,这些能力很…...

Dockerfile打包部署常用操作

文章目录 1、Dockerfile部署java程序(jar包)1.1、创建Dockerfile1.2、将Dockerfile和要上传的jar包放到一个目录下,构建镜像1.3、创建启动容器 2、Dockerfile部署vue2.1、创建dockerfile文件2.2、将打包的dist文件放到dockerfile同文件目录下…...

ArcGIS:探索地理信息系统的强大功能与实际应用

ArcGIS是一款功能强大的地理信息系统(GIS)软件,由Esri公司开发。它广泛应用于各个领域,包括城市规划、环境保护、资源管理、交通运输等。作为一名长期使用ArcGIS的用户,我深感这款软件在数据分析、地图制作和空间信息管…...

Python 全栈体系【三阶】(二)

第一章 Django 五、模板 1. 概述 Django中的模板是指可以动态生成任何基于文本格式文件的技术(如HTML、CSS等)。 Django中内置了自己的模板系统,称为DTL(Django Template Language), Django模板语言。 2. 配置 settings.py中关于模板的…...

【VUE】 深入理解 Vue 动态路由:简介、实际开发场景与代码示例

深入理解 Vue 动态路由:简介、实际开发场景与代码示例 Vue.js 是一个用于构建用户界面的渐进式框架,它拥有丰富的生态系统,其中 Vue Router 是其官方的路由管理库。动态路由是 Vue Router 的一个强大特性,允许我们在应用运行时根…...

Linux x86_64平台指令替换函数 text_poke_smp/bp

文章目录 前言一、text_poke_early1.1 text_poke_early简介1.2 用途 二、text_poke_smp2.1 简介2.1.1 text_poke_smp函数2.2.2 stop_machine_text_poke简介2.2.3 text_poke函数 2.2 用途 三、text_poke_smp 内核hook 前言 Linux x86_64平台指令替换函数有两种类型:…...

海南云亿商务咨询有限公司口碑怎么样?

在数字化浪潮席卷全球的今天,电商行业正以前所未有的速度发展。抖音作为短视频领域的佼佼者,其电商功能更是为众多品牌和企业打开了全新的销售渠道。海南云亿商务咨询有限公司,作为抖音电商服务领域的佼佼者,正以其专业的服务和创…...

航空数据管控系统-②项目分析与设计:任务2:使用Git或SVN管理项目(可选任务,只介绍Git安装)

任务描述 1、安装Git 2、注册GitHub 3、配置本地库 4、配置远程库 5、使用Git管理项目 任务指导 分为以下几个部分完成: 学会Git的安装,帐号注册本地存储库的管理自己创建一个项目,项目名称为自己的名字,上传到代码仓库&#xff…...

【面试题】串联探针和旁挂探针有什么区别?

在网络安全领域中,串联探针和旁挂探针(通常也被称为旁路探针)是两种不同部署方式的监控设备,它们各自具有独特的特性和应用场景。以下是它们之间的主要区别: 部署方式 串联探针:串联探针一般通过网关或者…...

LeetCode42(接雨水)[三种解法:理解动态规划,双指针,单调栈]

接雨水 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 这是一道困难题,难度确实有点层次.我们先来朴素思想走一波. 要求能接多少雨水,我们可以具化到每个硅谷,每个硅谷能存多少雨水,那么答案就是每个…...

STM32-ADC+DMA

本内容基于江协科技STM32视频学习之后整理而得。 文章目录 1. ADC模拟-数字转换器1.1 ADC模拟-数字转换器1.2 逐次逼近型ADC1.3 ADC框图1.4 ADC基本结构1.5 输入通道1.6 规则组的转换模式1.6.1 单次转换,非扫描模式1.6.2 连续转换,非扫描模式1.6.3 单次…...

代码随想录算法训练营第六十二天 | 108. 冗余连接、109. 冗余连接II、复习

108. 冗余连接 题目链接:https://kamacoder.com/problempage.php?pid1181 文档讲解:https://www.programmercarl.com/kamacoder/0108.%E5%86%97%E4%BD%99%E8%BF… 思路 从前向后遍历每一条边(因为优先让前面的边连上)&#xff0…...

昇思MindSpore学习笔记6-01LLM原理和实践--FCN图像语义分割

摘要: 记录MindSpore AI框架使用FCN全卷积网络理解图像进行图像语议分割的过程、步骤和方法。包括环境准备、下载数据集、数据集加载和预处理、构建网络、训练准备、模型训练、模型评估、模型推理等。 一、概念 1.语义分割 图像语义分割 semantic segmentation …...

【FFMPEG基础(一)】解码源码

学习分享 main函数decodetorgb32.h 文件decodetorgb32 .cpp文件 main函数 #include <QApplication> #include "decodetorgb32.h" int main(int argc, char *argv[]) {QApplication a(argc, argv);DecodeToRGB32 toRGB32;int restoRGB32.openVideo("../fi…...

第二证券股市资讯:深夜!突然暴涨75%!

一则重磅收买引发医药圈轰动。 北京时间7月8日晚间&#xff0c;美股开盘后&#xff0c;美国生物制药公司Morphic股价一度暴升超75%。音讯面上&#xff0c;生物医药巨子礼来公司官宣&#xff0c;将以57美元/股的价格现金收买Morphic&#xff0c;较上星期五的收盘价溢价79%&…...

flutter 使用wechat_assets_picker的权限检测

https://pub.dev/packages/wechat_assets_picker AssetPicker.pickAssets之前进行权限检查 pickImages() async {try {if (PermissionState.authorized ! await AssetPicker.permissionCheck()) {PermissionUtil.showAllPermissions(Permission.storage, 1);return;}final Lis…...

Mojo入门案例教程(上手篇)

以下是 Mojo 编程语言入门案例教程&#xff0c;内容包括 Mojo 的基本概念、变量、控制结构、函数等方面&#xff1a; Mojo 的基本概念 1.什么是 Mojo&#xff1f;&#xff1a;Mojo 是一种函数式编程语言&#xff0c;用于开发小型应用程序、脚本和工具。 2.Mojo 的特点&#x…...

如何在window执行mkfile

1、Windows cmd中出现错误&#xff1a;“‘make‘ 不是内部或外部命令&#xff0c;也不是可运行的程序或批处理文件。”的解决方法_windows_是板栗啊-GitCode 开源社区 2、安装cmder&#xff0c;再通过包管理工具下载make...

Nginx 是一个非常流行的 Web 服务器和反向代理服务器

Nginx 是一个非常流行的 Web 服务器和反向代理服务器&#xff0c;以其高性能、稳定性、丰富的功能集和低资源消耗而闻名。下面是一个简化的 Nginx 使用教程&#xff0c;包括基本的安装、配置和一些常见用途。 安装 Nginx 在 Ubuntu/Debian 上安装&#xff1a; sudo apt upda…...

mysql怎么调整缓冲区大小

MySQL中调整缓冲区大小是数据库性能优化的重要一环。缓冲区大小直接影响了数据库的读写性能和响应速度。以下是一些常见的MySQL缓冲区及其调整方法&#xff1a; 一、InnoDB缓冲池&#xff08;InnoDB Buffer Pool&#xff09; InnoDB缓冲池是InnoDB存储引擎用来缓存表数据和索…...

计算机组成原理学习笔记(一)

计算机组成原理 [类型:: [[计算机基础课程]] ] [来源:: [[B站]] ] [主讲人:: [[咸鱼学长]] ] [评价:: ] [知识点:: [[系统软件]] & [[应用软件]] ] [简单解释:: 管理计算机系统的软件&#xff1b; 按照任务需要编写的程序 ] [问题:: ] [知识点:: [[机器字长]] ] [简单…...

Vue3 对跳转 同一路由传入不同参数的页面分别进行缓存

1&#xff1a;使用场景 从列表页跳转至不同的详情页面&#xff0c;对这些详情页面分别进行缓存 2&#xff1a;核心代码 2.1: 配置路由文件 在路由文件里对需要进行缓存的路由对象添加meta 属性 // 需要缓存的详情页面路由 { name: detail, path: /myRouter/detail…...

LinearLayout的测量流程

在日常开发中我们常常使用LinearLayout作为布局Group&#xff0c;本文从其源码实现出发分析测量流程。大家可以带着问题进入下面的分析流程&#xff0c;看看是否能找到答案。 垂直测量 View的测量入口方法是onmeasure方法。LinearLayout的onMeasure方法根据其方向而做不同的处…...

数据无忧:Ubuntu 系统迁移备份全指南

唠唠闲话 最近电脑出现了一些故障&#xff0c;送修期间&#xff0c;不得不在实验室的台式机上重装系统&#xff0c;配环境的过程花费了不少时间。为避免未来处理类似事情时耗费时间&#xff0c;特此整理一些备份策略。 先做以下准备&#xff1a; U盘启动盘&#xff0c;参考 …...

中国IDC圈探访北京•光子1号金融算力中心

今天&#xff0c;“AI”、“大模型”是最炙手可热的话题&#xff0c;全球有海量人群在工作生活中使用大模型&#xff0c;大模型产品涉及多模态&#xff0c;应用范围已涵盖电商、传媒、金融、短视频、制造等众多行业。 而回看2003年的互联网记忆&#xff0c; “上网”“在线”是…...

[Unity入门01] Unity基本操作

参考的傅老师的教程学了一下Unity的基础操作&#xff1a; [傅老師/Unity教學] Unity3D基礎入門 [華梵大學] 遊戲引擎應用基礎(Unity版本) Class#01 移动&#xff1a;鼠标中键旋转&#xff1a;鼠标右键放大&#xff1a;鼠标滚轮飞行模式&#xff1a;右键WASDQEFocus模式&…...

vivado DELAY_VALUE_XPHY、DIFF_TERM

延迟_值_XPHY PORT对象上的DELAY_VALUE_XPHY属性指定要添加的延迟量 Versal XPHY逻辑接口的输入或输出路径。在的早期阶段 opt_design在重新生成高级I/O向导IP时 DELAY_VALUE_XPHY值将从PORT复制到的XPHY实例上 输入或输出路径。Vivado设计套件中存在DRCs&#xff0c;以确保 DE…...

C++语言相关的常见面试题目(三)

1. List底层实现原理 省流&#xff1a; list底层实现了一个双向循环链表。 每个元素&#xff08;或节点&#xff09;包含三个部分&#xff1a;数据域(_M_Storage)、前驱指针(_M_prev)、后继指针(_M_next)。 数据域&#xff1a;存储实际数据。 前驱指针&#xff1a;指向链表中…...

代码随想录-Day53

739. 每日温度 给定一个整数数组 temperatures &#xff0c;表示每天的温度&#xff0c;返回一个数组 answer &#xff0c;其中 answer[i] 是指对于第 i 天&#xff0c;下一个更高温度出现在几天后。如果气温在这之后都不会升高&#xff0c;请在该位置用 0 来代替。 示例 1: …...

Android 如何通过代码实时设置EditTextView光标

背景&#xff1a;换肤框架下&#xff0c;QA进行深色浅色切换说输入框光标颜色没有改变&#xff0c;转UI结果UI说需要修改&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 本来有方法可以设置&#xff0c;但是 设置后未生效。重新进入该页面才生效&#xff01;&a…...