Science重磅_让大模型像婴儿一样学习语言
英文名称: Grounded language acquisition through the eyes and ears of a single child
中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言
文章: https://www.science.org/doi/10.1126/science.adi1374
代码: https://github.com/wkvong/multimodalbaby
作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University
日期: 2024-02-02
1 读后感
这是一篇 2024 年 2 月发表在 Science 上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。
看到图 -3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。
这篇文章的结构不太像医学论文也不太像科技论文,感觉每段都很有料,推荐通篇阅读,只是有点小贵。下面还是从引言 (背景),方法,评价的角度来梳理这篇文章,我的想法和评论都用括号斜体括起来,其它内容均来自论文及对论文的归纳总结。
2 摘要
目标:训练模型根据少量训练样本,像婴儿一样学习视觉(眼睛)与语言(耳朵)之间的关系。
方法:作者提出了基于儿童视角的对比学习(Child’s View for Contrastive Learning,CVCL)模型。使用一个 6 到 25 个月大的儿童的长期头戴摄像机录像,采集 61 小时的相关视觉,训练模型对视觉和语言概念系统进行对齐。
结果:展示了学习词语意义中的关键因素。
3 引言
儿童在 6-9 个月时,开始将词汇与其视觉对应物连接起来;到 18-24 个月时,他们平均可以理解 300 个词,其中大部分是名词。例如:当一个孩子在话语中听到“球”这个词时,他们如何学会将这个词与圆的、弹跳的物体关联起来,而不是与其他特征、物体或事件关联呢?
对于儿童的学习过程,哲学家和认知科学家提出了很多假设,一种理论认为,词汇学习是由简单的、通用的、联想机制驱动的,例如画面与声音共现;其他理论则提出可能有更强的约束(例如:先天倾向,或者额外的推理和认知能力)。
文中对最简单的方法(第一种理论)进行了测试,通过一个孩子的纵向头戴式视频记录(如图 -1 A 所示),研究了词 - 视觉映射的可学习性。为此,使用了儿童视角对比学习模型(CVCL)。在不加入任何先验知识和线束的情况下,追踪词语和可能的视觉参照物之间的共现情况来确定它们的映射。
4 方法
4.1 数据
在 SAYCam-S 数据集上训练 CVCL,该数据集包含了一个孩子的纵向自我中心视频记录,包括孩子生活中 6 到 25 个月的片段,总共有 60 万个视频帧与 37500 个转录话语配对(从 61 小时的视频中提取)。但它只捕捉到了孩子清醒时间的大约 1%,且不包含他们经历的其他方面。
4.2 模型
提出基于儿童视角的对比学习模型(Child’s View for Contrastive Learning,CVCL)。使用一个对比目标来协调两个神经网络,一个视觉编码器和一个语言编码器,如图 -1B 所示。
在自我监督的训练方式下(只使用孩子视角的录像,不使用外部标签),对比目标将视频帧和语言表达的嵌入(向量),共现视为正例,非共现视为负例。
4.3 评估
使用常见测试儿童的方法对测试进行评如,如图 1-C,D 所示,让模型从四个选项中识别类别标签。CVCL 的分类准确率是 61.6%,CVCL 在 22 个概念中 11 个的性能与 CLIP 差距在 5% 以内(CLIP 是一个图像 - 文本对齐模型,通过 4 亿个图像 - 文本对训练)。此外,利用数千个标注了类别的数据,训练了一个有监督模型:线性探测模型 Linear Probe。该模型是通过在预训练的视觉编码器(从自我监督初始化)上拟合一个线性分类器构建,最终达到了 81.6% 的准确率。
论文还对比了从数据中学习,与从标注数据中学习的效果(自学成材和有人教),通过减少标注数据展示标注的作用,如图 2-B 所示。实验显示,一个直接标注的例子至少相当于七个来自监督学习的例子(有监督学习更快,自监督可以学习任何内容)。图 2-C 示例了与其它结构模型对比的效果。
4.4 扩展到其它视频范例
测量 CVCL 在 Konkle Objects 评估数据集上的性能,评估包括 64 个视觉概念,其对应的词汇都存在于 CVCL 的词汇表中,图片包含一个在白色背景上的单个对象。使我们能够检查 CVCL 学习的词汇是否能推广到分布外的视觉刺激。如图 3A 所示:
64 个概念中的 16 个得分超过 50%,另外 42 个概念的得分高于机会水平 25%,总的准确率是 34.7%,这展示了模型的泛化能力。
图 3-b 展示了更为直观的泛化效果,每一行展示了四个不同视觉概念,左侧是两个随机选取的训练样本。同时,右侧展示了四个测试样本,从左到右分别对应:最好的两个样本、中位数样本以及最差的样本。每个泛化样本下方的百分比正确率是指当该图像作为目标时的表现。
4.5 多模态表示
此部分考量了模型的表征能力。首先检测 CVCL 的视觉和语言概念系统的对齐程度,通过余弦相似度方法比较指向同一事物的视觉与语言嵌入的相似度,并使用 t 分布(t-SNE)将关系可视化。在视觉和语言之间发现了显著的概念对齐(相关系数 r=0.37,p<0.001)。
另外,不同的类别汇聚程度也有不同,如图 4-B 所示,如视觉变异性较大的“手”和“玩具”比较分散,相比之下,像“汽车”和“婴儿床”形成了更为紧密地聚类。
从图 4-C 中可以看到:其中蓝色为语言概念,绿色为视觉信息,一个词只使用一个向量表示,如拼图 puzzle,而与它对齐的图像分别指向了字母拼图和动物拼图,并且可以看到视觉上相似的物品集合表示为不同的子聚类;这些都是模型通过对比学习学到的隐式表示,而没有引入任何抽象概念。
图 -5 展示了使用 GradCAM 注意力方法,突出显示与目标类别最相关的图像区域。
相关文章:

Science重磅_让大模型像婴儿一样学习语言
英文名称: Grounded language acquisition through the eyes and ears of a single child 中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言 文章: https://www.science.org/doi/10.1126/science.adi1374 代码: https://github.com/wkvong/multimodalbaby 作者: Wai Keen V…...

Java 数据结构篇-实现红黑树的核心方法
🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 红黑树的说明 2.0 红黑树的特性 3.0 红黑树的成员变量及其构造方法 4.0 实现红黑树的核心方法 4.1 红黑树内部类的核心方法 (1)判断当前…...

【实战】一、Jest 前端自动化测试框架基础入门(中) —— 前端要学的测试课 从Jest入门到TDD BDD双实战(二)
文章目录 一、Jest 前端自动化测试框架基础入门5.Jest 中的匹配器toBe 匹配器toEqual匹配器toBeNull匹配器toBeUndefined匹配器和toBeDefined匹配器toBeTruthy匹配器toBeFalsy匹配器数字相关的匹配器字符串相关的匹配器数组相关的匹配器异常情况的匹配器 6.Jest 命令行工具的使…...

【C语言 - 力扣 - 反转链表】
反转链表题目描述 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 题解1-迭代 假设链表为 1→2→3→∅,我们想要把它改成 ∅←1←2←3。 在遍历链表时,将当前节点的 next 指针改为指向前一个节点。由于节点没…...

ctfshow-php特性(web102-web115)
目录 web102 web103 web104 web105 web106 web107 web108 web109 web110 web111 web112 web113 web114 web115 实践是检验真理的 要多多尝试 web102 <?php highlight_file(__FILE__); $v1$_POST[V1]; $v2$_GET[v2]; $v3$_GET[v3]; $v4is_numeric($v2)and is…...

python系统学习Day1
section1 python introduction 文中tips只做拓展,可跳过。 PartOne introduction 首先要对于python这门语言有一个宏观的认识,包括特点和应用场景。 特点分析: 优势 提供了完善的基础代码库,许多功能不必从零编写简单优雅 劣势 运…...

Idea里自定义封装数据警告解决 Spring Boot Configuration Annotation Processor not configured
我们自定对象封装指定数据,封装类上面一个红色警告,虽然不影响我们的执行,但是有强迫症看着不舒服, 去除方式: 在pom文件加上坐标刷新 <dependency><groupId>org.springframework.boot</groupId><…...
【流程图——讲解】
流程图介绍 流程图介绍 流程图介绍 流程图是一种图表,它展示了工作流程或过程中的步骤顺序,它通常由不同的符号表示,每个符号都代表一个步骤或过程中的一个元素,流程图非常有用,因为它们可以提供清晰、视觉化的过程表…...
「计算机网络」物理层
物理层的基本概念 物理层的作用:尽可能屏蔽掉不同传输媒体和通信手段的差异物理层规程:用于物理层的协议主要任务:确定与传输媒体的接口有关的一些特性 机械特性电器特性功能特性过程特性 数据通信的基础知识 数据通信系统的模型 划分为…...
ARM与X86架构的区别与联系
文章目录 1.什么是CPU2.复杂指令集和精简指令集3.ARM架构与X86架构的比较3.1.制造工艺3.2 64位计算3.3 异构计算3.4 功耗 4.ARM和X86的发展现状Reference 1.什么是CPU 中央处理单元(CPU)主要由运算器、控制器、寄存器三部分组成,从字面意思看…...

蓝桥杯每日一题------背包问题(二)
前言 本次讲解背包问题的一些延申问题,新的知识点主要涉及到二进制优化,单调队列优化DP,树形DP等。 多重背包 原始做法 多重背包的题意处在01背包和完全背包之间,因为对于每一个物品它规定了可选的个数,那么可以考虑…...

牛客错题整理——C语言(实时更新)
1.以下程序的运行结果是() #include <stdio.h> int main() { int sum, pad,pAd; sum pad 5; pAd sum, pAd, pad; printf("%d\n",pAd); }答案为7 由于赋值运算符的优先级高于逗号表达式,因此pAd sum, pAd, pad;等价于(…...

CIFAR-10数据集详析:使用卷积神经网络训练图像分类模型
1.数据集介绍 CIFAR-10 数据集由 10 个类的 60000 张 32x32 彩色图像组成,每类 6000 张图像。有 50000 张训练图像和 10000 张测试图像。 数据集分为5个训练批次和1个测试批次,每个批次有10000张图像。测试批次正好包含从每个类中随机选择的 1000 张图像…...

《傲剑狂刀》中的人物性格——龙吟风
在《傲剑狂刀》这款经典武侠题材的格斗游戏中,龙吟风作为一位具有传奇色彩的角色,其性格特征复杂且引人入胜。以下是对龙吟风这一角色的性格特点进行深度剖析: 一、孤高独立的剑客气质 龙吟风的名字本身就流露出一种独特的江湖气息,"吟风"象征着他的飘逸与淡泊名…...

KVM和JVM的虚拟化技术有何区别?
随着虚拟化技术的不断发展,KVM和JVM已成为两种主流的虚拟化技术。尽管它们都提供了虚拟化的解决方案,但它们在实现方式、功能和性能方面存在一些重要的差异。本文将深入探讨KVM和JVM的虚拟化技术之间的区别。 KVM(Kernel-based Virtual Mac…...
LeetCode力扣 面试经典150题 详细题解 (1~5) 持续更新中
目录 1.合并两个有序数组 2.移动元素 3.删除有序数组中的重复项 4.删除排序数组中的重复项 II 5.多数元素 暂时更新到这里,博主会持续更新的 1.合并两个有序数组 题目(难度:简单): 给你两个按 非递减顺序 排列的…...

如何解决利用cron定时任务自动更新SSL证书后Nginx重启问题
利用cron定时任务自动更新SSL证书后,用浏览器访问网站,获取到的证书仍然是之前的。原因在于没有对Nginx进行重启。 据说certbot更新完成证书后会自动重启Nginx,但显然经我检测不是这回事儿。 所以我们需要创建一bash脚本,然后定时调用这个脚…...

第一个 Angular 项目 - 静态页面
第一个 Angular 项目 - 静态页面 之前的笔记: [Angular 基础] - Angular 渲染过程 & 组件的创建 [Angular 基础] - 数据绑定(databinding) [Angular 基础] - 指令(directives) 这是在学完了上面这三个内容后能够完成的项目,目前因为还没有学到数…...

网络协议与攻击模拟_17HTTPS 协议
HTTPShttpssl/tls 1、加密算法 2、PKI(公钥基础设施) 3、证书 4、部署HTTPS服务器 部署CA证书服务器 5、分析HTTPS流量 分析TLS的交互过程 一、HTTPS协议 在http的通道上增加了安全性,传输过程通过加密和身份认证来确保传输安全性 1、TLS …...

【linux系统体验】-ubuntu简易折腾
ubuntu 一、终端美化二、桌面美化2.1 插件安装2.2 主题和图标2.3 美化配置 三、常用命令 以后看不看不重要,咱就是想记点儿东西。一、终端美化 安装oh my posh,参考链接:Linux 终端美化 1、安装字体 oh my posh美化工具可以使用合适的字体&a…...

【JavaEE】万字详解HTTP协议
HTTP是什么?-----互联网的“快递小哥” 想象我们正在网上购物:打开淘宝APP,搜索“蓝牙耳机”,点击商品图片,然后下单付款。这一系列操作背后,其实有一个看不见的“快递小哥”在帮我们传递信息,…...
第6章:Neo4j数据导入与导出
在实际应用中,数据的导入与导出是使用Neo4j的重要环节。无论是初始数据加载、系统迁移还是数据备份,都需要高效可靠的数据传输机制。本章将详细介绍Neo4j中的各种数据导入与导出方法,帮助读者掌握不同场景下的最佳实践。 6.1 数据导入策略 …...
Q1起重机指挥理论备考要点分析
Q1起重机指挥理论备考要点分析 一、考试重点内容概述 Q1起重机指挥理论考试主要包含三大核心模块:安全技术知识(占40%)、指挥信号规范(占30%)和法规标准(占30%)。考试采用百分制,8…...

智能问数Text2SQL Vanna windows场景验证
架构 Vanna 是一个开源 Python RAG(检索增强生成)框架,用于 SQL 生成和相关功能。 机制 Vanna 的工作过程分为两个简单步骤 - 在您的数据上训练 RAG“模型”,然后提出问题,这些问题将返回 SQL 查询,这些查…...

Modbus转ETHERNET IP网关:快速冷却系统的智能化升级密钥
现代工业自动化系统中,无锡耐特森Modbus转Ethernet IP网关MCN-EN3001扮演着至关重要的角色。通过这一技术,传统的串行通讯协议Modbus得以在更高速、更稳定的以太网环境中运行,为快速冷却系统等关键设施的自动化控制提供了强有力的支撑。快速冷…...
matlab实现DBR激光器计算
DBR激光器计算程序。非常值得参考的程序。DBR激光器程序 DBR计算/1.txt , 2056 DBR计算/4.asv , 22 DBR计算/4.txt , 32 DBR计算/GetDeviceEfficiency.asv , 2012 DBR计算/GetDeviceEfficiency.m , 2014 DBR计算/GetOneLayerArray.asv , 837 DBR计算/GetOneLayerArray.m , 836…...

LeetCode - 53. 最大子数组和
目录 题目 Kadane 算法核心思想 Kadane 算法的步骤分析 读者可能的错误写法 正确的写法 题目 53. 最大子数组和 - 力扣(LeetCode) Kadane 算法核心思想 定义状态变量: currentSum: 表示以当前元素为结束的子数组的最大和。 maxSum: 记录全局最大…...

Gerrit+repo管理git仓库,如果本地有新分支不能执行repo sync来同步远程所有修改,会报错
问题:创建一个本地分支TEST 来关联远程已有分支origin/TEST,直接执行repo sync可能会出现问题:比如,本地分支TES会错乱关联到origin/master,或者拉不下最新代码等问题。 // git checkout -b 新分支名 远程分支名字 git…...

数据库管理与高可用-MySQL高可用
目录 #1.1什么是MySQL高可用 1.1.1MySQL主主复制keepalivedhaproxy的高可用 1.1.2优势 #2.1MySQL主主复制keepalivedhaproxy的实验案例 1.1什么是MySQL高可用 MySQL 高可用是指通过技术手段确保 MySQL 数据库在面临硬件故障、软件错误、网络中断、人为误操作等异常情况时&…...
MYSQL too many connection问题排查和修复
1.连接数据库 mysql -u root -p 1.1 查看mysql路径 如果没有配置mysql的环境变量,可以直接找mysql的安装目录 打开任务管理器-》服务-》Mysql(根据版本不同后面带有数字,找运行的那个) 打开服务->mysql->属性-》可执行文件的路径,…...