当前位置: 首页 > news >正文

Science重磅_让大模型像婴儿一样学习语言

英文名称: Grounded language acquisition through the eyes and ears of a single child
中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言
文章: https://www.science.org/doi/10.1126/science.adi1374
代码: https://github.com/wkvong/multimodalbaby
作者: Wai Keen Vong, Wentao Wang, A. Emin Orhan, Brenden M. Lake, New York University
日期: 2024-02-02

1 读后感

这是一篇 2024 年 2 月发表在 Science 上的论文,是跨信息科学和认知科学的研究,来自纽约大学的数据科学中心和心理学系。作者主要研究了人在婴儿期如何学习关联视觉和语言。

看到图 -3,模型通过学习把具象扩展到抽象的时候,真的挺激动的,会有一种:在这伟大的时代,看着人们正在创造历史的感觉。这需要有多模态技术的加持,还需要一个老实孩子。

这篇文章的结构不太像医学论文也不太像科技论文,感觉每段都很有料,推荐通篇阅读,只是有点小贵。下面还是从引言 (背景),方法,评价的角度来梳理这篇文章,我的想法和评论都用括号斜体括起来,其它内容均来自论文及对论文的归纳总结。

2 摘要

目标:训练模型根据少量训练样本,像婴儿一样学习视觉(眼睛)与语言(耳朵)之间的关系。

方法:作者提出了基于儿童视角的对比学习(Child’s View for Contrastive Learning,CVCL)模型。使用一个 6 到 25 个月大的儿童的长期头戴摄像机录像,采集 61 小时的相关视觉,训练模型对视觉和语言概念系统进行对齐。

结果:展示了学习词语意义中的关键因素。

3 引言

儿童在 6-9 个月时,开始将词汇与其视觉对应物连接起来;到 18-24 个月时,他们平均可以理解 300 个词,其中大部分是名词。例如:当一个孩子在话语中听到“球”这个词时,他们如何学会将这个词与圆的、弹跳的物体关联起来,而不是与其他特征、物体或事件关联呢?

对于儿童的学习过程,哲学家和认知科学家提出了很多假设,一种理论认为,词汇学习是由简单的、通用的、联想机制驱动的,例如画面与声音共现;其他理论则提出可能有更强的约束(例如:先天倾向,或者额外的推理和认知能力)。

文中对最简单的方法(第一种理论)进行了测试,通过一个孩子的纵向头戴式视频记录(如图 -1 A 所示),研究了词 - 视觉映射的可学习性。为此,使用了儿童视角对比学习模型(CVCL)。在不加入任何先验知识和线束的情况下,追踪词语和可能的视觉参照物之间的共现情况来确定它们的映射。

4 方法

4.1 数据

在 SAYCam-S 数据集上训练 CVCL,该数据集包含了一个孩子的纵向自我中心视频记录,包括孩子生活中 6 到 25 个月的片段,总共有 60 万个视频帧与 37500 个转录话语配对(从 61 小时的视频中提取)。但它只捕捉到了孩子清醒时间的大约 1%,且不包含他们经历的其他方面。

4.2 模型

提出基于儿童视角的对比学习模型(Child’s View for Contrastive Learning,CVCL)。使用一个对比目标来协调两个神经网络,一个视觉编码器和一个语言编码器,如图 -1B 所示。

在自我监督的训练方式下(只使用孩子视角的录像,不使用外部标签),对比目标将视频帧和语言表达的嵌入(向量),共现视为正例,非共现视为负例。

image.png

4.3 评估

使用常见测试儿童的方法对测试进行评如,如图 1-C,D 所示,让模型从四个选项中识别类别标签。CVCL 的分类准确率是 61.6%,CVCL 在 22 个概念中 11 个的性能与 CLIP 差距在 5% 以内(CLIP 是一个图像 - 文本对齐模型,通过 4 亿个图像 - 文本对训练)。此外,利用数千个标注了类别的数据,训练了一个有监督模型:线性探测模型 Linear Probe。该模型是通过在预训练的视觉编码器(从自我监督初始化)上拟合一个线性分类器构建,最终达到了 81.6% 的准确率。

论文还对比了从数据中学习,与从标注数据中学习的效果(自学成材和有人教),通过减少标注数据展示标注的作用,如图 2-B 所示。实验显示,一个直接标注的例子至少相当于七个来自监督学习的例子(有监督学习更快,自监督可以学习任何内容)。图 2-C 示例了与其它结构模型对比的效果。

4.4 扩展到其它视频范例

测量 CVCL 在 Konkle Objects 评估数据集上的性能,评估包括 64 个视觉概念,其对应的词汇都存在于 CVCL 的词汇表中,图片包含一个在白色背景上的单个对象。使我们能够检查 CVCL 学习的词汇是否能推广到分布外的视觉刺激。如图 3A 所示:

64 个概念中的 16 个得分超过 50%,另外 42 个概念的得分高于机会水平 25%,总的准确率是 34.7%,这展示了模型的泛化能力。

图 3-b 展示了更为直观的泛化效果,每一行展示了四个不同视觉概念,左侧是两个随机选取的训练样本。同时,右侧展示了四个测试样本,从左到右分别对应:最好的两个样本、中位数样本以及最差的样本。每个泛化样本下方的百分比正确率是指当该图像作为目标时的表现。

4.5 多模态表示

此部分考量了模型的表征能力。首先检测 CVCL 的视觉和语言概念系统的对齐程度,通过余弦相似度方法比较指向同一事物的视觉与语言嵌入的相似度,并使用 t 分布(t-SNE)将关系可视化。在视觉和语言之间发现了显著的概念对齐(相关系数 r=0.37,p<0.001)。

另外,不同的类别汇聚程度也有不同,如图 4-B 所示,如视觉变异性较大的“手”和“玩具”比较分散,相比之下,像“汽车”和“婴儿床”形成了更为紧密地聚类。

从图 4-C 中可以看到:其中蓝色为语言概念,绿色为视觉信息,一个词只使用一个向量表示,如拼图 puzzle,而与它对齐的图像分别指向了字母拼图和动物拼图,并且可以看到视觉上相似的物品集合表示为不同的子聚类;这些都是模型通过对比学习学到的隐式表示,而没有引入任何抽象概念。

图 -5 展示了使用 GradCAM 注意力方法,突出显示与目标类别最相关的图像区域。

相关文章:

Science重磅_让大模型像婴儿一样学习语言

英文名称: Grounded language acquisition through the eyes and ears of a single child 中文名称: 通过一个孩子的眼睛和耳朵基于实践学习语言 文章: https://www.science.org/doi/10.1126/science.adi1374 代码: https://github.com/wkvong/multimodalbaby 作者: Wai Keen V…...

Java 数据结构篇-实现红黑树的核心方法

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 红黑树的说明 2.0 红黑树的特性 3.0 红黑树的成员变量及其构造方法 4.0 实现红黑树的核心方法 4.1 红黑树内部类的核心方法 &#xff08;1&#xff09;判断当前…...

【实战】一、Jest 前端自动化测试框架基础入门(中) —— 前端要学的测试课 从Jest入门到TDD BDD双实战(二)

文章目录 一、Jest 前端自动化测试框架基础入门5.Jest 中的匹配器toBe 匹配器toEqual匹配器toBeNull匹配器toBeUndefined匹配器和toBeDefined匹配器toBeTruthy匹配器toBeFalsy匹配器数字相关的匹配器字符串相关的匹配器数组相关的匹配器异常情况的匹配器 6.Jest 命令行工具的使…...

【C语言 - 力扣 - 反转链表】

反转链表题目描述 给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 题解1-迭代 假设链表为 1→2→3→∅&#xff0c;我们想要把它改成 ∅←1←2←3。 在遍历链表时&#xff0c;将当前节点的 next 指针改为指向前一个节点。由于节点没…...

ctfshow-php特性(web102-web115)

目录 web102 web103 web104 web105 web106 web107 web108 web109 web110 web111 web112 web113 web114 web115 实践是检验真理的 要多多尝试 web102 <?php highlight_file(__FILE__); $v1$_POST[V1]; $v2$_GET[v2]; $v3$_GET[v3]; $v4is_numeric($v2)and is…...

python系统学习Day1

section1 python introduction 文中tips只做拓展&#xff0c;可跳过。 PartOne introduction 首先要对于python这门语言有一个宏观的认识&#xff0c;包括特点和应用场景。 特点分析&#xff1a; 优势 提供了完善的基础代码库&#xff0c;许多功能不必从零编写简单优雅 劣势 运…...

Idea里自定义封装数据警告解决 Spring Boot Configuration Annotation Processor not configured

我们自定对象封装指定数据&#xff0c;封装类上面一个红色警告&#xff0c;虽然不影响我们的执行&#xff0c;但是有强迫症看着不舒服&#xff0c; 去除方式&#xff1a; 在pom文件加上坐标刷新 <dependency><groupId>org.springframework.boot</groupId><…...

【流程图——讲解】

流程图介绍 流程图介绍 流程图介绍 流程图是一种图表&#xff0c;它展示了工作流程或过程中的步骤顺序&#xff0c;它通常由不同的符号表示&#xff0c;每个符号都代表一个步骤或过程中的一个元素&#xff0c;流程图非常有用&#xff0c;因为它们可以提供清晰、视觉化的过程表…...

「计算机网络」物理层

物理层的基本概念 物理层的作用&#xff1a;尽可能屏蔽掉不同传输媒体和通信手段的差异物理层规程&#xff1a;用于物理层的协议主要任务&#xff1a;确定与传输媒体的接口有关的一些特性 机械特性电器特性功能特性过程特性 数据通信的基础知识 数据通信系统的模型 划分为…...

ARM与X86架构的区别与联系

文章目录 1.什么是CPU2.复杂指令集和精简指令集3.ARM架构与X86架构的比较3.1.制造工艺3.2 64位计算3.3 异构计算3.4 功耗 4.ARM和X86的发展现状Reference 1.什么是CPU 中央处理单元&#xff08;CPU&#xff09;主要由运算器、控制器、寄存器三部分组成&#xff0c;从字面意思看…...

蓝桥杯每日一题------背包问题(二)

前言 本次讲解背包问题的一些延申问题&#xff0c;新的知识点主要涉及到二进制优化&#xff0c;单调队列优化DP&#xff0c;树形DP等。 多重背包 原始做法 多重背包的题意处在01背包和完全背包之间&#xff0c;因为对于每一个物品它规定了可选的个数&#xff0c;那么可以考虑…...

牛客错题整理——C语言(实时更新)

1.以下程序的运行结果是&#xff08;&#xff09; #include <stdio.h> int main() { int sum, pad,pAd; sum pad 5; pAd sum, pAd, pad; printf("%d\n",pAd); }答案为7 由于赋值运算符的优先级高于逗号表达式&#xff0c;因此pAd sum, pAd, pad;等价于(…...

CIFAR-10数据集详析:使用卷积神经网络训练图像分类模型

1.数据集介绍 CIFAR-10 数据集由 10 个类的 60000 张 32x32 彩色图像组成&#xff0c;每类 6000 张图像。有 50000 张训练图像和 10000 张测试图像。 数据集分为5个训练批次和1个测试批次&#xff0c;每个批次有10000张图像。测试批次正好包含从每个类中随机选择的 1000 张图像…...

《傲剑狂刀》中的人物性格——龙吟风

在《傲剑狂刀》这款经典武侠题材的格斗游戏中,龙吟风作为一位具有传奇色彩的角色,其性格特征复杂且引人入胜。以下是对龙吟风这一角色的性格特点进行深度剖析: 一、孤高独立的剑客气质 龙吟风的名字本身就流露出一种独特的江湖气息,"吟风"象征着他的飘逸与淡泊名…...

KVM和JVM的虚拟化技术有何区别?

随着虚拟化技术的不断发展&#xff0c;KVM和JVM已成为两种主流的虚拟化技术。尽管它们都提供了虚拟化的解决方案&#xff0c;但它们在实现方式、功能和性能方面存在一些重要的差异。本文将深入探讨KVM和JVM的虚拟化技术之间的区别。 KVM&#xff08;Kernel-based Virtual Mac…...

LeetCode力扣 面试经典150题 详细题解 (1~5) 持续更新中

目录 1.合并两个有序数组 2.移动元素 3.删除有序数组中的重复项 4.删除排序数组中的重复项 II 5.多数元素 暂时更新到这里&#xff0c;博主会持续更新的 1.合并两个有序数组 题目&#xff08;难度&#xff1a;简单&#xff09;&#xff1a; 给你两个按 非递减顺序 排列的…...

如何解决利用cron定时任务自动更新SSL证书后Nginx重启问题

利用cron定时任务自动更新SSL证书后&#xff0c;用浏览器访问网站&#xff0c;获取到的证书仍然是之前的。原因在于没有对Nginx进行重启。 据说certbot更新完成证书后会自动重启Nginx,但显然经我检测不是这回事儿。 所以我们需要创建一bash脚本&#xff0c;然后定时调用这个脚…...

第一个 Angular 项目 - 静态页面

第一个 Angular 项目 - 静态页面 之前的笔记&#xff1a; [Angular 基础] - Angular 渲染过程 & 组件的创建 [Angular 基础] - 数据绑定(databinding) [Angular 基础] - 指令(directives) 这是在学完了上面这三个内容后能够完成的项目&#xff0c;目前因为还没有学到数…...

网络协议与攻击模拟_17HTTPS 协议

HTTPShttpssl/tls 1、加密算法 2、PKI&#xff08;公钥基础设施&#xff09; 3、证书 4、部署HTTPS服务器 部署CA证书服务器 5、分析HTTPS流量 分析TLS的交互过程 一、HTTPS协议 在http的通道上增加了安全性&#xff0c;传输过程通过加密和身份认证来确保传输安全性 1、TLS …...

【linux系统体验】-ubuntu简易折腾

ubuntu 一、终端美化二、桌面美化2.1 插件安装2.2 主题和图标2.3 美化配置 三、常用命令 以后看不看不重要&#xff0c;咱就是想记点儿东西。一、终端美化 安装oh my posh&#xff0c;参考链接&#xff1a;Linux 终端美化 1、安装字体 oh my posh美化工具可以使用合适的字体&a…...

WinMerge对比日志和备份文件?用过滤器精准匹配,效率翻倍

WinMerge对比日志和备份文件&#xff1f;用过滤器精准匹配&#xff0c;效率翻倍 在日常运维和办公场景中&#xff0c;我们经常需要对比不同版本的日志文件或备份文件。比如app.log.1和app.log.2的差异分析&#xff0c;或者report_20240520.xlsx与report_20240521.xlsx的内容比对…...

Windows HEIC缩略图解决方案:告别格式壁垒,实现跨平台无缝浏览

Windows HEIC缩略图解决方案&#xff1a;告别格式壁垒&#xff0c;实现跨平台无缝浏览 【免费下载链接】windows-heic-thumbnails Enable Windows Explorer to display thumbnails for HEIC/HEIF files 项目地址: https://gitcode.com/gh_mirrors/wi/windows-heic-thumbnails…...

LabVIEW图形化编程实战:从数据流原理到高效测控系统开发

1. 项目概述与核心价值今天咱们来聊聊LabVIEW这门工具。很多刚接触自动测试、数据采集或者仪器控制的朋友&#xff0c;可能都听说过它的大名&#xff0c;但上手时总觉得它和传统的文本编程语言&#xff08;比如C、Python&#xff09;不太一样&#xff0c;有点无从下手。我最早接…...

RFSoC玩转跳频通信:从NCO配置到多片同步的实战指南(Zynq UltraScale+ RFSoC Gen 3)

RFSoC跳频通信实战&#xff1a;从NCO配置到多片同步的高级技巧 跳频通信技术在现代无线系统中扮演着关键角色&#xff0c;尤其在抗干扰和频谱感知应用中。Xilinx的Zynq UltraScale RFSoC Gen 3平台凭借其集成的RF数据转换器和灵活的数字信号处理能力&#xff0c;为跳频系统设计…...

加密货币社区 Google 官方邮件钓鱼威胁机理与防御体系研究

摘要 2026 年 5 月&#xff0c;加密货币社区出现依托 Google 官方邮件通道实施的高级钓鱼攻击&#xff0c;比特币开发者 Jameson Lopp 公开预警&#xff0c;该攻击通过伪装系统安全提示、篡改发件人显示名、滥用可信邮件基础设施&#xff0c;使传统安全告警失效&#xff0c;对新…...

别再为交叉项头疼了!手把手教你用MATLAB时频工具箱搞定WVD、PWVD和SPWVD

别再为交叉项头疼了&#xff01;手把手教你用MATLAB时频工具箱搞定WVD、PWVD和SPWVD 信号处理工程师和研究者们常常面临一个棘手问题&#xff1a;如何从复杂的非平稳信号中提取清晰的时频特征&#xff1f;Wigner-Ville分布&#xff08;WVD&#xff09;系列方法作为经典解决方案…...

你的微信聊天记录,真的安全吗?揭秘永久保存数字记忆的开源方案

你的微信聊天记录&#xff0c;真的安全吗&#xff1f;揭秘永久保存数字记忆的开源方案 【免费下载链接】WeChatMsg 提取微信聊天记录&#xff0c;将其导出成HTML、Word、CSV文档永久保存&#xff0c;对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHu…...

树莓派命令行保姆级避坑指南:从sudo权限到安全关机,别再乱敲命令了

树莓派命令行深度避坑手册&#xff1a;从权限管理到系统维护的黄金法则 当你第一次拿到树莓派时&#xff0c;那种兴奋感可能让你迫不及待地想尝试各种命令。但很快&#xff0c;你会发现这个小小的设备背后隐藏着许多"陷阱"——一个错误的sudo命令可能导致系统崩溃&am…...

如何构建高效科研知识库:Obsidian文献管理系统的3种创新策略

如何构建高效科研知识库&#xff1a;Obsidian文献管理系统的3种创新策略 【免费下载链接】obsidian_vault_template_for_researcher This is an vault template for researchers using obsidian. 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian_vault_template_for_r…...

深入SmoothL1Loss:从Faster R-CNN到YOLO,看一个损失函数如何影响模型精度

深入解析SmoothL1Loss&#xff1a;目标检测模型中的边框回归利器 在目标检测领域&#xff0c;边框回归&#xff08;Bounding Box Regression&#xff09;是决定模型定位精度的关键环节。当我们翻阅Faster R-CNN、YOLOv3等经典模型的源码时&#xff0c;会发现一个反复出现的损失…...