当前位置：首页 > news >正文

多模态机器学习入门Tutorial on MultiModal Machine Learning——第一堂课个人学习内容

news 2026/5/15 2:54:08

文章目录

- 课程记录
- - 核心技术Core Technical Challenges
  - representation表示
  - alignment对齐
  - 转换translation
  - Fusion融合
  - co-learning共同学习
  - 总结
  - Course Syllabus教学大纲
- 个人总结
- 第一周的安排
- 相关连接

课程记录

这部分是自己看视频，然后截屏，记录下来的这部分的感受，大家感兴趣但是又听得很费劲的话，可以看我的总结。

核心技术Core Technical Challenges

representation表示

在这里插入图片描述

多模态学习的里程碑事件，是人们学会了联合表示joint representtation。
在上图中，可以看到不同的模态信息都是使用同一种表示进行表示，包括语言，感觉，触觉等。
上图中左侧是图片和文字两种模态进行融合发展的典型样例。右侧是语言和视觉的结合，分别使用独立的语言模型和视觉模型，将文本和图片转为vector进行表示，然后再进行联合。这两个语义就存在于同一个空间。

在这里插入图片描述

上述slide是一个联合学习的简单应用，将一个蓝色的车辆生成的向量，减去blue生成vector，然后再加上新的单词，你就可以获得红色的车。可以用来做简单的内容理解，虽然内容仍旧很鸡肋，但是但是已经是划时代。进一步说，我们可以将多模态学习转为如何开发出一种能够表示不同模态数据的冗余性和互补型的表示。

在这里插入图片描述

数据的互补性在于，仅仅通过一种模态并不能达成目标，需要两种信息互补。冗余性，就是通过一种信息就可以知道完全的信息，彼此是冗余的，但是可以保持模型的健壮性。
不同于多模态协调，多模态融合是将两种模态融合为一种模态，在同一空间中进行保存，图片就是文本，然后文本就是图片，这是绑定的。但是多模态协调，是完全不同的模态。如果两个模态比较近似，可以使用联合表示joint representation。如果不相等，但是相似，就可以使用多模态协调。
多模态协调的典型样例就是：CCA Canonical Correlation analysis

alignment对齐

在这里插入图片描述

alignment和多视角，多种语言中对齐定义相类似，正常你在说话的时候，需要将和语言和动作进行对齐，才会便于理解。多模态学习就像是对于同一事物，使用不同视角进行学习，这个视角可以看作是模态，就是使用不同的模态去学习同一个事物。常见的应用，比如说，将表示同样意义的图片和文字进行存储。
Explicit Alignment：是根据意义将事物进行比对，比如说将做通一道菜的视频和菜谱进行配对，将意义相同的图片和文字进行配对。损失函数，的目标就是衡量是否对齐的。
Implicit Alignment：不同于上文的清晰对齐，不清晰对齐的损失函数的目标并不是直接判定是否对齐的，是以别的任务为目标的。不清晰的对齐是作为某一项任务的中间过程，实际的损失函数可能是以别的任务为目标。常见的比如说，在从图片生成文本的过程中，文字和图片对齐仅仅是一个潜在的过程，对于研究这个方向的人来说，具体可能就是注意力模型。自注意力机制和tarnsformer就是按照这个线索展开的。

在这里插入图片描述

上述视频可能不同，运动力度不同，但是你仍旧可以想方设法使其进行对齐。上述slide就是explicit对齐，单纯为了对齐而对齐

在这里插入图片描述

上述过程就是隐式对齐，为了实现语言生成，需要进行文字对齐。对齐是作为其中一个过程存在的。

在这里插入图片描述

representation和alignment对于大部分多模态模型而言，都是必须的部分，也是本课程最为重要的两个部分，分别花费三周的时间学习。在后者，将会产生分支，translation是作为转换，将一种模态转换为另外一种模态，而fusion虽然是融合，是将两种模态进行融合，但是不同于representation，其实为了获取更加高级的信息，比如说获取情感信息，或者获取视频中的具体事件等。
translation的典型应用就是图片的注释生成。

转换translation

在这里插入图片描述

这就是转换的一个典型的应用，根据任务描述和台词，自动生成在说这些话的动画模型。

在这里插入图片描述

将数据从一种模态转变为另外一种模态的过程，其中转换关系一般是开放没有限度的，或者是主观的

在这里插入图片描述

这个应用是根据文字生成对应的动作，作者的幻想就是根据剧本生成对应初始版本的动画，看看剧本的效果。

Fusion融合

在这里插入图片描述

主要是分为早期融合和晚期融合，早期融合是针对，在将两种模态的数据进行融合，在融合之后的数据上进行更加复杂的操作。而后融合，就是先进行复杂操作，然后见结果进行融合，这样处理之后，整个模型的数据会变小。
model-agnostic approach:模型不可知方法

在这里插入图片描述

co-learning共同学习

共同学习的目标：在模态之间尽心转换结果，包括表达方式和预测性的模型。比如说，目标检测就是一个单模态的任务，我们能否使用其他的已经训练好的相关的多模态模型，来减少单模态目标识别的训练时间。一般来说，是用来针对数据比较少的情况下使用的。

在这里插入图片描述

共同学习的最大问题，就是不知道两个共同学习的模态的相关性是强的，还是弱的，不知道如何进行配对。parallel就是完全匹配的关系，每一个模态的元素都是一一对应的，比如说单词和图片。另外一种就是non-parallel属于不完全匹配，但是整体的含义是相同的，比如说具有相同意义的，英文句子和法语句子。

在这里插入图片描述

** a cyclic loss** : 循环损失
上述例子是学习language Embedding的过程，将用户说的话编码，用来进行情感识别。这里的想法是，如果语料库足够多，就可以单纯通过语言这个模态进行解决，但是针对手写的文本数据库比较多，但是对于语音的语料库并不是很多。正常讲话的过程中，是包含语音信息，语言信息和人物动作三种信息，可以在训练中使用，用来改良训练效果，但是在测试阶段，只能拥有语音信息。
首先，作者将语音模态转换，进行编码，变为中间表示，然后生成为视觉模态。然后，使用循环损失函数，进行逆向操作，由视觉模态，逆向生成共同学习的中间表示，然后在进行逆向生成，变成原始的语言模态。这个用来判定转换之后的目标模态是否保存了输入数据的所有信息。
然后，在实际训练的过程中，你就可以单纯针对中间表示进行训练，中间表是的数据集表较多，然后原先的数据集就只需要进行测试极了。最左端输入的是比较少的测试数据，中间是数据集比较多的数据集，右侧是最终的训练结果

总结

在这里插入图片描述

上述是五个分类的大概，并且指出了对应类别的研究挑战。

在这里插入图片描述

多模态机器学习已经解决了目前很多的问题，上述为目前主要的研究方向。

Course Syllabus教学大纲

ICML：

在这里插入图片描述

不仅仅运行对应的代码，更重要能够进行错误分析，知道为什么。然后再提出一些改进意见，并不是追求什么准确度，而是做出不同的尝试

在这里插入图片描述

具体的课程安排

在这里插入图片描述

个人总结

这是完全听了这门课，觉得部分国外教学是要比部分国内教学好的，至少教的东西都是比较新的，并不是照本宣科的念，已经有了网课，就照着网课跟着学习，这里把链接贴出来。上面的内容是我听了网课总结的，感兴趣的可以进行学习。
这门课的最终的项目都发表了相关的文章，而且作者在github上都放上了相关的连接，大部分都已经发表了对应的文章。
这是一个系列性的课程，自己慢慢听，应该会收获很多。
每周的阅读内容，我都会将我自己的阅读内容写成博客，分享，如果大家对于这门课程感兴趣，可以和我一块讨论。

第一周的安排

阅读下述文献
- Multimodal Machine Learning：A Survey and Taxonomy
- Repersentation Learning:A Review and New Perspective
回答相关的问题
- What is Multimodal? Definitions, dimensions of heterogeneity and cross-modal interactions.
- Historical view and multimodal research tasks.
- Core technical challenges: representation, alignment, transference, reasoning, generation, and quantification.

多模态机器学习入门Tutorial on MultiModal Machine Learning——第一堂课个人学习内容

文章目录课程记录核心技术Core Technical Challengesrepresentation表示alignment对齐转换translationFusion融合co-learning共同学习总结Course Syllabus教学大纲个人总结第一周的安排相关连接课程记录这部分是自己看视频，然后截屏，记录下来的这部分的…...

编程日记 2023/2/20 4:43:09

Java ~ Collection/Executor ~ LinkedBlockingDeque【总结】

一概述简介 LinkedBlockingDeque（链接阻塞双端队列）类（下文简称链接阻塞双端队列）是BlockingDeqeue（阻塞双端队列）接口的唯一实现类，采用链表的方式实现。链接阻塞双端队列与LinkedBlockingQu…...

编程日记 2023/2/20 4:42:01

.NET7的AOT的使用

背景其实，规划这篇文章有一段时间了，但是比较懒，所以一直拖着没写。最近时总更新太快了，太卷了，所以借着 .NET 7 正式版发布，熬夜写完这篇文章，希望能够追上时总的一点距离。本文主要介绍如何在…...

编程日记 2023/2/20 4:40:53

分布式缓存的问题

1,Redis缓存穿透问题 Redis缓存穿透问题是指查询一个一定不存在的数据，由于这样的数据缓存一定不命中，所以这样的请求一定会打到数据库上。但是由于数据库里面也没有这样数据，且也没有将这样的null值缓存到数据库，从而造成这样的…...

编程日记 2023/2/20 4:39:46

golang入门笔记——内存管理和编译器优化

静态分析静态分析：不执行程序代码，推导程序的行为，分析程序的性质控制流（control flow）：程序的执行流程数据流（data flow）：数据在控制流上的传递通过分析控制流和…...

编程日记 2023/2/20 4:38:40

GEE学习笔记七十：【GEE之Python版教程四】Python基础编程二

通过上一章的讲解，我们对于python有了初步的了解，这一章就详细讲解一下python的各个变量以及运算规则等内容。关于测试代码推荐初学者将每一段代码都自己敲入编辑器中在本地运行。 1、数值这是任何编程中都会有的基本变量，在python支持的…...

编程日记 2023/2/20 4:37:33

股票投资新出发之知识体系构建导论

文章目录前言参考资料如何构建体系实践理论tips前言自2021年股票开户，投资已有2年左右，但更多的是凭感觉式的拍脑袋投资，没有自己的投资体系，所以开此专栏从零开始构建知识体系，勉励自己不断学习。两年的投资经验让我…...

编程日记 2023/2/20 4:36:26

蓝桥杯算法训练合集十六 1.首字母变大写2.盾神计科导作业3.Cinema4.接水问题

目录 1.首字母变大写 2.盾神计科导作业 3.Cinema 4.接水问题 1.首字母变大写问题描述对一个字符串中的所有单词，如果单词的首字母不是大写字母，则把单词的首字母变成大写字母。在字符串中，单词之间通过空白符分隔，空白符包括…...

编程日记 2023/2/20 4:35:18

密码的世界

网络世界中常见的攻击方法窃听攻击窃听攻击是网络世界最常见的一种攻击方式，一些不能泄露的隐私信息，例如银行卡密码，账号密码，如果被窃听泄露的话通常会带来比较严重的后果。中间人攻击在中间人攻击中，小明准…...

编程日记 2023/2/20 4:34:10

如何用一句话感动测试工程师？产品和技术都这么说！

测试工程师在公司里的地位一言难尽，产品挥斥苍穹，指引产品前路；开发编写代码实现功能，给产品带来瞩目成就。两者，一个是领航员，一个是开拓者，都是聚光灯照耀的对象，唯独团队中的保障…...

编程日记 2023/2/20 4:33:02

3｜物联网控制｜计算机控制-刘川来胡乃平版｜第2章：计算机控制系统中的检测设备和执行机构-2.1传感器和变送器｜课堂笔记｜ppt

...

编程日记 2023/2/20 4:31:56

MySQL中使用索引优化

目录一.使用索引优化数据准备避免索引失效应用-全值匹配避免索引失效应用-最左前缀法则避免索引失效应用-其他匹配原则 1、 2、 3、 4、 5、一.使用索引优化索引是数据库优化最常用也是最重要的手段之一,通过索引通常可以帮助用户解决大多数的MySQL的性能优化…...

编程日记 2023/2/20 4:30:48

Linux C/C++ 多线程TCP/UDP服务器 (监控系统状态)

Linux环境中实现并发TCP/IP服务器。多线程在解决方案中提供了并发性。由于并发性，它允许多个客户端同时连接到服务器并与服务器交互。 Linux多线程编程概述许多应用程序同时处理多项杂务。服务器应用程序处理并发客户端；交互式应用程序通常在处理后台…...

编程日记 2023/2/20 4:29:39

【JavaScript】JavaScript基本使用方法

如何回复程序员发来的短信：Hello world —hello nerd. 前言： 大家好，我是程序猿爱打拳。今天我给大家讲解的是初识JavaScript中基本组成成分、引入方法、输入输出语句，并用源码与效果图的方式展示给大家。目录 1.JavaScript组成…...

编程日记 2023/2/20 4:28:32

Python数据容器、list列表、tuple元组、str字符串、数据容器（序列）切片、set集合、dict字典、字符串大小比较

数据来源 01 数据容器为什么学习数据容器数据容器总结 02 列表 1）列表定义为什么需要列表列表的定义语法列表的定义方式演示 """ 演示数据容器之:list列表语法:[元素,元素,......] """ # 定义一个列表list my_list …...

编程日记 2023/2/20 4:27:24

Python urllib

Python urllib Python urllib 库用于操作网页 URL，并对网页的内容进行抓取处理。本文主要介绍 Python3 的 urllib。 urllib 包包含以下几个模块： urllib.request - 打开和读取 URL。urllib.error - 包含 urllib.request 抛出的异常。urllib.parse …...

编程日记 2023/2/20 4:26:14

Centos7安装Python3

前言系统版本：Centos7.6python版本： python 3.10.4下载python下载链接：直通车找到对应版本的python安装包,这里以python 3.10.4为例点击3.10.4版本的链接，拉到最下面找到Files中对应的linux安装包鼠标右键复制下载链接登录linux系…...

编程日记 2023/2/20 4:25:05

[U3D ShaderGraph] 全面学习ShaderGraph节点 | 第四课 | Input/Lighting

📣📣📣本专栏所有内容在完结之前全部为试读模式,专栏完结之后会取消试读模式,如果感觉内容还不错的话请支持一下📣📣📣 ShaderGraph是可视化的着色器编辑工具。您可以使用此工具以可视方式创建着色器。本专栏可以让你更了解ShaderGraph中每个节点的功能，更自如的…...

编程日记 2023/2/20 4:23:59

SpringBoot升级到3.0

SpringBoot 3.0出来有一段时间了，一直没时间来整理，这次来看一下吧。 Spring Boot 可以轻松创建独立的、生产级的基于 Spring 的应用程序，您可以“直接运行”。 SpringBoot升级到3.01. SpringBoot的维护时间线2. pom添加3. 打包大小对比4. 升…...

编程日记 2023/2/20 4:22:53

JavaWeb8-线程安全问题

目录 1.概念 1.1.单线程 1.2.多线程 2.导致线程不安全的5个因素 ①抢占式执行（首要原因） ②多个线程同时修改了同一个变量 ③非原子性操作 ④内存可见性 ⑤指令重排序线程优点：加速程序性能。线程缺点：存在安全问题。 1…...

编程日记 2023/2/20 4:21:43

32G显存消费级显卡也能搞定！LoRA+VLLM生产级部署，AI专属模型全流程实战教程

本文详细介绍了如何使用LoRA微调和vLLM推理部署，在32G消费级显卡上完成AI模型从训练到上线的全流程。内容涵盖完整代码、逐行解释以及生产级部署方案，包括数据预处理、模型加载、LoRA配置、训练参数设置、模型合并和vLLM部署等关键步骤。通过显存优化策略…...

编程新知 2026/5/15 2:06:37

【LangChain】 Runnable 链式调用深度解析：从 `itemgetter` 到 `RunnableLambda`

LangChain Runnable 链式调用深度解析：从 itemgetter 到 RunnableLambda本文基于 LangChain 框架，深入解析 Runnable 链式调用中的核心机制，重点剖析 itemgetter、| 管道符以及 RunnableLambda 的用法与设计哲学。一、从一个典型示例说起先看…...

编程新知 2026/5/15 1:18:29

【Claude × Vue.js开发提效黑科技】：20年架构师亲测的5个AI辅助编码场景，90%开发者还不知道

更多请点击： https://intelliparadigm.com 第一章：Claude Vue.js开发提效黑科技全景图智能提示与组件生成协同工作流 Claude 可深度理解 Vue 3 Composition API 的语义结构，配合 VS Code 的 Claude for VS Code 插件，开发者在…...

编程新知 2026/5/15 0:15:43

嵌入式Qt GUI开发实战：从界面设计到硬件控制的完整流程

1. 项目概述：从虚拟界面到物理世界的桥梁在嵌入式开发领域，一个令人兴奋的里程碑就是让图形界面（GUI）真正“动”起来，去控制物理世界中的硬件。很多朋友在学习了Qt的基础控件和界面设计后，常常会问&#xf…...

编程新知 2026/5/15 0:09:27

如何从安卓手机 / 平板打印文件？3 种简单方法

随着安卓技术的发展，智能手机能实现诸多功能，但直接打印是设备本身暂不支持的操作，这是因为安卓系统没有原生打印功能。那么该如何用安卓手机打印？本文整理 3 种高效简单的方法供你参考。方法 1：使用 iReaShare Androi…...

编程新知 2026/5/15 0:03:19

Mysql JOIN 的物理执行流程

一、关联字段在两个表中都没有索引当两个参与 join 的表在关联字段上都没有索引时，MySQL 无法使用高效的索引树搜索，而是被迫采用 Block Nested-Loop Join (BNL) 算法。为了清晰讲解物理流程，我们设定如下 SQL 示例 ： 表 t1t1t1…...

编程新知 2026/5/14 22:26:31

ClaudeDot：本地化AI对话管理工具的设计与实现

1. 项目概述：ClaudeDot 是什么，以及它解决了什么问题如果你和我一样，日常重度依赖 Claude 这类 AI 助手进行编程、写作和头脑风暴，那你一定遇到过这样的场景：在浏览器里开了无数个 Claude 对话标签页，每个标…...

编程新知 2026/5/14 21:04:05

在OpenClaw项目中配置Taotoken作为OpenAI兼容后端的详细方法

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在OpenClaw项目中配置Taotoken作为OpenAI兼容后端的详细方法对于使用OpenClaw这类智能体框架的开发者而言，将后端大模…...

编程新知 2026/5/14 20:45:46

如何高效使用星穹铁道抽卡数据分析工具：智能跃迁记录完整指南

如何高效使用星穹铁道抽卡数据分析工具：智能跃迁记录完整指南【免费下载链接】star-rail-warp-export Honkai: Star Rail Warp History Exporter 项目地址: https://gitcode.com/gh_mirrors/st/star-rail-warp-export 你是否想知道自己在《崩坏：…...

编程新知 2026/5/14 20:04:31

站点可靠性工程性能监控与调优闭环：10个关键步骤的完整指南

站点可靠性工程性能监控与调优闭环：10个关键步骤的完整指南【免费下载链接】awesome-sre A curated list of Site Reliability and Production Engineering resources. 项目地址: https://gitcode.com/gh_mirrors/awe/awesome-sre 站点可靠性工程&#xff0…...

编程新知 2026/5/14 19:46:25

文章目录

课程记录

核心技术Core Technical Challenges

representation表示

alignment对齐

转换translation

Fusion融合

co-learning共同学习

总结

Course Syllabus教学大纲

个人总结

第一周的安排

相关连接

相关文章：