当前位置：首页 > news >正文

大模型/NLP/算法面试题总结2——transformer流程//多头//clip//对比学习//对比学习损失函数

news 2026/3/27 10:30:54

用语言介绍一下Transformer的整体流程

1. 输入嵌入（Input Embedding）

输入序列（如句子中的单词）首先通过嵌入层转化为高维度的向量表示。嵌入层的输出是一个矩阵，每一行对应一个输入单词的嵌入向量。

2. 位置编码（Positional Encoding）

因为Transformer模型没有循环结构，所以需要通过位置编码（Positional Encoding）给每个单词提供位置信息。位置编码与输入嵌入向量相加，帮助模型理解单词在序列中的相对位置。

3. 编码器（Encoder）

编码器由多个相同的编码器层（Encoder Layers）堆叠而成，每个编码器层包括以下两个子层：

a. 多头自注意力机制（Multi-Head Self-Attention Mechanism）

这个子层通过多个独立的注意力头（attention heads）计算输入序列的自注意力，捕捉不同位置的单词之间的关系。每个头的输出会被拼接并线性变换，产生最终的自注意力输出。

b. 前馈神经网络（Feed-Forward Neural Network, FFNN）

自注意力的输出经过一个全连接的前馈神经网络，该网络包括两个线性变换和一个ReLU激活函数。

每个子层之后都有一个残差连接（Residual Connection）和层归一化（Layer Normalization），使训练更加稳定。

4. 解码器（Decoder）

解码器与编码器结构类似，也是由多个相同的解码器层（Decoder Layers）堆叠而成。每个解码器层包括以下三个子层：

a. 掩码多头自注意力机制（Masked Multi-Head Self-Attention Mechanism）

与编码器中的自注意力类似，但在解码过程中使用了掩码机制，确保每个位置只能看到它之前的输出，避免信息泄露。

b. 编码器-解码器注意力机制（Encoder-Decoder Attention Mechanism）

这个子层通过多头注意力机制关注编码器的输出，结合编码器的上下文信息生成解码器的输出。

c. 前馈神经网络（Feed-Forward Neural Network, FFNN）

类似于编码器中的前馈神经网络。

每个子层之后也有残差连接和层归一化。

5. 输出层（Output Layer）

解码器的最终输出经过一个线性变换和Softmax层，生成对目标词汇表中每个单词的概率分布，最终选择概率最高的单词作为输出。

6. 损失函数和训练

通常使用交叉熵损失函数（Cross-Entropy Loss）来衡量模型输出与真实标签之间的差异，并通过反向传播（Backpropagation）和优化算法（如Adam）来更新模型参数。

Transformer模型通过并行计算和注意力机制，实现了更高效、更强大的自然语言处理能力，广泛应用于机器翻译、文本生成、文本分类等任务。

·multi head-attention为什么不用一个头？

并行处理

信息多样性

减少冗余

灵活性

增强表达能力

·深度学习的三种并行方式：数据并行，模型并行，流水线并行

1. 数据并行（Data Parallelism）

概念：将整个训练数据集划分成多个小批次（mini-batches），然后将这些小批次分配到不同的处理单元（如多个GPU）上进行并行计算。

2. 模型并行（Model Parallelism）

概念：将模型的不同部分划分到不同的处理单元上，每个处理单元只负责计算模型的一部分。

3. 流水线并行（Pipeline Parallelism）

概念：结合数据并行和模型并行的方法，将模型的不同部分划分到不同的处理单元上，同时每个处理单元上并行处理多个数据批次。

对于CLIP的了解？

CLIP（Contrastive Language–Image Pretraining）是OpenAI开发的一种模型，它通过对比学习来连接自然语言和图像，能够执行多种视觉和语言任务。以下是CLIP模型的主要概念和工作原理：

CLIP的主要概念

对比学习（Contrastive Learning）：
- CLIP使用对比学习来训练模型，将配对的图像和文本表示拉近，而将不匹配的图像和文本表示推远。
- 通过这种方法，模型能够学习到图像和文本之间的相似性。
多模态模型（Multimodal Model）：
- CLIP同时处理图像和文本数据，具备多模态的理解能力。
- 它由两个独立的编码器组成，一个用于图像（通常是基于ResNet或Vision Transformer的架构），另一个用于文本（通常是基于Transformer的架构）。
大规模预训练（Large-Scale Pretraining）：
- CLIP在大规模的图像-文本对数据集上进行预训练，涵盖广泛的图像和文本内容。
- 这种预训练使得CLIP具备强大的泛化能力，可以适应多种下游任务。

CLIP的工作原理

输入数据：
- CLIP接收图像和文本对作为输入，每对数据包含一个图像和一个描述该图像的文本。
编码器：
- 图像编码器将输入图像转换为图像表示（高维向量）。
- 文本编码器将输入文本转换为文本表示（高维向量）。
对比损失（Contrastive Loss）：
- 在训练过程中，CLIP使用对比损失函数，将正确配对的图像和文本表示拉近，而将不匹配的图像和文本表示推远。
- 具体来说，使用一种基于内积的相似性度量（如余弦相似度），计算图像-文本对的相似度，并通过最大化正确对的相似度和最小化错误对的相似度来训练模型。
多任务应用：
- 预训练完成后，CLIP能够应用于多种任务，如图像分类、图像检索、文本生成等。
- 例如，在图像分类任务中，可以通过计算输入图像与每个类别描述文本的相似度来进行分类；在图像检索任务中，可以通过文本描述检索相关图像。

CLIP的优势

零样本学习（Zero-Shot Learning）：
- CLIP在训练时不需要针对特定任务进行微调，能够直接进行零样本学习。
- 这种能力使得CLIP能够在没有见过的新任务和新数据上表现出色。
多模态理解：
- CLIP同时处理图像和文本数据，具备多模态理解能力，能够处理复杂的跨模态任务。
广泛适用性：
- 由于在大规模数据集上进行预训练，CLIP在各种下游任务中表现出色，具备很强的泛化能力。

什么是对比学习？

对比学习（Contrastive Learning）是一种机器学习方法，特别是在无监督学习和自监督学习中广泛应用。其核心思想是通过比较不同样本之间的相似性和差异性来学习数据的表示或特征。这种方法不依赖于标签数据，而是通过样本之间的相互关系，使得模型能够学习到有意义的特征表示。

对比学习的基本原理

正负样本对：在对比学习中，通常会构建正样本对和负样本对。正样本对包括来自同一类别或具有相似特征的数据点，如不同角度的猫的照片；而负样本对则包括不同类别或不相似特征的数据点，如一张猫的照片和一张狗的照片。
目标：模型被训练以拉近相似的数据点的表示（即减少它们之间的距离），同时推开不相似的数据点的表示（即增加它们之间的距离）。

对比学习的应用领域

对比学习主要应用在以下领域：

计算机视觉：在图像处理中，对比学习可以通过将一张图片的不同增强版本（如不同的裁剪、旋转或颜色调整）作为正样本对来训练模型，而将来自不同图片的表示作为负样本对。
自然语言处理：在自然语言处理任务中，对比学习可以用于学习句子的表示，通过比较语义上相似和不相似的句子对来训练模型。

对比学习的优势

利用未标记数据：对比学习不依赖于大量的标注数据，因此可以利用大量未标注的数据来学习，从而节省标注成本。
提高模型性能：通过对比学习，模型能够学习到更鲁棒、更有区分力的特征表示，从而提高在各种任务上的性能。

对比学习的实例

在对比学习中，通常会使用两个网络（如一个目标网络和一个在线网络）来学习表示。在线网络的目标是预测目标网络在相同输入的不同增强版本上的表示。例如，BYOL（Bootstrap Your Own Latent）算法就采用了这种方式来促进网络学习到鲜明的特征表示。

说几种对比学习的损失函数，以及它们的特点和优缺点

1、对比损失函数

对比损失主要用于度量正负样本对的距离差异，通常表示为：

优点：直观地拉进同类、推开异类；有无监督学习的能力，可以应用于大量无标注的数据；比较灵活，可以使用不同的相似性度量方法，如欧氏距离、余弦相似度。

缺点：对比损失的性能可能受到超参数（如margin值）的显著影响；对比损失的效果很大程度上依赖于数据的质量和多样性；在大规模数据集上，计算所有样本对之间的距离可能非常耗时。

2、三元组损失函数

三元组损失通过比较一个正样本对和一个负样本对的距离差异来训练模型。损失函数形式为：

优点：Triplet loss能够在训练中学习到更好的细微特征；通过设定margin值（阈值控制），可以控制正负样本之间的距离，从而调整模型对样本间相似性的敏感度；比较灵活，可以根据需要调整margin的值，以适应不同的任务和模型训练阶段。

缺点：三元组的选取可能导致数据分布不均，影响模型训练的稳定性；Triplet loss的收敛速度可能较慢，需要更多的迭代次数；Triplet loss更容易导致过拟合，特别是在数据集较小或特征维度较高的情况下。

3、infoNCE损失函数

nfoNCE损失是一种基于噪声对比估计（Noise Contrastive Estimation）的损失函数，常用于对比学习和自监督学习。形式为：

优点：通过计算正样本对和负样本对之间的交互信息来衡量相似度，提供了更加丰富的语义信息；InfoNCE损失通常包含归一化项，使得不同批次和不同样本之间的对比具有一致的重要性；InfoNCE损失不需要标签信息，适用于多种无监督学习任务。

缺点：涉及复杂的数学运算，增加了计算的复杂度；可能受到温度参数（temperature）等超参数的显著影响；InfoNCE损失的效果也依赖于数据的质量和多样性。

大模型/NLP/算法面试题总结2——transformer流程//多头//clip//对比学习//对比学习损失函数

用语言介绍一下Transformer的整体流程 1. 输入嵌入（Input Embedding） 输入序列（如句子中的单词）首先通过嵌入层转化为高维度的向量表示。嵌入层的输出是一个矩阵，每一行对应一个输入单词的嵌入向量。 2. 位置编码&…...

编程日记 2024/7/10 0:47:00

【atcoder】习题——位元枚举

题意：求i&M的popcount的和，i属于0……N 主要思路还是变加为乘。举个例子N22，即10110 假设M的第3位是1，分析N中： 00110 00111 00100 00101 发现其实等价于 0010 0011 0000 0001 也就是左边第4位和第5…...

编程日记 2024/7/10 0:45:58

世界人工智能大会 | 江行智能大模型解决方案入选“AI赋能新型工业化创新应用优秀案例”

日前，2024世界人工智能大会暨人工智能全球治理高级别会议在上海启幕。本次大会主题为“以共商促共享，以善治促善智”，汇聚了上千位全球科技、产业界领军人物，共同探讨大模型、数据、新型工业化等人工智能深度发展时代下的热点话题…...

编程日记 2024/7/10 0:44:57

css浮动及清除浮动副作用的三种解决方法

css浮动及清除浮动副作用的三种解决方法文章目录 css浮动及清除浮动副作用的三种解决方法一、浮动定义二、浮动元素设置三、清除浮动副作用方法一四、清除浮动副作用方法二五、清除浮动副作用方法三一、浮动定义浮动（Float）是CSS中一种布局技术&…...

编程日记 2024/7/10 0:42:55

类别 COCO 2017数据集分类标签。coco2017数据集下载。 cls [background, person, bicycle, car, motorcycle, airplane, bus,train, truck, boat, traffic light, fire hydrant,stop sign, parking meter, bench, bird, cat, dog,horse, sheep, cow, elephant, bear, zebra,…...

编程日记 2024/7/10 0:40:53

【Python】已解决：SyntaxError: invalid character in identifier

文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：SyntaxError: invalid character in identifier 一、分析问题背景在Python编程中，SyntaxError: invalid character in identifier是一个常见的编译…...

编程日记 2024/7/10 0:39:52

RDNet实战：使用RDNet实现图像分类任务（一）

论文提出的模型主要基于对传统DenseNet架构的改进和复兴，通过一系列创新设计，旨在提升模型性能并优化其计算效率，提出了RDNet模型。该模型的主要特点和改进点： 1. 强调并优化连接操作（Concatenation） 论文…...

编程日记 2024/7/10 0:37:50

Java小白入门到实战应用教程-介绍篇

writer:eleven 介绍编程语言介绍编程语言按照抽象层次和硬件交互的方式划分为低级编程语言和高级编程语言。低级编程语言更接近计算机硬件层面，通常具有执行效率高的特点，但是由于注重计算机底层交互，所以编程难度相对较大。高级编程…...

编程日记 2024/7/10 0:36:48

python脚本“文档”撰写——“诱骗”ai撰写“火火的动态”python“自动”脚本文档

“火火的动态”python“自动”脚本文档，又从ai学习搭子那儿“套”来，可谓良心质量👍👍。 (笔记模板由python脚本于2024年07月07日 15:15:33创建，本篇笔记适合喜欢钻研python和页面源码的coder翻阅) 【学习的细节是欢悦…...

编程日记 2024/7/10 0:35:46

若依 / ruoyi-ui：执行yarn dev 报错 esnext.set.difference.v2.js in ./src/utils/index.js

一、报错信息 These dependencies were not found: * core-js/modules/esnext.set.difference.v2.js in ./src/utils/index.js * core-js/modules/esnext.set.intersection.v2.js in ./src/utils/index.js * core-js/modules/esnext.set.is-disjoint-from.v2.js in ./src/utils…...

编程日记 2024/7/10 0:31:41

移动端Vant-list的二次封装，查询参数重置

Vant-list的二次封装场景：在写项目需求的时候，移动端有用到vant-list组件。后续需求更新说要对列表数据页加搜索和筛选的功能。发现每次筛选完得在页面内手动重置一次查询参数。不方便，所以封了一层。二次封装代码 <template><…...

编程日记 2024/7/10 0:30:39

SMU Summer 2024 Contest Round 2

[ABC357C] Sierpinski carpet - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 思路:通过因为图形的生成过程是完全一样的。可以通过递归，不断分形。函数process(x,y,k)定义为以坐标(x,y)为左上角,填充sqrt3(k)级的地毯。 int n; int c[800][800]; 默认全为…...

编程日记 2024/7/10 0:29:38

Qt：11.输入类控件(QLineEdit-单行文本输入控件、QTextEdit-多行文本输入控件、QComboBox-下拉列表的控件)

一、QLineEdit-单行文本输入控件： 1.1QLineEdit介绍： QLineEdit 是 Qt 库中的一个单行文本输入控件，不能换行。允许用户输入和编辑单行文本。 1.2属性介绍： inputMask 设置输入掩码，以限定输入格式。setInputMask(con…...

编程日记 2024/7/10 0:28:37

Qt 音频编程实战项目

一Qt 音频基础知识 QT multimediaQMediaPlayer 类：媒体播放器，主要用于播放歌曲、网络收音机等功能。QMediaPlaylist 类：专用于播放媒体内容的列表。二音频项目实战程序 //版本5.12.8 .proQT core gui QT multimedia greate…...

编程日记 2024/7/10 0:27:36

C#委托事件的实现

1、事件在C#中事件是一种特殊的委托类型，用于在对象之间提供一种基于观察者模式的通知机制。 1.1、事件的发送方定义了一个委托，委托类型的声明包含了事件的签名，即事件处理器方法的签名。 1.2、事件的订阅者可以通过运算符来注册事件处理器…...

编程日记 2024/7/10 0:25:33

Java策略模式在动态数据验证中的应用

在软件开发中，数据验证是一项至关重要的任务，它确保了数据的完整性和准确性，为后续的业务逻辑处理奠定了坚实的基础。然而，不同的数据来源往往需要不同的验证规则，如何在不破坏代码的整洁性和可维护性的同时&#xff0…...

编程日记 2024/7/10 0:24:32

【Linux】shell基础知识点（updating）

1.输出重定向2.多命令批量执行（; 、&&、 ||）3.脚本不同方式执行的区别（source、bash、sh、./）4.理解环境变量5.export6.引号的使用last.命令相关 1.输出重定向 3种数据流： stdin：标准输入&#xf…...

编程日记 2024/7/10 0:23:31

Python基础练习•二

# ## Python编程入门作业 # # ### 选择题 # 1. 假设等号右侧变量都已知的情况下，下列哪个语句在Python中是⾮法的？（ B ） # A. x y z 1 # B. x (y z 1) # C. x, y y, x # D. x y # 2. 关于Python变量，下列…...

编程日记 2024/7/10 0:22:30

智慧科技照亮水利未来：深入剖析智慧水利解决方案如何助力水利行业实现高效、精准、可持续的管理

目录一、智慧水利的概念与内涵二、智慧水利解决方案的核心要素 1. 物联网技术：构建全面感知网络 2. 大数据与云计算：实现数据高效处理与存储 3. GIS与三维可视化：提升决策支持能力 4. 人工智能与机器学习：驱动决策智能化 …...

编程日记 2024/7/10 0:21:29

Vue3学习笔记（n.0）

vue指令之v-for 首先创建自定义组件（practice5.vue）： <!--* Author: RealRoad1083425287qq.com* Date: 2024-07-05 21:28:45* LastEditors: Mei* LastEditTime: 2024-07-05 21:35:40* FilePath: \Fighting\new_project_0705\my-vue-app\…...

编程日记 2024/7/10 0:20:28

颈腰椎病引发 “耳后疼痛”：耳根刺痛，可能是颈椎在 “捣乱”

很多人出现耳后持续性刺痛或按压痛，会误以为是中耳炎、腮腺炎，实则部分耳后疼痛与颈椎病变相关。颈椎病变压迫枕大神经（从颈椎延伸至耳后），会导致神经分布区域疼痛；同时颈椎肌肉痉挛、僵硬，牵拉…...

编程新知 2026/3/27 9:49:13

3步打造你的专属阅读系统：开源工具如何重构数字阅读体验

3步打造你的专属阅读系统：开源工具如何重构数字阅读体验【免费下载链接】legado-Harmony 开源阅读鸿蒙版仓库项目地址: https://gitcode.com/gh_mirrors/le/legado-Harmony 你是否曾遇到这样的困扰：阅读APP充斥广告弹窗、书源受限无法找到心仪内…...

编程新知 2026/3/27 8:42:38

从 0 开始讲透 C++ Lambda（对标 Java）

在写 C 多线程或 STL 时，经常会看到这样的代码：std::thread t([]{ std::cout << "Hello C Thread\n"; });很多人第一反应：这 [] 是什么？为什么和 Java 不一样？一、先给结论（先建立整体认知…...

编程新知 2026/3/27 7:46:15

SDMatte惊艳抠图效果展示：10组高难度玻璃/纱布/叶片实测对比图

SDMatte惊艳抠图效果展示：10组高难度玻璃/纱布/叶片实测对比图 1. 开篇：当AI遇见高难度抠图在图像处理领域，抠图一直是个技术活。特别是遇到玻璃杯、薄纱窗帘、树叶这些半透明或边缘复杂的物体时，传统工具往往力不从心。今天我…...

编程新知 2026/3/27 6:25:12

3步精通FanControl：从噪音难题到智能散热的技术蜕变

3步精通FanControl：从噪音难题到智能散热的技术蜕变【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/F…...

编程新知 2026/3/27 4:44:01

League Akari：5大核心解决方案提升英雄联盟游戏体验

League Akari：5大核心解决方案提升英雄联盟游戏体验【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一…...

编程新知 2026/3/27 4:36:00

Umi-OCR插件技术方案：5款引擎深度对比与实战配置指南

Umi-OCR插件技术方案：5款引擎深度对比与实战配置指南【免费下载链接】Umi-OCR_plugins Umi-OCR 插件库项目地址: https://gitcode.com/gh_mirrors/um/Umi-OCR_plugins Umi-OCR插件库为开源OCR工具提供了丰富的引擎选择，从本地CPU加速到云端AI识…...

编程新知 2026/3/27 3:19:04

3分钟掌握Umi-OCR插件：打造你的专属文字识别工具箱

3分钟掌握Umi-OCR插件：打造你的专属文字识别工具箱【免费下载链接】Umi-OCR_plugins Umi-OCR 插件库项目地址: https://gitcode.com/gh_mirrors/um/Umi-OCR_plugins 还在为不同场景下的文字识别需求而烦恼吗？Umi-OCR插件库为你提供了完美的解决…...

编程新知 2026/3/27 3:17:04

Delphi XE在Linux上开发桌面应用：从安装FMXLinux插件到第一个跨平台GUI程序

Delphi XE在Linux上开发桌面应用：从安装FMXLinux插件到第一个跨平台GUI程序引言对于熟悉Delphi的开发者来说，将Windows平台上的成熟应用迁移到Linux环境一直是个挑战。Delphi XE虽然支持Linux开发，但官方仅提供命令行应用的支持&#xff…...

编程新知 2026/3/27 3:11:02

如何让实验室管理“更简单”？——King’s LIMS以灵活与智能，重构高效运营新范式

在日常实验室管理中，流程繁琐、数据难溯源、报告生成低效、多场景管控混乱等问题，常成为拖慢运营节奏、抬升运维成本的“隐形阻力”。要打破管理困局、实现轻量化高效运维，选对数字化工具是关键。然而，在选择LIMS的过程中&#xf…...

编程新知 2026/3/27 2:30:44

用语言介绍一下Transformer的整体流程