当前位置：首页 > news >正文

大型语言模型（LLMs）演化树 Large Language Models

news 2026/4/1 16:59:59

大型语言模型（LLMs）演化树 Large Language Models

flyfish
下面的图来自论文地址

Transformer 模型（如 BERT 和 GPT-3）已经给自然语言处理（NLP）领域带来了革命性的变化。这得益于它们具备并行化能力（能够同时对输入数据的多个部分进行计算）、处理长距离依赖关系的能力（可以考虑并理解序列中相隔较远元素之间的关系），以及它们的可扩展性，使得大型语言模型（LLMs）能够有效地在大量数据和信息上进行训练并对其加以处理。

Transformer 是一种神经网络架构，由 Vaswani 等人在 2017 年一篇题为《Attention is All You Need》的论文中提出。Transformer 架构的一个关键特性是它使用了自注意力机制，该机制使大型语言模型能够聚焦于输入数据的相关部分，同时忽略不必要的信息，从而提升上下文相关的准确回复以及文本生成的质量。尽管大型语言模型领域发展迅速，新的架构不断涌现（如接纳加权键值架构），但了解编码器、解码器以及编解码器模型的架构设计和分类情况仍是很有必要的。大型语言模型的架构及其预训练目标可能存在显著差异，而它们的配置能够决定一个模型在哪些方面表现出色（例如，在文本生成任务、语言理解任务以及理解上下文方面）以及在哪些方面存在局限。

以下是一张更新后的大型语言模型（LLMs）演化树，它分为三个家族分支（仅编码器模型、编解码器模型以及仅解码器模型）。这张演化树勾勒出了语言模型的发展脉络以及庞大的大型语言模型版图，并且依据模型和数据的许可信息突出强调了大型语言模型的使用限制。该演化树基于《在实践中驾驭大型语言模型的力量：关于 ChatGPT 及其他的综述》
Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

基于 Transformer 的模型以非灰色进行显示：仅解码器模型位于蓝色分支，仅编码器模型位于粉色分支，编解码器模型位于绿色分支。模型在时间线上的纵向位置代表了它们的发布日期。开源模型以实心方块表示，闭源模型则以空心方块表示。右下角的堆叠柱状图展示了来自不同公司和机构的模型数量。
在这里插入图片描述
理解这三种类型的模型（编码器模型、解码器模型以及编解码器模型）之间的差异，对于为任务选择合适的模型、针对特定应用对模型进行微调、管理计算资源以及指导人工智能研发工作而言都至关重要。值得一提的是，尽管这些分类有助于理解不同类型的模型，但许多先进的大型语言模型往往会对组件进行修改，所以这并非严格意义上的分类，而更像是一种便于理解基础知识的概念性分类方式。

仅编码器模型 Encoder - Only Models

一种经过优化的架构，旨在理解输入文本中字词的语境，但本身并不生成新文本。
仅编码器模型以词元（单词、子词、字符或字节）作为输入，通过编码器对其进行处理，为每个词元生成一个数值表示（也称为特征向量或张量），以此来捕捉含义及双向的语境信息。这种表示可用于下游任务，无需进一步生成文本。
适用于多种任务，包括序列分类、实体识别以及抽取等。在需要深入理解语境的任务（如情感分析）方面表现尤为出色。在训练期间能够实现高效的并行处理。
自身缺乏生成连贯文本的能力。这一局限可能使得它们不太适用于涉及文本生成的任务。
示例
BERT、ELECTRA、RoBERTa

编解码器模型 Encoder - Decoder Models

一种既能理解输入文本中字词的语境，又能生成新文本的架构。
编解码器模型由两部分组成：编码器将词元作为输入，将其转换为数值表示，然后解码器利用这些表示来生成输出序列。这类模型尤其适用于序列到序列的任务。
对于那些既需要编码又需要解码的任务（如机器翻译和文本摘要），通常是性能最佳的模型。不过，这些模型在训练和微调时可能会消耗大量计算资源，且耗时较长。
由于采用两部分的设计，与仅编码器模型或仅解码器模型相比，编解码器模型的训练速度可能较慢，且会占用更多计算资源。
示例
FLAN UL2、FLAN T5

仅解码器模型 Decoder -Only Models

一种经过优化、可基于输入生成新文本的架构。
仅解码器模型同样以词元作为输入，并将其转换为数值表示。然而，与编码器不同的是，解码器使用掩码自注意力机制，专注于生成连贯的文本序列。它们通常是自回归模型（基于模型自身先前的输出进行预测）。
解码器在文本生成任务（如故事创作和对话生成）方面表现出色。一些最受欢迎且被广泛使用的语言模型（例如，GPT - 4）就是仅解码器模型。
仅解码器模型的训练速度较慢，因为每个词元的预测都依赖于先前的词元，这使得训练期间无法进行并行处理。此外，在不需要生成新文本而需深入理解输入序列语境的任务方面，它们可能不太擅长。
示例
Bard、GPT - 4、Jurassic - 2、LLaMA、BLOOM、YaLM、Chinchilla、MT - NLG、PALM 2

大型语言模型（LLMs）演化树 Large Language Models

大型语言模型（LLMs）演化树 Large Language Models flyfish 下面的图来自论文地址 Transformer 模型（如 BERT 和 GPT-3）已经给自然语言处理（NLP）领域带来了革命性的变化。这得益于它们具备并行化能力&…...

编程日记 2024/12/28 22:12:59

部分背包问题

本节学习解决部分背包问题,部分背包代表物品可以按照一定比例被分割,而后放入背包内.这是十分经典的用贪心算法解决的问题. 问题描述: 给定一些物品,用matrix表示各个物品的属性,第一项表示物品的质量,第二项表示物品的总价值.现有一背包最大承重为M,试求如何让背包中所装物品…...

编程日记 2024/12/28 22:11:57

教师管理系统

大概功能： 1.显示所有教师 2.按姓名查找教师 3.按工号查找教师 4.增加教师 5.删除教师 6.退出数据会保存到 txt 文件里面姓名：必须是中文手机号码：必须是11位，必须是数字效果展示： 代码展示： Teache…...

编程日记 2024/12/28 22:07:53

Word论文交叉引用一键上标

Word论文交叉引用一键上标 1.进入Microsoft word使用CtrlH快捷键或单击替换按钮 2.在查找内容中输入[^#] 3.鼠标点击，标签为“替换为：”的文本框，注意光标一定要打在图红色方框圈中的文本框中！ 4.点击格式选择字体 5.勾选上标…...

编程日记 2024/12/28 22:04:49

集成方案 | Docusign + 蓝凌 EKP，打造一站式合同管理平台，实现无缝协作！

本文将详细介绍 Docusign 与蓝凌 EKP 的集成步骤及其效果，并通过实际应用场景来展示 Docusign 的强大集成能力，以证明 Docusign 集成功能的高效性和实用性。在当今数字化办公环境中，企业对于提高工作效率和提升用户体验的需求日益迫切。蓝凌…...

编程日记 2024/12/28 22:01:46

Python大数据可视化：基于python大数据的电脑硬件推荐系统_flask+Hadoop+spider

开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql 5.7数据库工具：Navicat11开发软件：PyCharm 系统展示管理员登录管理员功能界面价格区间界面用户信息界面品牌管理笔记本管理电脑主机…...

编程日记 2024/12/28 21:58:43

【递归与回溯深度解析：经典题解精讲（下篇）】—— Leetcode

文章目录有效的数独解数独单词搜索黄金矿工不同的路径||| 有效的数独递归解法思路将每个数独的格子视为一个任务，依次检查每个格子是否合法。如果当前格子中的数字违反了数独规则（在行、列或 33 小方块中重复），直接返回 Fals…...

编程日记 2024/12/28 21:55:34

Spring boot处理跨域问题

Spring boot处理跨域问题方案一方案二推荐解决方案注意方案一实现WebMvcConfigurer的addCorsMappings方法 Configuration public class InterceptorConfig implements WebMvcConfigurer {Overridepublic void addCorsMappings(CorsRegistry registry) {registry.addMappin…...

编程日记 2024/12/28 21:53:29

每日小题打卡

目录幂次方手机键盘简单排序校庆性感素数幂次方题目描述对任意正整数 N，计算 X^Nmod233333 的值。输入格式共一行，两个整数 X 和 N。输出格式共一行，一个整数，表示 X^Nmod233333 的值。数据范围 1≤…...

编程日记 2024/12/28 21:52:27

RockyLinux介绍及初始化

文章目录一、背景二、下载 RockyLinux9 镜像三、环境初始化四、安装 Docker 环境一、背景这里讲一个小故事： 我们都知道Linux 内核是由芬兰计算机科学家林纳斯托瓦兹 (Linus Torvalds) 于 1991 年首次开发的，随后有一个非常重要的公司RetHat成立&am…...

编程日记 2024/12/28 21:43:17

2024年12月青少年软件编程（C语言/C++）等级考试试卷（三级）

2024.12青少年软件编程（C语言三级）等级考试试卷 1.最近的斐波那契数题目描述斐波那契数列 Fn的定义为：对n≥0有Fn2Fn1Fn、初始值为 F00和F11。所谓与给定的整数N最近的斐波那契数是指与N的差之绝对值最小的斐波那契数。本题就请你为任意给…...

编程日记 2024/12/28 21:38:12

【Leecode】Leecode刷题之路第92天之反转链表II

题目出处 92-反转链表II-题目出处题目描述个人解法思路： todo代码示例：（Java） todo复杂度分析 todo官方解法 92-反转链表II-官方解法前言链表的操作问题，一般而言面试（机试）的时候不…...

编程日记 2024/12/28 21:36:10

StableAnimator模型的部署：复旦微软提出可实现高质量和高保真的ID一致性人类视频生成

文章目录一、项目介绍二、项目部署模型的权重下载提取目标图像的关节点图像（这个可以先不看先用官方提供的数据集进行生成）提取人脸（这个也可以先不看）进行图片的生成三、模型部署报错一、项目介绍由复旦、微软、虎牙、CMU的…...

编程日记 2024/12/28 21:35:09

3.阿里云flinkselectdb-py作业

1.概述 Python API中文文档本文介绍在阿里云实时计算flink中使用python作业，把oss中的数据同步数据到阿里云selectdb的过程。python简单的语法特性更适合flink作业的开发； 先说结论: 在实际开发中遇到了很多问题，导致python作业基本基本无法…...

编程日记 2024/12/28 21:34:07

MATLAB语言的网络编程

标题：MATLAB中的网络编程：深入探索与实践一、引言在现代科学和工程领域中，网络编程已经成为了数据处理、信号分析、模型构建等众多任务中不可或缺的一环。MATLAB作为一款强大的数学计算软件，不仅提供了丰富的数值计算功能&…...

编程日记 2024/12/28 21:33:06

深入浅出 Linux 操作系统

深入浅出 Linux 操作系统引言在当今数字化的时代，Linux 操作系统无处不在。从支撑互联网巨头庞大的数据中心，到嵌入智能家居设备的微型芯片，Linux 都发挥着关键作用。然而，对于许多人来说，Linux 仍笼罩着一层神秘的…...

编程日记 2024/12/28 21:32:05

golang实现生产者消费者模式

在Go语言中，生产者消费者模式可以通过使用Goroutines和Channels来实现。Goroutines允许并发执行，而Channels则用于在生产者和消费者之间安全地传递数据。生产者消费者模式的基本思路生产者：负责生成数据并将其放入一个共享的缓冲区&#xf…...

编程日记 2024/12/28 21:29:03

自动化测试-Pytest测试

目录 pytest简介基本测试实例编写测试文件执行测试 pytest运行时参数 mark标记 Fixture pytest插件 Allure测试报告测试步骤 pytest简介 Pytest‌是一个非常流行的Python测试框架，它支持简单的单元测试和复杂的功能测试，具有易于上手、功…...

编程日记 2024/12/28 21:28:02

Ingress-Nginx Annotations 指南：配置要点全方面解读（下）

文章目录 1.HTTP2 Push Preload2.Server Alias3.Server snippet4.Client Body Buffer Size5.External Authentication6.Global External Authentication7.Rate Limiting8.Global Rate Limiting9.Permanent Redirect10.Permanent Redirect Code11.Temporal Redirect12.SSL Passt…...

编程日记 2024/12/28 21:26:00

大型语言模型（LLMs）演化树 Large Language Models

大型语言模型（LLMs）演化树 Large Language Models

仅编码器模型 Encoder - Only Models

编解码器模型 Encoder - Decoder Models

仅解码器模型 Decoder -Only Models

相关文章：

大型语言模型（LLMs）演化树 Large Language Models

部分背包问题

教师管理系统

Word论文交叉引用一键上标

集成方案 | Docusign + 蓝凌 EKP，打造一站式合同管理平台，实现无缝协作！

Python大数据可视化：基于python大数据的电脑硬件推荐系统_flask+Hadoop+spider

【递归与回溯深度解析：经典题解精讲（下篇）】—— Leetcode

Spring boot处理跨域问题

每日小题打卡

RockyLinux介绍及初始化

2024年12月青少年软件编程（C语言/C++）等级考试试卷（三级）

【Leecode】Leecode刷题之路第92天之反转链表II

StableAnimator模型的部署：复旦微软提出可实现高质量和高保真的ID一致性人类视频生成

3.阿里云flinkselectdb-py作业

MATLAB语言的网络编程

深入浅出 Linux 操作系统

golang实现生产者消费者模式

自动化测试-Pytest测试

Ingress-Nginx Annotations 指南：配置要点全方面解读（下）

【QED】等式构造

intv_ai_mk11效果展示：中文古诗英译+文化注释+押韵风格选择（Shakespearean/Modern）

intv_ai_mk11实际作品：面向管理层的OKR撰写建议与周报优化样例

视频PPT提取终极指南：3步从视频中智能提取演示文稿

Wireshark抓包实战：用一道CTF题彻底搞懂IP分片与UDP重组

GNU Radio滤波器设计中的实时处理优化与性能权衡策略

Linux内存不够用吧 Linux 交换内存（Swap）来帮忙

Qwen3.5-2B图文理解实战：上传建筑平面图，自动标注房间功能与面积

用Python+Pandas搞定校园单车数据清洗：从‘200+’到精准分布表的保姆级教程

17种智能体（Agent）架构全景解析：演进逻辑、工程价值与落地实践

Matlab_Simulink与Carsim的联合仿擅长基于群智能算法优化的LQR、PID控制算法，能清晰讲解其中要点哦。对于基于群智能算法的一般路径规划