当前位置：首页 > news >正文

语言模型的进化：从NLP到LLM的跨越之旅

news 2026/2/8 20:09:54

在人工智能的浩瀚宇宙中，自然语言处理（NLP）一直是一个充满挑战和机遇的领域。随着技术的发展，我们见证了从传统规则到统计机器学习，再到深度学习和预训练模型的演进。如今，我们站在了大型语言模型（LLM）的门槛上，它们正在重新定义我们与机器交流的方式。本文将深入探讨LLM的发展历程、技术路线、以及它们对未来AI领域的影响。

引言

自然语言处理（NLP）的目标是让机器能够理解、解释和生成人类语言。这一领域的发展经历了几个重要的阶段，每个阶段都标志着对语言理解深度的一次飞跃。从早期的基于规则的系统，到统计学习方法，再到深度学习模型，直至今日的大型语言模型（LLM），每一步都是对前一阶段的超越。
在这里插入图片描述

从规则到统计：NLP的早期探索

规则阶段（1956—1992）

在NLP的早期，研究者依赖于手工编写的规则来处理语言。这一阶段的技术栈包括有限状态机和基于规则的系统。例如，Apertium就是一个基于规则的机器翻译系统，它展示了早期研究者如何通过人工整理词典和编写规则来实现语言的自动翻译。
在这里插入图片描述

统计机器学习阶段（1993—2012）

随着时间的推移，研究者开始转向统计学习方法，使用支持向量机（SVM）、隐马尔可夫模型（HMM）、最大熵模型（MaxEnt）和条件随机场（CRF）等工具。这一阶段的特点是少量人工标注领域数据与人工特征工程的结合，标志着从手工编写规则到机器自动从数据中学习知识的转变。
在这里插入图片描述

深度学习的突破：开启新纪元

深度学习阶段（2013—2018）

深度学习的出现为NLP带来了革命性的变化。以编码器-解码器（Encoder-Decoder）、长短期记忆网络（LSTM）、注意力机制（Attention）和嵌入（Embedding）为代表的技术，使得模型能够处理更大规模的数据集，并且几乎不需要人工特征工程。Google的神经机器翻译系统（2016）就是这一阶段的代表之作。
在这里插入图片描述

预训练模型的兴起：知识的自我发现

预训练阶段（2018—2022）

预训练模型的出现标志着NLP领域的又一次飞跃。以Transformer和注意力机制为核心的技术栈，结合海量无标注数据进行自监督学习，生成通用知识，再通过微调适应特定任务。这一阶段的突变性非常高，因为它扩展了可利用的数据范围，从标注数据拓展到了非标注数据。
在这里插入图片描述

LLM的新时代：智能与通用性的融合

LLM阶段（2023—？）

LLM代表了语言模型的最新发展，它们通常采用解码器为主的架构，结合了Transformer和强化学习人类反馈（RLHF）。这一阶段的特点是两阶段过程：预训练和与人类对齐。预训练阶段利用海量无标注数据和领域数据，通过自监督学习生成知识；与人类对齐阶段则通过使用习惯和价值观对齐，使模型能够适应各种任务。
在这里插入图片描述
回顾各个发展阶段可以看到以下趋势：

数据: 从数据到知识，越来越多数据被利用起来/未来:更多文本数据、更多其它形态数据→任何数据
算法: 表达能力越来越强;规模越来越大;自主学习能力越来越强;从专业向通用/未来:Transformer目前看够用，新型模型(应该强调学习效率)?→AGI?
人机关系: 位置后移，从教导者到监督者/未来:人机协作，机向人学习→人向机学习?→机器拓展人类知识边界

在这里插入图片描述

LLM技术发展路线：多样化的路径

在过去的几年中，LLM技术发展呈现出多样化的路径，包括BERT模式、GPT模式和T5模式等。每种模式都有其特点和适用场景。
在这里插入图片描述

BERT模式（Encoder-Only）

BERT模式通过双向语言模型预训练和任务微调的两阶段（双向语言模型预训练+任务Fine-tuning）过程，适用于自然语言理解类任务。BERT预训练从通用数据中提取通用知识，而微调则从领域数据中提取领域知识。
在这里插入图片描述
适合解决的任务场景：比较适合自然语言理解类，某个场景的具体任务，专而轻；

GPT模式（Decoder-Only）

GPT模式则从单向语言模型预训练和zero shot/few shot prompt或指令的一阶段（单向语言模型预训练+zero shot/few shot prompt／Instruct）过程中发展而来，适合自然语言生成类任务。GPT模式的模型通常是目前规模最大的LLM，它们能够处理更广泛的任务。
在这里插入图片描述
适用场景：比较适合自然语言生成类任务，目前规模最大的LLM，都是这种模式：GPT 系列，PaLM，LaMDA……,重而通；生成类任务／通用模型建议GPT模式；

T5模式（Encoder-Decoder）

T5模式结合了BERT和GPT的特点，适用于生成和理解任务。T5模式的填空任务（Span Corruption）是一种有效的预训练方法，它在自然语言理解类任务中表现出色。两阶段（单向语言模型预训练+Fine-tuning为主）
在这里插入图片描述
特点：形似GPT，神似Bert
适用场景：生成和理解都行，从效果上看比较适合自然语言理解类任务，国内很多大型LLM采取这种模式；如果是单一领域的自然语言理解类任务，建议使用T5模式；

为什么超大LLM都是GPT模式

超大LLM:追求zero shot/ few shot/instruct 效果
目前的研究结论

(模型规模不大时):

自然语言理解类:T5模式效果最好。
自然语言生成类:GPT模式效果最好。
Zero shot: GPT模式效果最好。
如果Pretrain后引入多任务fine-tuning，则T5模式效果好(结论存疑:目前的实验Encoder-Decoder都是Decoder-only参数量的两倍，结论是否可靠?)

目前的研究结论(超大规模):
事实:几乎所有超过100B的LLM模型，都采取GPT模式

可能的原因:
1.Encoder-Decoder里的双向attention，损害zero shot能力(Check)
2.Encoder-Decoder结构在生成Token时，只能对Encoder高层做attentionDecoder-only结构在生成Token时，可以逐层Attention，信息更细粒度
3.Encoder-Decoder训练“中间填空”，生成最后单词Next Token，存在不一致性Decoder-only结构训练和生成方式一致

超大LLM的挑战与机遇

随着模型规模的增长，研究者面临着如何有效利用参数空间的挑战。Chinchilla模型的研究表明，在数据充足的情况下，当前的LLM规模可能比理想规模更大，存在参数空间的浪费，然而，Scaling Law也指出，模型规模越大，数据越多，训练越充分，LLM模型的效果越好。比较可行的思路是：先做小（GPT 3本来不应该这么大），再做大（充分利用模型参数后，继续做大）。
在这里插入图片描述

当然鉴于多模态LLM需要更丰富的现实环境感知能力，对此LLM参数也提出更高的要求。
多模态LLM：视觉输入（图片、视频）、听觉输入（音频）、触觉输入（压力）
在这里插入图片描述
面临问题：多模态LLM看着效果还不错，很大程度依赖于人工整理的大数据集

如 ALIGN:1.8B 图文/LAION:5.8B图文数据(经过CLIP过滤，目前最大图文数据)目前是文字带图像飞?

图像处理：自监督技术路线在尝试，尚未走通(对比学习/MAE)/如果能走通会是AI领域另外一次巨大技术突破;

如果能走通，目前的一些图像理解类任务(语义分割/识别等)估计会被融入LLM，进而消失

在这里插入图片描述

提升LLM的复杂推理能力

尽管当前的LLM具备一定的简单推理能力，但在复杂推理方面仍有不足。例如，多位数加法等任务对LLM来说仍然是一个挑战。研究者正在探索如何通过技术手段，如语义分解，将复杂推理能力蒸馏到更小的模型中。
在这里插入图片描述
当然也可以通过能力外包的形式绕过这个问题，如与工具结合：计算能力（外部计算器）、新信息查询（搜索引擎）等能力借助外部工具完成。

LLM与物理世界的交互

具身智能的概念将LLM与机器人技术结合起来，通过与物理世界的交互，利用强化学习获得具身智能。例如，Google的PaLM-E模型结合了540B的PaLM和22B的ViT，展示了LLM在多模态环境下的潜力。
在这里插入图片描述

其他研究方向

新知识的获取:目前有一定困难，也有一些手段(LLM+Retrieval)
旧知识的修正:目前有一些研究成果，尚需优化
私域领域知识的融入:Fine-tune?
更好的理解命令:尚需优化(一本正经的胡说八道)
训练推理成本的降低:未来一年到两年会快速发展
中文评测数据集的构建：能力试金石。英文目前有一些评测集，比如HELM/BigBench等，中文缺乏／多任务、高难度、多角度的评测数据集。

结语

本文深入探讨了LLM的发展历程、技术路线以及它们对未来AI领域的影响。LLM的发展不仅仅是技术的进步，更是我们对机器理解能力的一次深刻反思。从规则到统计，再到深度学习和预训练，每一步都为我们提供了新的视角和工具。如今，我们站在大型语言模型的新时代门槛上，面对着前所未有的机遇和挑战。

语言模型的进化：从NLP到LLM的跨越之旅

在人工智能的浩瀚宇宙中，自然语言处理（NLP）一直是一个充满挑战和机遇的领域。随着技术的发展，我们见证了从传统规则到统计机器学习，再到深度学习和预训练模型的演进。如今，我们站在了大型语言模型&#xff…...

编程日记 2024/7/8 23:17:44

应急响应--网站(web)入侵篡改指南

免责声明:本文... 目录被入侵常见现象: 首要任务： 分析思路： 演示案例: IIS&.NET-注入-基于时间配合日志分析 Apache&PHP-漏洞-基于漏洞配合日志分析 Tomcat&JSP-弱口令-基于后门配合日志分析 (推荐) Webshell 查杀-常规后门&…...

编程日记 2024/7/8 23:16:43

vue3+vue-router+vite 实现动态路由

文章中出现的代码是演示版本，仅供参考，实际的业务需求会更加复杂什么是动态路由什么场景会用到动态路由举一个最常见的例子，比如说我们要开发一个后台管理系统，一般来说后台管理系统都会分角色登录，这个时候也就涉…...

编程日记 2024/7/8 23:15:42

Okhttp hostnameVerifier详解

hostnameVerifier 方法简介核心原理参考资料方法简介本篇博文以Okhttp 4.6.0来解析hostnameVerfier的作用，顾名思义，该方法的主要作用就是鉴定hostnname的合法性。Okhttp在初始化的时候我们可以自己配置hostnameVerfier： new OkHttpClien…...

编程日记 2024/7/8 23:13:39

TCP的p2p网络模式

TCP的p2p网络模式 1、tcp连接的状态有以下11种 CLOSED：关闭状态LISTEN：服务端状态，等待客户端发起连接请求SYN_SENT：客户端已发送同步连接请求，等待服务端相应SYN_RECEIVED：服务器收到客户端的SYN请请求&…...

编程日记 2024/7/8 23:12:38

力扣-贪心算法4

406.根据身高重建队列 406. 根据身高重建队列题目假设有打乱顺序的一群人站成一个队列，数组 people 表示队列中一些人的属性（不一定按顺序）。每个 people[i] [hi, ki] 表示第 i 个人的身高为 hi ，前面正好有 ki 个身高大于或…...

编程日记 2024/7/8 23:10:36

动手学深度学习6.2 图像卷积-笔记练习（PyTorch）

以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。本节课程地址：卷积层_哔哩哔哩_bilibili 代码_哔哩哔哩_bilibili 本节教材地址：6.2. 图像卷积 — 动…...

编程日记 2024/7/8 23:07:34

展开说说：Android服务之bindService解析

前面两篇文章我们分别总结了Android四种Service的基本使用以及源码层面总结一下startService的执行过程，本篇继续从源码层面总结bindService的执行过程。本文依然按着是什么？有什么？怎么用？啥原理？的步骤来分析。 b…...

编程日记 2024/7/8 23:04:30

node-sass 老版本4.14.0 安装失败解决办法

旧项目 npm install 发现 node-sass 安装失败切换淘宝镜像之后不能完全解决问题。因为需要编译，本地没有Python环境不能实现安装node-sass时，在install阶段会从Github上下载一个叫binding.node的文件，而「GitHub Releases」里的文件…...

编程日记 2024/7/8 23:03:28

最近很火的字幕截图生成器

网址 https://disksing.com/fake-screenshot/ 最近很火的字幕截图生成器，对于自媒体来说真的太实用了另外透露一下，你仔细研究就会发现，这是个纯前端的项目...

编程日记 2024/7/8 23:02:27

使用RabbitMQ实现可靠的消息传递机制

使用RabbitMQ实现可靠的消息传递机制大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！ 1. RabbitMQ简介 RabbitMQ是一个开源的消息代理软件，实现了高级消息队列协议（AMQP&…...

编程日记 2024/7/8 23:01:26

Function Call ReACT，Agent应用落地的加速器_qwen的function calling和react有什么不同

探索智能体Agent的未来之路：Function Call与ReACT框架的较量，谁能引领未来？ 引言各大平台出现智能体应用创建，智能体逐渐落地，背后的使用哪种框架？ 随着各大平台，例如百度千帆APPbuilder、阿…...

编程日记 2024/7/8 23:00:24

Java的JSONPath(fastjson)使用总结

背景最近使用json实现复杂业务配置, 因为功能需要解析读取json的中节点数据。如果使用循环或者stream处理，可以实现，但是都过于麻烦。在想能否使用更简单json读取方式，正好发现fastjson支持该功能，本文做一个记录案例说明示…...

编程日记 2024/7/8 22:59:22

【大模型】大语言模型：光鲜背后的阴影——事实准确性和推理能力的挑战

大语言模型：光鲜背后的阴影——事实准确性和推理能力的挑战引言一、概念界定二、事实准确性的局限2.1 训练数据的偏差2.2 知识的时效性问题2.3 复杂概念的理解与表述三、推理能力的局限3.1 表层理解与深层逻辑的脱节3.2 缺乏常识推理3.3 无法进行长期记忆和连续推…...

编程日记 2024/7/8 22:56:18

Java面向对象练习(1.手机类)(2024.7.4)

手机类 package Phone;public class Phone {private String brand;private int price;private String color;public Phone(){}public Phone(String brand, int price, String color){this.brand brand;this.price price;this.color color;}public void setBrand(String bra…...

编程日记 2024/7/8 22:55:17

引言