当前位置：首页 > news >正文

大语言模型基础

news 2026/2/9 18:23:48

简介

AI大模型是“人工智能预训练大模型”的简称，包含了“预训练”和“大模型”两层含义，二者结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。AI大模型主要分为三类：大语言模型、CV大模型和多模态大模型，我将分别介绍它们的背景知识、关键技术、演进路线和挑战。

什么是大语言模型

大语言模型（Large Language Model，LLM）是一种大规模预训练神经网络语言模型。

大规模：区别于已有的较小规模并主要用于理解类任务的预训练语言模型（如BERT），特指规模较大（数十亿到数千亿参数）并具有较强生成能力的语言模型。

预训练：在海量文本数据集上预训练，以GPT3为例， 300B tokens可用于训练参数量大小为175B的LLM。 "token"通常指的是一个离散的文本单元，它可以是单词、标点符号、数字或其他语言元素，这些元素被用作训练和生成文本的基本单位。

语言模型：通俗来说，指对于任意的词序列，能够计算出这个序列是一句话的概率的模型。用于预测未来或缺失tokens的概率。

语言模型的演进

语言模型的定义：

等价定义：从文本生成的角度，定义语言模型为：给定一个短语(一个词组或一句话)，语言模型可以生成接下来的一个词。

统计语言模型 Statistical language models (SLM) ：

起源于90年代的统计学习方法，基本思想是基于马尔可夫假设建立词预测模型，即每个词只依赖前序词。代表方法为N-gram语言模型。

神经语言模型 Neural language models (NLM)：

N-gram的缺陷：将词看作离散变量并用one-hot表示，导致词与词不存在语义关联，且参数量级是指数级。

NLM通过结合词向量(word embedding)和前馈神经网络来解决上面两个问题：

每个词用低维稠密向量表示，这就使得语义相似的词对应的向量在空间中相邻成为可能（前提是词向量训练的效果达到预期），给模型带来了泛化能力上的提升；神经网络强大的学习能力很适合拟合概率分布。

FFNNLM（2003，

大语言模型基础

简介

什么是大语言模型

语言模型的演进

相关文章：

大语言模型基础

深入浅出机器学习：概念、算法与实践

2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序

老游戏回顾：d2

【深度学习】Pytorch的深入理解和研究

什么是 Vue 的自定义事件？如何触发和监听？

windows上vscode cmake工程搭建

DEMF模型赋能多模态图像融合，助力肺癌高效分类

Android：权限permission申请示例代码

AI Agent Service Toolkit：一站式大模型智能体开发套件

大数据SQL调优专题——Hive执行原理

Python程序打包 |《Python基础教程》第18章笔记

图论之迪斯科特拉算法求解最短路径

掌握Spring开发_常用注解详解

华为昇腾服务器（固件版本查询、驱动版本查询、CANN版本查询）

Kubernetes的Ingress和Service有什么区别？

洛谷B3619(B3620)

vue组件，父子通信，路由，异步请求后台接口，跨域

详解分布式ID实践

.NET + Vue3 的前后端项目在IIS的发布

IT供电系统绝缘监测及故障定位解决方案

MySQL账号权限管理指南：安全创建账户与精细授权技巧

用机器学习破解新能源领域的“弃风”难题

WebRTC调研

Windows 下端口占用排查与释放全攻略

Django RBAC项目后端实战 - 03 DRF权限控制实现

raid存储技术

CppCon 2015 学习:Simple, Extensible Pattern Matching in C++14

智能体革命：企业如何构建自主决策的AI代理？

宠物车载安全座椅市场报告：解读行业趋势与投资前景