当前位置: 首页 > article >正文

大模型核心基础简介

大模型核心基础简介目录

  • 一、大模型简介
    • 定义
    • 核心特征
  • 二、大模型的发展历程
    • 1. 早期奠基(1950s–2010s)
      • 1950s–1980s:神经网络萌芽
      • 1990s–2010s:深度学习前夜
    • 2. 架构革命:Transformer的诞生与预训练范式(2017–2020)
      • 2017年
      • 2018年:BERT与GPT-1
      • 2019–2020年:模型规模化加速
    • 3. 全民化时代:ChatGPT引爆交互革命(2020–2023)
      • 2021年:多模态模型兴起
      • 2022年:大模型爆发,临界点到来
      • 2023年:通用人工智能(AGI)雏形,开源与多模态竞争
    • 4. 全民化、生态重构、开源,效率化与垂直化落地阶段(2024–至今)
      • 技术演进:
      • 产业落地:
      • 开源与竞争:
        • 开源社区崛起
    • 关键里程碑总结
  • 总结

一、大模型简介

定义

大模型(Large Models)又称“大规模预训练模型”,指那些拥有数十亿个甚至数万亿个参数,且利用海量的数据进行预训练和微调的深度学习模型。

核心特征

参数量级:从早期的百万级(如RNN)发展到千亿级(如GPT-3的1750亿参数)。
训练数据:依赖海量多模态数据(文本、图像、视频等),例如GPT-3训练数据达45TB。
计算需求:依赖分布式训练框架(如Megatron-LM)和高性能硬件(如GPU/TPU集群)。

二、大模型的发展历程

1. 早期奠基(1950s–2010s)

1950s–1980s:神经网络萌芽

1958年:感知机(Perceptron)提出,首次尝试模拟神经元计算。

1986年:反向传播算法(Backpropagation)完善,为神经网络训练奠定数学基础。

但受限于数据和算力,模型规模极小(参数仅数百至数千)。

1990s–2010s:深度学习前夜

1997年:长短时记忆网络(LSTM)提出,解决RNN的长期依赖问题。

2012年:AlexNet在ImageNet竞赛中夺冠,首次验证深度卷积神经网络(CNN)的潜力。

2014年:Seq2Seq模型(如机器翻译)引入注意力机制,推动自然语言处理(NLP)发展。

2. 架构革命:Transformer的诞生与预训练范式(2017–2020)

2017年

Google团队发表论文《Attention Is All You Need》,提出Transformer架构,核心创新包括:

自注意力机制(Self-Attention):替代RNN/CNN,高效捕捉长距离依赖。

并行化训练:大幅提升模型训练速度。

这一架构成为后续所有大模型(如GPT、BERT)的技术基石。

2018年:BERT与GPT-1

BERT(Bidirectional Encoder Representations from Transformers):首个基于双向Transformer的预训练模型,通过掩码语言建模(MLM)学习上下文语义,刷新NLP任务性能。

GPT-1(Generative Pre-trained Transformer):OpenAI推出首个生成式预训练模型,采用单向Transformer解码器,开启自回归生成范式。

2019–2020年:模型规模化加速

GPT-2(2019):参数量增至15亿,生成连贯长文本的能力增强,但因伦理争议未完全开源。

T5(2020):Google提出“Text-to-Text”统一框架,将NLP任务统一为文本生成任务。

GPT-3(2020):参数量跃升至1750亿,验证“缩放定律”(Scaling Law),即模型性能随参数量、数据量和算力同步提升,并展现涌现能力(如上下文学习、多任务泛化)。但其“仅限API访问”模式引发行业对模型开放性的讨论,为后续ChatGPT的全民化埋下伏笔。

3. 全民化时代:ChatGPT引爆交互革命(2020–2023)

2021年:多模态模型兴起

CLIP(OpenAI):打通文本与图像表征,支持零样本图像分类。

DALL-E:基于GPT-3架构的文本生成图像模型,参数量120亿。

2022年:大模型爆发,临界点到来

2022年11月30日,OpenAI发布通用大模型ChatGPT,由此拉开了人工智能新时代的序幕。从此人类与机器之间的交流变得更加自然和智能,并且推动大模型从技术探索转向大众应用,但存在成本高、领域泛化不足的瓶颈。

11月30日ChatGPT发布:基于GPT-3.5,首次将大模型以对话式交互推向公众,标志两大突破:

  1. 技术民主化:零门槛的自然语言界面使非技术人员可直接使用AI。
  2. 齐技术(RLHF)普及:通过人类反馈强化学习,解决模型输出安全性问题。

PaLM(Google):5400亿参数,在语言理解、代码生成和数学推理上表现卓越。

Stable Diffusion:开源文生图模型,推动AI创作平民化。

AlphaFold 2(DeepMind):基于Transformer的蛋白质结构预测模型,解决生物学难题。

2023年:通用人工智能(AGI)雏形,开源与多模态竞争

GPT-4(OpenAI):支持多模态输入(文本+图像),逻辑推理能力接近人类水平。

LLaMA(Meta):开源大模型(70亿–650亿参数),降低技术门槛。

Gemini(Google):原生多模态模型,性能对标GPT-4。

4. 全民化、生态重构、开源,效率化与垂直化落地阶段(2024–至今)

2024年深度求索(DeepSeek)的崛起标志大模型进入“低成本专业化”的新阶段

技术演进:

架构创新

稀疏MoE架构:相比传统密集模型(Dense Model)与早期MoE(如Switch Transformer),DeepSeek通过动态专家选择算法,在同等参数下实现训练成本降40%+推理速度提升3倍,推动行业从“拼参数”转向“拼效率”。

垂直微调技术:发布领域专用模型(如DeepSeek-Finance),在金融分析、科学计算等任务上超越通用模型(GPT-4准确率+12%)。

产业落地:

ToB场景突破:

制造业
医疗

国产化生态:

深度适配华为昇腾芯片,训练效率比英伟达A100提升20%,推动中国“软硬协同”自主路线。

开源与竞争:

中国开源标杆:DeepSeek-7B模型在GitHub获星超5万,吸引东南亚、中东开发者,形成首个全球级中文开源社区。

地缘多极化:全球大模型格局从“中美通用模型对决”转向“通用-垂直-开源三线并行”,形成四大阵营:

阵营代表玩家核心策略
通用闭源OpenAI、Google持续扩大模型规模
垂直专用DeepSeek、Hugging Face深耕行业场景
开源社区Meta、DeepSeek生态共建与开发者赋能
区域化模型中东Jais、韩国HyperCLOVA本土语言与文化适配
开源社区崛起

Hugging Face平台推动模型共享(如BLOOM、Falcon)。

微调工具(如LoRA)和轻量化技术(模型蒸馏、量化)普及。

关键里程碑总结

时间事件意义
2017Transformer架构提出奠定大模型技术基础
2018BERT与GPT-1发布开启预训练模型时代
2020GPT-3问世验证缩放定律,推动大模型规模化
2022Stable Diffusion开源AI生成内容(AIGC)爆发
2022.11ChatGPT发布大模型从实验室走向大众,引爆AI全民化时代
2023.3GPT-4与LLaMA发布多模态普及与开源生态形成,拉开通用智能序幕
2023.12Gemini Nano手机端部署标志大模型进入终端计算时代
2024.4DeepSeek模型发布开启垂直化、高效率模型新范式
2024.6DeepSeek开源社区用户破10万中国开源生态获得全球影响力

总结

当前大模型的发展已经从技术突破转向价值深挖,以多模态融合、开源共享推动通用智能边界扩展,同时聚焦低成本、高精度、强适配并深耕垂直领域。竞争格局呈现差异化与本土化特征——中美分化为通用模型与垂直赛道两大路线,全球AI竞赛从技术单极争夺转向多元生态构建(开源社区、区域模型、政策协同),目前技术路线、市场策略与地缘政策的复杂交织情景正在重塑产业未来。

相关文章:

大模型核心基础简介

大模型核心基础简介目录 一、大模型简介定义核心特征 二、大模型的发展历程1. 早期奠基(1950s–2010s)1950s–1980s:神经网络萌芽1990s–2010s:深度学习前夜 2. 架构革命:Transformer的诞生与预训练范式(20…...

广东省省考备考(第八天5.11)—言语:逻辑填空(每日一练)

错题 解析 第一空,搭配“期盼”,且根据“生命,是来自上天的馈赠”,可知父母对孩子的出生是非常期盼的。A项“望穿秋水”,形容对远地亲友的殷切盼望,C项“望眼欲穿”,形容盼望殷切,均…...

github+ Picgo+typora

github Picgotypora 本文将介绍如何使用Picgo在typora中实现上传服务 创建github仓库以及配置token 创建仓库 注意需要Initialize 添加README 配置为public 配置token github点击头像找到setting 选择Developer setting 配置token generate 选第一个第二个都行(我这里选第…...

[网安工具] IP 信息收集工具 —— LBD · 使用手册

🌟想了解其它网安工具?看看这个:[网安工具] 网络安全工具管理 —— 工具仓库 管理手册 lbd | Kali Linux ToolsVideolbd Usage ExampleTest to see if the target domain (example.com) is using a load balancer:rootkali:~# lbd example.c…...

本贴会成为记录贴

这几天有些心力交瘁了 一方面带着对互联网下行的伤心,一方面是对未来的担忧 一转眼好像就是20 21那个 可以在宿舍肆意玩手机 大学生活 可是我不小了 是个26岁的人了 时间很快 快的就好像和自己开了一个玩笑 我以为可以找到一个自己足够喜欢的 可爱的人 可是我没有 …...

说说es配置项的动态静态之分和集群配置更新API

这天因为某件工作来到了es官网某个参数配置相关的页面,注意到了下图圆圈里的“Dynamic”: 链接:https://www.elastic.co/guide/en/elasticsearch/reference/8.1/modules-cluster.html#misc-cluster-settings 显然这是对配置项的一个描述&am…...

LLMs之Mistral Medium 3:Mistral Medium 3的简介、安装和使用方法、案例应用之详细攻略

LLMs之Mistral Medium 3:Mistral Medium 3的简介、安装和使用方法、案例应用之详细攻略 目录 Mistral Medium 3 简介 1、Mistral Medium 3 特点 Mistral Medium 3 安装和使用方法 2、使用方法 (1)、创建Agent (2)、模型微调 Mistral Medium 3 案例应用 Mistr…...

并发设计模式实战系列(17):信号量(Semaphore)

🌟 大家好,我是摘星! 🌟 今天为大家带来的是并发设计模式实战系列,第十七章信号量(Semaphore),废话不多说直接开始~ 目录 一、核心原理深度拆解 1. 信号量本质模型 2. 并发控制…...

RAGMCP基本原理说明和相关问题解惑

一、RAG架构原理和局限性 1.1 概念解释 RAG(Retrieval-Augmented Generation):检索增强生成,让大模型接受外部输入后,总结输出 向量数据库:向量数据通常是高维空间中的点,代表复杂的数据结构…...

Java学习手册:服务注册与发现

一、服务注册与发现的概念 在微服务架构中,服务注册与发现是核心功能之一。由于微服务架构中服务实例的数量和位置是动态变化的,服务注册与发现机制允许服务实例在启动时自动注册到注册中心,并在停止时自动注销。其他服务可以通过查询注册中…...

双向Transformer:BERT(Bidirectional Encoder Representations from Transformers)

基于Transformer架构,通过双向上下文建模训练,提高完成任务的性能。 一 BERT的核心理念 1.1双向上下文建模依赖 之前讲的双向递归是用两个RNN进行,而BERT是通过Transformer的自注意力机制同时捕捉上下文信息。 1.1.1掩码语言模型&#xf…...

EdgeOne Pages MCP 入门教程

什么是MCP? MCP (Model Context Protocol) 是一个开放协议,允许 AI 模型安全地与本地和远程资源进行交互。通过在支持 MCP 的客户端(如 Cline、Cursor、Claude 等)上进行统一配置,可以让 AI 访问更多资源并使用更多工…...

Maven 公司内部私服中央仓库搭建 局域网仓库 资源共享 依赖包构建共享

介绍 公司内部私服搭建通常是为了更好地管理公司内部的依赖包和构建过程,避免直接使用外部 Maven 中央仓库。通过搭建私服,团队能够控制依赖的版本、提高构建速度并增强安全性。公司开发的一些公共工具库更换的提供给内部使用。 私服是一种特殊的远程仓…...

1688代采系统:技术架构与应用实践

在电商领域,1688 作为国内领先的 B2B 电商平台,拥有海量的商品信息。这些数据对于企业采购决策、市场分析、价格监控和供应链管理具有重要价值。本文将详细介绍如何使用 Python 爬虫技术,通过 1688 的商品详情接口(item_search 和…...

一种混沌驱动的后门攻击检测指标

摘要 人工智能(AI)模型在各个领域的进步和应用已经改变了我们与技术互动的方式。然而,必须认识到,虽然人工智能模型带来了显著的进步,但它们也存在固有的挑战,例如容易受到对抗性攻击。目前的工作提出了一…...

【2025最新】为什么用ElasticSearch?和传统数据库MySQL与什么区别?

Elasticsearch 深度解析:从原理到实践 一、为什么选择 Elasticsearch? 数据模型 Elasticsearch 是基于文档的搜索引擎,它使用 JSON 文档来存储数据。在 Elasticsearch 中,相关的数据通常存储在同一个文档中,而不是分散…...

c++的模板和泛型编程

c的模板和泛型编程 泛型编程函数模板函数模板和模板函数函数模板的原理函数模板的隐式、显式实例化模板参数的匹配原则 类模板类模板的实例化模板的使用案例用函数模板运行不同的模板类用函数模板运行不同的STL容器 模板的缺省参数非类型模板参数模板的特化函数模板的特化类模板…...

Java从入门到精通 - 数组

数组 此笔记参考黑马教程,仅学习使用,如有侵权,联系必删 文章目录 数组1. 认识数组2. 数组的定义和访问2.1 静态初始化数组2.1.1 数组的访问2.1.1 定义代码实现总结 2.1.2 数组的遍历2.1.2.1 定义代码演示总结 案例代码实现 2.2 动态初始化…...

MySql事务索引

索引 1.使用 创建主键约束(PRIMARY KEY)、唯一约束(UNIQUE)、外键约束(FOREIGN KEY)时,会自动创建 对应列的索引。 2.创建索引(普通索引) 事务:要么全部…...

八股文-js篇

八股文-js篇 1. 延迟执行js的方式2. js的数据类型3. null 和 undefined的区别4. 和 的区别5. js微任务和宏任务6. js作用域7. js对象9. JS作用域this指向原型8. js判断数组9. slice作用、splice是否会改变原数组10. js数组去重11. 找出数组最大值12. 给字符串新增方法实现功能…...

DeepSeek:开启教育测评智能化新时代

目录 一、引言二、DeepSeek 技术概述2.1 DeepSeek 的发展历程与特点2.2 工作原理与技术架构 三、测评试题智能生成3.1 生成原理与技术实现3.2 生成试题的类型与应用场景3.3 优势与面临的挑战 四、学生学习评价报告4.1 评价指标体系与数据来源4.2 DeepSeek 生成评价报告的流程与…...

【2025五一数学建模竞赛B题】 矿山数据处理问题|建模过程+完整代码论文全解全析

你是否在寻找数学建模比赛的突破点?数学建模进阶思路! 作为经验丰富的美赛O奖、国赛国一的数学建模团队,我们将为你带来本次数学建模竞赛的全面解析。这个解决方案包不仅包括完整的代码实现,还有详尽的建模过程和解析&#xff0c…...

智能制造环形柔性生产线实训系统JG-RR03型模块式环形柔性自动生产线实训系统

智能制造环形柔性生产线实训系统JG-RR03型模块式环形柔性自动生产线实训系统 一、产品概述 (一)组成 柔性系统须有五个分系统构成即:数字化设计分系统、模拟加工制造分系统、检测装配分系统、生产物分流系统和信息管理分系统。它应包含供料检测单元,操作…...

1.2.2.1.4 数据安全发展技术发展历程:高级公钥加密方案——同态加密

引言 在密码学领域,有一种技术被图灵奖得主、著名密码学家Oded Goldreich誉为"密码学圣杯",那就是全同态加密(Fully Homomorphic Encryption)。今天我们就来聊聊这个神秘而强大的加密方案是如何从1978年的概念提出&…...

Java大师成长计划之第18天:Java Memory Model与Volatile关键字

📢 友情提示: 本文由银河易创AI(https://ai.eaigx.com)平台gpt-4o-mini模型辅助创作完成,旨在提供灵感参考与技术分享,文中关键数据、代码与结论建议通过官方渠道验证。 在Java多线程编程中,线程…...

Lua再学习

因为实习的项目用到了Lua,所以再来深入学习一下 函数 函数的的多返回值 Lua中的函数可以实现多返回值,实现方法是再return后列出要返回的值的列表,返回值也可以通过变量接收到,变量不够也不会影响接收对应位置的返回值 Lua中传…...

GitLab搭建与使用(SSH和Docker)两种方式

前言 目前公共的代码仓库有很多,比如:git、gitee等等仓库但是我们在公司中,还是要搭建属于本公司自己的一个代码仓库,原因有如下几点 代码私密性,我们公司开发的代码保密性肯定一级重要,那么我们放到公网上&#xff0c…...

Linux数据库篇、第零章_MySQL30周年庆典活动

MySQL考试报名网站 Oracle Training and Certification | Oracle 中国 活动时间 2025年 MySQL的30周年庆典将于2025年举行。MySQL于1995年首次发布,因此其30周年纪念日是2025年。为了庆祝这一里程碑,MySQL将提供免费的课程和认证考试,活动…...

Windows ABBYY FineReader 16 Corporate 文档转换、PDF编辑和文档比较

作为一名合格的工人,日常工作肯定离不开PDF文件,所以今天给大家找来了一款全新的PDF处理工具,保证能给你带来不一样的体验。 软件介绍 这是一个全能型的PDF处理器,集优秀的文档转换、PDF编辑和文档比较等功能于一身,…...

设计模式简述(十九)桥梁模式

桥梁模式 描述基本组件使用 描述 桥梁模式是一种相对简单的模式,通常以组合替代继承的方式实现。 从设计原则来讲,可以说是单一职责的一种体现。 将原本在一个类中的功能,按更细的粒度拆分到不同的类中,然后各自独立发展。 基本…...