当前位置：首页 > article >正文

大模型的探索与实践-课程笔记（十一）：大模型发展史与全球厂商业态全景

article 2026/4/27 0:31:26

第一部分从 NLP 到 Transformer 的底层架构演进早期的自然语言处理NLP主要依赖特征提取大模型的基石是 Google 提出的架构革命。1. Transformer 与注意力机制 (2017年)起源Google 2017年发表神作《Attention is all you need》。核心思想打破了传统的序列结构将原本作为附属组件的注意力机制 (Attention Mechanism)提拔为整个网络的核心。双结构包含Encoder编码器负责将文字转化为特征Embedding和Decoder解码器负责将特征转化为下文输出。2. Encoder 路线代表BERT (2018年)出品Google。特性仅使用 Encoder 结构。它是一个“偏科”于提取特征的模型极其擅长非生成式任务如阅读理解、情感分类。局限不能直接输出答案通常需要在其提取的特征Feature后面再外接一个简单的神经网络来完成下游任务。3. Decoder 路线代表GPT (2018年)出品OpenAI。特性仅使用 Decoder 结构。它主打“生成Generative”即一个字一个字往外蹦。早期劣势在 GPT-1 和 GPT-2 时代其综合表现被 BERT “按在地上打”。当时业界普遍认为 Decoder 路线是落后产能。第二部分Scaling Law 与大模型时代的真正降临OpenAI 在逆境中坚守 Decoder 路线并发现了一个颠覆传统机器学习认识的定律。1. 核心理论Scaling Law (约2020年)传统认知模型参数越大越容易导致过拟合Overfitting从而让效果变差。Scaling Law 结论打破常规在有限的算力资源下增加“模型参数量”比单纯增加“数据集大小”带来的收益更高。模型越大效果就是越好。意义这句话直接定义了“大”模型时代。各大厂商不再纠结于微调架构连接方式而是开始大力堆叠参数量砸钱上显卡。2. 涌现能力的诞生GPT-3 到 ChatGPTGPT-3 (2020年)参数量比 GPT-2 暴增约100倍。随着参数量跨过阈值模型“涌现”出了In-Context Learning (上下文学习)能力。此时GPT 与 BERT 已经平分秋色生成式用 GPT理解式用 BERT。ChatGPT (2022年底)基于 GPT-3.5 打造。极大优化了对话体验首次将大模型推向全民商用拉开了疯狂的全球百模大战。第三部分国内大模型厂商业态与演进1. 早期拓荒与“大模型六小虎” (2023年)百度 (文心一言)国内首个发布的大模型技术起步极早与 ChatGPT 同期训练。但因早期采用了“落后的付费会员制策略”被后来免费竞品抢占了极大的民间市场。智谱 AI (ChatGLM)清华系。早期极其偏重To-G政府和 To-B 业务To-C 网页端体验较差。但近期凭借极其便宜的 API 价格和极佳的AI Coding (代码生成) 能力再度爆火。月之暗面 (Kimi)清华系。突围杀手锏是颠覆性的“长文本支持”。在众厂商普遍只支持 20K 上下文时Kimi 率先支持到 200K彻底引爆了“AI 读长篇论文”的市场需求。2. 当前国内绝对第一梯队 (大厂主导)在大模型极度烧钱的当下局势最终过渡到了巨头手中通义千问 (阿里)开源生态第一与 Pre-training 极佳。模型参数规格最全0.5B 到大规格均有部署适配性最强。豆包 (字节跳动)市占率第一与多模态极强。背靠巨大流量入口语音/图像等多模态插件体验当前业界最佳。DeepSeek (幻方)基建 (Infra) 与数学推理 (Reasoning) 无敌。非传统互联网大厂出身以较低的开发成本做出了极强的理科对标能力直接对标 OpenAI 的 o1 推理路径。腾讯 (潜力股)虽然当前模型被戏称为“套皮”但拥有全网最恐怖的私域数据池。数据是大模型的核心壁垒只要给足时间后期发力不可估量。第四部分海外大模型厂商业态与演进OpenAI (GPT系列)行业风向标。GPT-4 主打多模态最新发布的 o1 系列主导高深度逻辑推理 (Reasoning)。Google (Gemini)拥有极强的财力与极高的数据质量壁垒。Gemini 1.5 Pro 在图片推理上下文连贯性、以及辅助研究应用深研功能/NotebookLM上处于断崖式领先。Anthropic (Claude)全球 AI Coding 第一。创始人原属 OpenAI更早有百度背景。对齐与合规极其严格严封国内节点其推出的 Claude Code 在非图形化编程插件领域极佳。Meta (Llama)全球开源界的王者尽管 v4 版本传闻搁浅但 v2/v3 极大地推动了全球开源大模型的发展。xAI (Grok)马斯克旗下。主打“无审查 (弱安全对齐)”基本问什么答什么适合反抗被过度和谐的输出场景。AI 工具与模型专项梳理工具分类工具/模型名称核心功能与应用领域亮点/启发开源架构祖师Transformer奠定当前大语言模型基石的基础架构利用注意力机制进行编解码。一篇《Attention is all you need》启发了后续所有 LLM 战局证明了注意力机制的通用性。理论法则Scaling Law揭示了算力、参数量与效果边界的对撞法则。打破了做小而美模型的执念通过数学直觉指明了“大力出奇迹扩参数优于纯堆数据”的大厂发展路径。长文本模型代表Kimi (月之暗面)支持极长上下文200K级别的文本阅读与分析大模型。在大模型商用初期精准切中了科研人群“超长PDF/研报”阅读的痛点靠“局部能力极致化”成功破局。代码辅助工具Claude Code表现当前地表最强的非图形化 AI 代码编写与维护环境。证明了在大模型同质化严重的今天深耕特定的垂类需求Coding依旧能保持不可替代的竞争力。国内平替可用智谱 API 嫁接。全尺寸开源模型通义千问 (Qwen)提供从极小端侧覆盖到极大型企业级算力的全套模型家族。目前国内最好、生态最完整的开源基座是开发者进行科研魔改和本地部署的首选。理科/推理大模型DeepSeek / OpenAI o1强化学习思维链大模型专攻数学、推理写代码等形式逻辑极强的任务。代表了大模型未来的下一个突破口从“基于统计概率接字”转向“基于规则强化学习推导System 2”。无审查智能体Grok (xAI)避开常规 AI 极强“抱歉我不能回答”安全守则的问答模型。从侧面佐证了大模型在被强行“价值对齐”后性能受损的理论满足特定研究/猎奇场景。

大模型的探索与实践-课程笔记（十一）：大模型发展史与全球厂商业态全景

相关文章：

大模型的探索与实践-课程笔记（十一）：大模型发展史与全球厂商业态全景

AI分析报告参考：麦肯锡结构化分析核心使用原则

企业数仓揭秘：数据决策背后的核心引擎

大模型的探索与实践-课程笔记（十）：机器学习发展史

担忧重复电视败局，空调双巨头用专利打击互联网空调，空调老二或败落！

丰田之后，日产也开始大幅反弹，日本车在中国市场仍然奋力挣扎

各地区环境规制强度政府工作报告文本词频2002-2023年

中国城市建设数据库2002-2021年

前端八股文面经大全：TME QQ音乐前端二面（2026-04-22）·面经深度解析

VeriTrade代理验证技术：TLSNotary与ProxyTEE的融合应用

TorchTraceAP：PyTorch视觉模型性能优化新方案

阿里云服务器利用宝塔搭建个人博客网站

肝了三天三夜！最详尽的漏洞扫描工具实战笔记

宝藏网站推荐：云服务器特惠与网安学习资源的一站式聚合平台

广汽全球化战略升级，加速迈入中国汽车出海主力阵营 | 美通社头条

世毫九理论体系｜二十门基础学科基石清单（供世毫九研究学者指南）

AI 能精准发现安全漏洞，漏洞修复的责任边界如何界定

高效率的粉碎者：HPH高压均质机构造全拆解

不花一分钱，10分钟搞定，2026销售录音总结怎么写每月省18小时多拿18成单率

python signal

2026最新亲测3款自动生成会议纪要免费神器，10分钟出稿好用到哭！

MCP AI推理配置紧急升级通知：CVE-2024-MCP-08已曝，未配置memory_limit_policy的实例存在RCE风险

远程容器开发环境安全加固指南（含CVE-2023-XXXX漏洞规避方案与RBAC最小权限实践）

量子-经典混合编排难题全解析，基于MCP 2026标准的4类典型故障诊断与容错加固指南

Docker运行AI模型必踩的3个安全雷区：从容器逃逸到模型窃取的全链路防护指南

PyTorch实现放疗剂量引擎：深度学习与医学物理结合

PikaScript：轻量级Python引擎在MCU上的实现与应用

Cherry MX键帽3D模型库：解决个性化键盘制造的标准化方案

免费快速备份QQ空间：GetQzonehistory完整指南

[具身智能-457]：为什么数据标准文件不直接生成yolo的标签文件的格式，还需要专门的转化？