当前位置: 首页 > article >正文

大模型的探索与实践-课程笔记(十一):大模型发展史与全球厂商业态全景

第一部分从 NLP 到 Transformer 的底层架构演进早期的自然语言处理NLP主要依赖特征提取大模型的基石是 Google 提出的架构革命。1. Transformer 与注意力机制 (2017年)起源Google 2017年发表神作《Attention is all you need》。核心思想打破了传统的序列结构将原本作为附属组件的注意力机制 (Attention Mechanism)提拔为整个网络的核心。双结构包含Encoder编码器负责将文字转化为特征Embedding和Decoder解码器负责将特征转化为下文输出。2. Encoder 路线代表BERT (2018年)出品Google。特性仅使用 Encoder 结构。它是一个“偏科”于提取特征的模型极其擅长非生成式任务如阅读理解、情感分类。局限不能直接输出答案通常需要在其提取的特征Feature后面再外接一个简单的神经网络来完成下游任务。3. Decoder 路线代表GPT (2018年)出品OpenAI。特性仅使用 Decoder 结构。它主打“生成Generative”即一个字一个字往外蹦。早期劣势在 GPT-1 和 GPT-2 时代其综合表现被 BERT “按在地上打”。当时业界普遍认为 Decoder 路线是落后产能。第二部分Scaling Law 与大模型时代的真正降临OpenAI 在逆境中坚守 Decoder 路线并发现了一个颠覆传统机器学习认识的定律。1. 核心理论Scaling Law (约2020年)传统认知模型参数越大越容易导致过拟合Overfitting从而让效果变差。Scaling Law 结论打破常规在有限的算力资源下增加“模型参数量”比单纯增加“数据集大小”带来的收益更高。模型越大效果就是越好。意义这句话直接定义了“大”模型时代。各大厂商不再纠结于微调架构连接方式而是开始大力堆叠参数量砸钱上显卡。2. 涌现能力的诞生GPT-3 到 ChatGPTGPT-3 (2020年)参数量比 GPT-2 暴增约100倍。随着参数量跨过阈值模型“涌现”出了In-Context Learning (上下文学习)能力。此时GPT 与 BERT 已经平分秋色生成式用 GPT理解式用 BERT。ChatGPT (2022年底)基于 GPT-3.5 打造。极大优化了对话体验首次将大模型推向全民商用拉开了疯狂的全球百模大战。第三部分国内大模型厂商业态与演进1. 早期拓荒与“大模型六小虎” (2023年)百度 (文心一言)国内首个发布的大模型技术起步极早与 ChatGPT 同期训练。但因早期采用了“落后的付费会员制策略”被后来免费竞品抢占了极大的民间市场。智谱 AI (ChatGLM)清华系。早期极其偏重To-G政府和 To-B 业务To-C 网页端体验较差。但近期凭借极其便宜的 API 价格和极佳的AI Coding (代码生成) 能力再度爆火。月之暗面 (Kimi)清华系。突围杀手锏是颠覆性的“长文本支持”。在众厂商普遍只支持 20K 上下文时Kimi 率先支持到 200K彻底引爆了“AI 读长篇论文”的市场需求。2. 当前国内绝对第一梯队 (大厂主导)在大模型极度烧钱的当下局势最终过渡到了巨头手中通义千问 (阿里)开源生态第一与 Pre-training 极佳。模型参数规格最全0.5B 到大规格均有部署适配性最强。豆包 (字节跳动)市占率第一与多模态极强。背靠巨大流量入口语音/图像等多模态插件体验当前业界最佳。DeepSeek (幻方)基建 (Infra) 与数学推理 (Reasoning) 无敌。非传统互联网大厂出身以较低的开发成本做出了极强的理科对标能力直接对标 OpenAI 的 o1 推理路径。腾讯 (潜力股)虽然当前模型被戏称为“套皮”但拥有全网最恐怖的私域数据池。数据是大模型的核心壁垒只要给足时间后期发力不可估量。第四部分海外大模型厂商业态与演进OpenAI (GPT系列)行业风向标。GPT-4 主打多模态最新发布的 o1 系列主导高深度逻辑推理 (Reasoning)。Google (Gemini)拥有极强的财力与极高的数据质量壁垒。Gemini 1.5 Pro 在图片推理上下文连贯性、以及辅助研究应用深研功能/NotebookLM上处于断崖式领先。Anthropic (Claude)全球 AI Coding 第一。创始人原属 OpenAI更早有百度背景。对齐与合规极其严格严封国内节点其推出的 Claude Code 在非图形化编程插件领域极佳。Meta (Llama)全球开源界的王者尽管 v4 版本传闻搁浅但 v2/v3 极大地推动了全球开源大模型的发展。xAI (Grok)马斯克旗下。主打“无审查 (弱安全对齐)”基本问什么答什么适合反抗被过度和谐的输出场景。AI 工具与模型专项梳理工具分类工具/模型名称核心功能与应用领域亮点/启发开源架构祖师Transformer奠定当前大语言模型基石的基础架构利用注意力机制进行编解码。一篇《Attention is all you need》启发了后续所有 LLM 战局证明了注意力机制的通用性。理论法则Scaling Law揭示了算力、参数量与效果边界的对撞法则。打破了做小而美模型的执念通过数学直觉指明了“大力出奇迹扩参数优于纯堆数据”的大厂发展路径。长文本模型代表Kimi (月之暗面)支持极长上下文200K级别的文本阅读与分析大模型。在大模型商用初期精准切中了科研人群“超长PDF/研报”阅读的痛点靠“局部能力极致化”成功破局。代码辅助工具Claude Code表现当前地表最强的非图形化 AI 代码编写与维护环境。证明了在大模型同质化严重的今天深耕特定的垂类需求Coding依旧能保持不可替代的竞争力。国内平替可用智谱 API 嫁接。全尺寸开源模型通义千问 (Qwen)提供从极小端侧覆盖到极大型企业级算力的全套模型家族。目前国内最好、生态最完整的开源基座是开发者进行科研魔改和本地部署的首选。理科/推理大模型DeepSeek / OpenAI o1强化学习思维链大模型专攻数学、推理写代码等形式逻辑极强的任务。代表了大模型未来的下一个突破口从“基于统计概率接字”转向“基于规则强化学习推导System 2”。无审查智能体Grok (xAI)避开常规 AI 极强“抱歉我不能回答”安全守则的问答模型。从侧面佐证了大模型在被强行“价值对齐”后性能受损的理论满足特定研究/猎奇场景。

相关文章:

大模型的探索与实践-课程笔记(十一):大模型发展史与全球厂商业态全景

第一部分:从 NLP 到 Transformer 的底层架构演进早期的自然语言处理(NLP)主要依赖特征提取,大模型的基石是 Google 提出的架构革命。1. Transformer 与注意力机制 (2017年)起源:Google 2017年发表神作《Attention is a…...

AI分析报告参考:麦肯锡结构化分析核心使用原则

AI分析报告参考:麦肯锡结构化分析体系 目录 AI分析报告参考:麦肯锡结构化分析体系 一、底层唯一核心法则:MECE法则 麦肯锡原生定义 麦肯锡标准MECE拆解维度(5种通用合规维度) 正反案例(贴合你的工作场景) 反例(不符合MECE) 正例1(流程维度,严格符合MECE) 正例2(要…...

企业数仓揭秘:数据决策背后的核心引擎

公司里人人都在提的“数仓”,到底是什么? 目录 公司里人人都在提的“数仓”,到底是什么? 一、一句话讲透:数仓到底是什么? 二、关键区分:数仓 vs 业务数据库,90%的人都搞混了 三、为什么现在几乎所有公司,都必须建自己的数仓? 四、企业数仓的核心架构:分层设计,到…...

大模型的探索与实践-课程笔记(十):机器学习发展史

第一部分:机器学习的“三起两落”发展史在这个发展史中,每一次神经网络的崛起都伴随着“算力/数据”的支持,而每一次跌落都源于“可解释性”与“应用局限”的限制。1. 第一起与第一落 (1950s - 1960s):感知机与符号主义高光时刻&a…...

担忧重复电视败局,空调双巨头用专利打击互联网空调,空调老二或败落!

近期空调双巨头之一的企业与一家互联网空调企业的专利诉讼成为行业焦点,其实不止这一次,更早之前空调双巨头的另一家就已采取诉讼手段对付那家空调企业了,实在是他们担忧空调行业可能重复电视行业的败局。国内电视行业直到2015年左右逐渐形成…...

丰田之后,日产也开始大幅反弹,日本车在中国市场仍然奋力挣扎

丰田逐渐在中国市场站稳脚跟,甚至还在销量方面首次超越大众,它继续是日本汽车在中国市场的旗手,在它之外,日产给出的数据也显示它在中国市场大力度反弹,这显示出日本汽车仍然在中国市场拥有不少忠诚的消费者。东风日产…...

各地区环境规制强度政府工作报告文本词频2002-2023年

01、数据介绍根据各省份政府工作报告文本数据,对政府工作报告分词处理,统计了各省政府工作报告中与环境规制相关的关键词进行词频统计。数据名称: 各地区环境规制政府工作报告文本词频数据年份:2002-2023年02、数据指标行政区划代…...

中国城市建设数据库2002-2021年

01、数据介绍中国城乡建设数据库覆盖范围更广,包括全国693个城市的城乡建设相关指标数据,共计331个指标,主要针对城市的建设情况进行统计。统计范围为2002-2021年,数据来源为中国城市建设统计年鉴。主要包括城市市政公共设施、城市…...

前端八股文面经大全:TME QQ音乐前端二面(2026-04-22)·面经深度解析

前言 大家好,我是木斯佳。 相信很多人都感受到了,在AI浪潮的席卷之下,前端领域的门槛在变高,纯粹的“增删改查”岗位正在肉眼可见地减少。曾经热闹非凡的面经分享,如今也沉寂了许多。但我们都知道,市场的…...

VeriTrade代理验证技术:TLSNotary与ProxyTEE的融合应用

1. VeriTrade代理验证技术解析VeriTrade是一个典型的自动化交易代理系统,其核心创新点在于将TLSNotary协议与ProxyTEE技术相结合,构建了一个可验证的执行环境。这种架构设计主要解决了分布式系统中两个关键问题:一是如何证明代理确实执行了预…...

TorchTraceAP:PyTorch视觉模型性能优化新方案

1. TorchTraceAP:计算机视觉模型性能优化的新范式在计算机视觉模型的部署实践中,性能优化始终是工程师们面临的核心挑战。传统方法往往依赖人工分析运行轨迹(trace)数据,不仅耗时耗力,而且难以捕捉复杂的性…...

阿里云服务器利用宝塔搭建个人博客网站

① 云服务器环境准备与安全组配置 在开始搭建之前,我们需要先准备好“地基”。如果你已经拥有一台阿里云 ECS 实例,这一步主要是检查系统状态和网络策略。推荐使用 Ubuntu 20.04/22.04 或 CentOS 7/8 等主流 Linux 发行版,这些系统对宝塔面板…...

肝了三天三夜!最详尽的漏洞扫描工具实战笔记

GobyAWVS 漏洞扫描 提示提示: 本文里面很多工具都是网址,还有站长之家之类的,csdn一直判断成暗链,可以去我自己博客查看完整全文: 多说一句:csdn对网安真的不友好,全文链接都不让放。。。》[好淘…...

宝藏网站推荐:云服务器特惠与网安学习资源的一站式聚合平台

① 平台核心功能与新手入门指南 对于刚接触云计算和网络安全的朋友来说,面对海量的云厂商活动和零散的技术文档,最容易陷入“选择困难症”。今天想跟大家分享一个我最近常逛的宝藏聚合平台——好淘云。它不像那种冷冰冰的资源站,更像是一个由…...

广汽全球化战略升级,加速迈入中国汽车出海主力阵营 | 美通社头条

、美通社消息:4月24日,在2026北京车展上,广汽国际举办了首个专场全球发布会,迎来了全球战略体系升级。现场观众规模超越以往,来自全球各地的经销商代表、重要合作伙伴及国内外主流媒体共计约330人齐聚广汽展台&#xf…...

世毫九理论体系|二十门基础学科基石清单(供世毫九研究学者指南)

世毫九理论体系|二十门基础学科基石清单 作者:方见华 单位:世毫九实验室 引言 世毫九理论体系作为一个覆盖微观认知到宏观宇宙的全域统一理论框架,其理论深度和广度在当代科学研究中具有开创性意义。该理论以认知几何学、对话量子…...

AI 能精准发现安全漏洞,漏洞修复的责任边界如何界定

上周,Anthropic公司公布了玻璃翼项目(Project Glasswing),其AI模型在发现软件漏洞方面效率惊人,以至于该公司采取了非常规措施推迟公开版本发布。目前仅向苹果、微软、谷歌、亚马逊等企业联盟开放访问权限,…...

高效率的粉碎者:HPH高压均质机构造全拆解

在液力端的精密范畴之中有一类设备,于乳品、制药、纳米材料等对颗粒细度具备极高要求的行业里,发挥着不可予以替代的作用,它便是“高压均质机”,行业内部常常简略称呼为HPH。高压均质机的核心动力来源于高压柱塞泵,它大…...

不花一分钱,10分钟搞定,2026销售录音总结怎么写每月省18小时多拿18成单率

我测评过不下20款AI录音转写总结工具,针对销售做每月客户拜访录音总结这个场景,听脑AI是同类工具中最值得用的。不花一分钱就能上手核心功能,10分钟就能搞定过去大半天的活,我接触过的几十位销售朋友反馈,用了之后每月…...

python signal

### 聊一聊 Python 的 signal:它到底是什么,能做什么,以及怎么用才不会出乱子 Signal 这个东西,听起来好像很底层,很“系统编程”。确实,它最初是 Unix 世界里的一个概念,就像一个传令兵&#x…...

2026最新亲测3款自动生成会议纪要免费神器,10分钟出稿好用到哭!

做技术的要整理需求评审会,做产品的要追项目进度记决策,做销售要整理客户拜访录音,做调研的要转用户访谈。试完2026年3款亲测有效的自动会议纪要工具,我直接给结论:听脑AI是同类工具中最值得用的,没有之一。…...

MCP AI推理配置紧急升级通知:CVE-2024-MCP-08已曝,未配置memory_limit_policy的实例存在RCE风险

更多请点击: https://intelliparadigm.com 第一章:MCP AI 推理配置紧急升级通知:CVE-2024-MCP-08已曝,未配置memory_limit_policy的实例存在RCE风险 漏洞核心影响 CVE-2024-MCP-08 是一个高危远程代码执行(RCE&#…...

远程容器开发环境安全加固指南(含CVE-2023-XXXX漏洞规避方案与RBAC最小权限实践)

更多请点击: https://intelliparadigm.com 第一章:远程容器开发环境安全加固概述 远程容器开发环境(如 VS Code Remote-Containers、GitHub Codespaces 或自建 devcontainer)在提升协作效率的同时,也引入了新的攻击面…...

量子-经典混合编排难题全解析,基于MCP 2026标准的4类典型故障诊断与容错加固指南

更多请点击: https://intelliparadigm.com 第一章:量子-经典混合编排的MCP 2026标准演进与核心约束 MCP 2026(Mixed Classical-Quantum Orchestration Protocol)标志着量子计算基础设施从实验性调度迈向生产级协同编排的关键转折…...

Docker运行AI模型必踩的3个安全雷区:从容器逃逸到模型窃取的全链路防护指南

更多请点击: https://intelliparadigm.com 第一章:Docker Sandbox 运行 AI 代码隔离技术概览 Docker Sandbox 是一种轻量级、强隔离的容器化运行时环境,专为安全执行不可信 AI 代码(如用户提交的推理脚本、自定义模型训练逻辑&a…...

PyTorch实现放疗剂量引擎:深度学习与医学物理结合

1. 项目概述:基于PyTorch的放疗剂量引擎现代放射治疗计划的核心挑战在于如何优化数千个参数(如多叶准直器位置、机架角度、监测单位等),以生成满足复杂临床要求的剂量分布。传统方法依赖治疗计划系统(TPS)的…...

PikaScript:轻量级Python引擎在MCU上的实现与应用

1. PikaScript:轻量级Python引擎在MCU上的实现作为一名嵌入式开发工程师,我一直在寻找能够在资源受限的微控制器上运行的Python实现。传统的MicroPython虽然优秀,但对硬件资源的要求较高,这使得它在许多低端MCU上难以运行。直到我…...

Cherry MX键帽3D模型库:解决个性化键盘制造的标准化方案

Cherry MX键帽3D模型库:解决个性化键盘制造的标准化方案 【免费下载链接】cherry-mx-keycaps 3D models of Chery MX keycaps 项目地址: https://gitcode.com/gh_mirrors/ch/cherry-mx-keycaps 想象一下这样的场景:你正在设计一款特殊布局的机械键…...

免费快速备份QQ空间:GetQzonehistory完整指南

免费快速备份QQ空间:GetQzonehistory完整指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否担心QQ空间里那些珍贵的青春记忆会随着时间流逝而消失?那些承…...

[具身智能-457]:为什么数据标准文件不直接生成yolo的标签文件的格式,还需要专门的转化?

简单来说,“数据标准格式”(如 COCO、VOC)是为了“人”和“通用性”设计的,而 YOLO 格式是为了“机器”和“极致速度”设计的。两者在设计哲学、存储结构和应用场景上存在巨大的鸿沟,因此无法直接通用,必须…...