当前位置：首页 > article >正文

大模型全景图-GPT到多模态演进路线

article 2026/6/1 12:00:33

大模型全景图从 GPT 到多模态我是怎么被一路卷过来的一张图理清大模型演进路线不再被各种名词绕晕从一个场景说起前段时间有个朋友问我“现在大模型这么多GPT、Claude、Gemini、文心、通义还有多模态、Agent、RAG 这些概念我都懵了到底该学哪个”说实话我一开始也是懵的。假设你也面临这样的情况老板让你调研大模型准备接入项目。你打开网页一搜好家伙GPT-3、GPT-4、GPT-4o、o1、o3… OpenAI 你家命名能不能有点规律文心一言、通义千问、讯飞星火、智谱清言… 国产模型也一大堆还有什么多模态、Agent、RAG、Function Calling名词多得记不住你心想“这不就是调个 API 嘛简单”结果一调研才发现每个模型特点不一样有的擅长聊天有的擅长代码有的能看图有的能画图价格还千差万别…好吧事情没那么简单。问题分析为啥大模型这么卷我梳理了一下发现不是大家故意搞复杂而是技术真的在快速迭代三个核心问题能力边界不清楚GPT-3 和 GPT-4 到底差在哪什么时候该用多模态模型自研模型还是调 API技术路线太多预训练、微调、Prompt Engineering、RAG怎么组合开源 vs 闭源怎么选演进速度太快上半年学的方案下半年可能就被新技术颠覆了今天的热门概念明天可能就被整合进基础模型看来得理一理大模型的演进脉络…方案设计说白了我们要解决的核心问题是建立对大模型技术演进的认知框架我把自己这两年被卷的经历捋了捋发现大模型的发展大概分了四个阶段四个时代GPT 时代2020-2022预训练提示工程“大力出奇迹”指令时代2022-2023InstructGPT、ChatGPT模型学会听人话多模态时代2023-2024GPT-4V、Gemini能看图、能听声音Agent 时代2024-至今工具调用、深度推理模型开始动手了每个时代的核心变化和选型逻辑都不一样咱们一个个看。实现过程Step 1: GPT 时代 —— “预训练 Prompt”那是 2020 年GPT-3 横空出世。当时的核心思路特别简单堆数据、堆参数、堆算力。# 伪代码GPT-3 时代的用法2020-2022defgpt3_era():# 核心预训练好的模型精心设计的 Promptmodelload_pretrained_gpt3()# 加载预训练模型# 关键Prompt Engineeringprompt 你是一个专业的文案写手。任务给一款运动耳机写广告文案。要求 - 突出降噪功能 - 语气年轻化 - 100字以内文案 # 模型只负责续写resultmodel.complete(prompt)returnresult这个时代的关键认知模型是续写机你要通过 Prompt 告诉它你是谁、要做什么Few-shot给几个例子能显著提升效果不用微调调 Prompt 就行Prompt Engineering局限性也很明显模型经常答非所问因为只是在续写对复杂指令理解能力差容易生成有害内容没有对齐人类价值观Step 2: 指令时代 —— “对齐人类意图”2022 年底ChatGPT 爆了。它不是简单的 GPT-3.5而是经过了指令微调Instruction Tuning和RLHF人类反馈强化学习。说白了就是教会模型听人话、说人话。# 伪代码ChatGPT 时代的用法2022-2023defchatgpt_era():# 核心对话式交互模型理解指令modelload_instruct_model()# 指令微调后的模型# 关键不用写复杂 Prompt直接说人话messages[{role:system,content:你是 helpful assistant},{role:user,content:写个运动耳机的广告文案突出降噪年轻化语气}]# 模型理解指令而不是简单续写resultmodel.chat(messages)returnresult这个时代的变化从续写变成对话交互方式更自然引入了 System Prompt可以设定角色和规则指令遵循能力大幅提升关键技术点SFT监督微调用高质量对话数据教模型怎么聊天RLHF让人类给回答打分模型学会什么回答是人类喜欢的选型建议如果你今天还在用基座模型Raw Model别折腾 Prompt 了直接用 Chat 版本国内模型文心、通义、Kimi都是这个时代的产物选谁主要看价格和效果Step 3: 多模态时代 —— “不止能看字”2023 年GPT-4V 发布模型开始能看图了。然后是 Gemini、Claude 3、Qwen-VL… 大模型进入眼睛耳朵时代。# 伪代码多模态时代的用法2023-2024defmultimodal_era():# 核心支持图文混合输入modelload_multimodal_model()# GPT-4V / Gemini / Qwen-VL# 关键可以传图片了messages[{role:user,content:[{type:text,text:这张图里的代码有什么 bug 吗},{type:image,image:screenshot.png}# 传图片]}]resultmodel.chat(messages)returnresult多模态解决了什么问题OCR 理解截图里的文字能识别还能理解含义视觉问答“这张图里的图表说明什么趋势”跨模态生成看图写文案、根据描述画图DALL-E、Midjourney技术实现思路文本 Token 图像 Token - 统一编码 - 解码生成图像被编码成类似文本的 Token和文本一起喂给 Transformer。什么时候必须用多模态处理截图、PDF、扫描件OCR理解一步到位需要理解 UI 界面比如自动化测试、RPA内容审核图文结合判断选型建议GPT-4V效果最好但贵Gemini Pro Vision性价比高Google 生态Qwen-VL / InternVL国产开源可私有化部署Step 4: Agent 时代 —— “模型开始动手了”2024 年大模型开始长手了。Function Calling、工具调用、AutoGPT、Devin… 模型不再只是说话而是能做事。# 伪代码Agent 时代的用法2024-至今defagent_era():# 核心模型可以调用工具了modelload_agent_model()# 支持 Function Calling 的模型# 定义工具让模型知道它能干什么tools[{name:search,description:搜索互联网信息,parameters:{query:string}},{name:calculator,description:数学计算,parameters:{expression:string}}]# 用户提问user_input今年 GDP 增长 5%去年是 100 万亿那今年是多少# 关键模型自己决定要不要用工具responsemodel.chat_with_tools(user_input,tools)ifresponse.tool_call:# 模型决定调用计算器resultcalculator(response.tool_call.parameters)# 把结果给模型让它继续回答finalmodel.chat(f计算结果是{result}请回答用户)returnfinalreturnresponse.contentAgent 时代的核心能力工具调用Function Calling模型知道什么时候该查数据库、调 API、算数学规划能力Planning把复杂任务拆成步骤一步步执行记忆Memory记住之前的对话和上下文典型应用AI 编程助手Cursor、GitHub Copilot、Devin不只是补代码还能改 Bug、跑测试智能客服能查订单、改地址、发起退款数据分析自动查数据、画图、写报告技术演进1.0: 单轮调用 - 模型决定用什么工具 2.0: 多轮 ReAct - 思考-行动-观察循环 3.0: 多 Agent 协作 - 多个模型分工合作选型建议如果你只是做聊天机器人没必要上 Agent反而复杂如果需要和现有系统对接查数据、调接口Function Calling 是刚需OpenAI、Claude 的工具调用能力最强国产模型通义、文心也在快速追赶踩坑记录梳理演进路线的过程中有几个常见误区记录一下坑 1: 盲目追新忽视场景现象听说 o1 推理能力强所有场景都换 o1问题o1 贵且慢简单场景用 GPT-4o mini 就够了解决方案简单任务 - 快模型GPT-4o mini、Claude Haiku复杂推理 - 慢模型o1、Claude Opus视觉任务 - 多模态模型系统对接 - 支持 Function Calling 的模型坑 2: 忽视上下文长度现象模型选对了但扔进去一篇长文档中间内容被遗忘问题不同模型上下文长度差异巨大4k - 128k - 2000k解决方案长文档处理 - 选长上下文模型Claude 200k、Gemini 1M、Kimi 200k超长文本 - 考虑 RAG检索增强生成别硬塞坑 3: 混淆基础模型和对话模型现象用了 Llama-3-70B发现效果还不如 GPT-3.5问题基础模型Base没经过指令微调不会对话解决方案用 Instruct/Chat 版本Llama-3-70B-Instruct或者自己微调成本高除非有特定需求坑 4: 私有化部署的幻觉现象“我们要私有化部署 GPT-4 级别的模型”问题70B 参数的模型需要 140G 显存成本吓死人解决方案小参数模型7B、13B 微调适合特定任务大参数模型70B除非真有数据安全要求否则调 API 更划算一张图看懂全景说了这么多画张图总结一下大模型演进路线2020-2024 GPT 时代指令时代多模态时代 Agent 时代 (2020-2022) (2022-2023) (2023-2024) (2024-至今) | | | | v v v v 预训练模型指令微调模型多模态模型 Agent 模型 Prompt Engineering 对话交互图文理解工具调用 RLHF 对齐跨模态生成规划执行代表模型: 代表模型: 代表模型: 代表模型: - GPT-3 - ChatGPT - GPT-4V - GPT-4o - BERT - Claude - Gemini Pro Vision - Claude 3.5 - T5 - 文心一言 - Qwen-VL - Devin - LLaMA - 通义千问 - InternVL - AutoGPT选型决策树你的场景是什么 | ├─- 简单文本任务问答、摘要 | └─- GPT-4o mini / Claude Haiku便宜够用 | ├─- 复杂推理代码、数学 | └─- o1 / Claude Opus / DeepSeek-R1 | ├─- 需要看图/看文档 | └─- GPT-4V / Gemini / Qwen-VL | ├─- 需要调工具/查数据库 | └─- 支持 Function Calling 的模型GPT-4o、Claude | └─- 数据敏感必须私有化 └─- Llama-3 / Qwen / ChatGLM开源模型微调小结今天我们梳理了大模型从 GPT 到多模态再到 Agent 的演进路线四个时代GPT 时代预训练 Prompt学会续写指令时代SFT RLHF学会听话多模态时代视觉编码学会看图Agent 时代工具调用学会动手选型逻辑不是越新越好是越适合越好简单任务别用重炮复杂任务别省成本多模态和 Agent 是刚需再上不是刚需别折腾当然这个路线还在快速演进中o1/o3 代表的深度推理可能是下一个方向端侧小模型手机本地跑也在快速发展多模态还在往视频理解进化写在最后大模型技术发展太快今天的新可能明天就旧了。我的建议是别追新追理解。理解了演进的逻辑就能快速适应变化。你在大模型选型中踩过哪些坑对哪个方向最感兴趣欢迎在评论区交流如果觉得有用给个吧咱们下篇见

大模型全景图-GPT到多模态演进路线

相关文章：

大模型全景图-GPT到多模态演进路线

终极英雄联盟工具箱：如何用智能助手轻松提升游戏段位

SpringCloud进阶--Seata与分布式事务歉

【AI Token中转】2026年AI Token代理站搭建实战：技术架构与运营策略

再次革新 .NET 的构建和发布方式（一）蛊

从Windows换到麒麟V10 SP1，这7个自带神器让我彻底卸载了第三方管家软件

Coding Agent底层架构全解（极其详细），吃透6大核心组件，收藏这篇就够了！

35岁程序员必看：收藏这份智能体（Agent）开发指南，开启你的“第二曲线”！

从安全工具开发视角看驱动遍历：如何用C语言在Windows内核里‘看见’所有sys文件

从MCAS系统失效到监管失察：波音737MAX空难的工程伦理再审视

不用装软件！这款MicroPython浏览器 IDE :让你在手机上也能调试树莓派 Pico拐

ESP32/ESP8266接入Ambient云平台实战指南

STM32裸机4-bit驱动HD44780字符LCD库

Beyond Compare 5 开源密钥生成工具：从评估模式到专业授权的完整解决方案

告别Qt Creator！在VSCode里配置Qt 6.8.3 + MSVC2022开发环境（附完整settings.json）

3步掌握XUnity.AutoTranslator：Unity游戏实时翻译实战指南

L6599A VCO工作原理深度解析：为什么你的LLC闭环仿真总是不稳定？

【51单片机】【Proteus仿真】十字路口交通灯系统：从仿真到代码的实战解析

打字不如说话，说话不如截图——AI 代码助手的多模态输入实践捶

CAN BLF包解析实战：从原始报文到可读数据的Python解码之旅

过温保护电路设计避坑指南：从LM358偏移电压到三极管测温精度的5个关键点

从零组装一台能联网的电脑：手把手记录我的南邮电装实习全过程（含BIOS设置与网络配置）

一文搞懂 Spring Cloud：从入门到实战的微服务全景指南（建议收藏）诨

【OpenClaw】通过 Nanobot 源码学习架构---（）总体淮

SLAM 技术路线已收敛：这几条才是未来主流！

数据库分库分表实战

【IIC通信】Chap.2 （I2C）IIC协议的特点；为什么IIC需要开漏输出、上拉电阻？

Python asyncio 并发下载任务设计

NeurIPS 2024新作SOFTS实战：用PyTorch复现这个高效的多元时间序列预测模型

嵌入式三角函数查表法：原理、实现与工业优化