当前位置: 首页 > article >正文

大模型全景图-GPT到多模态演进路线

大模型全景图从 GPT 到多模态我是怎么被一路卷过来的一张图理清大模型演进路线不再被各种名词绕晕从一个场景说起前段时间有个朋友问我“现在大模型这么多GPT、Claude、Gemini、文心、通义还有多模态、Agent、RAG 这些概念我都懵了到底该学哪个”说实话我一开始也是懵的。假设你也面临这样的情况老板让你调研大模型准备接入项目。你打开网页一搜好家伙GPT-3、GPT-4、GPT-4o、o1、o3… OpenAI 你家命名能不能有点规律文心一言、通义千问、讯飞星火、智谱清言… 国产模型也一大堆还有什么多模态、Agent、RAG、Function Calling名词多得记不住你心想“这不就是调个 API 嘛简单”结果一调研才发现每个模型特点不一样有的擅长聊天有的擅长代码有的能看图有的能画图价格还千差万别…好吧事情没那么简单。问题分析为啥大模型这么卷我梳理了一下发现不是大家故意搞复杂而是技术真的在快速迭代三个核心问题能力边界不清楚GPT-3 和 GPT-4 到底差在哪什么时候该用多模态模型自研模型还是调 API技术路线太多预训练、微调、Prompt Engineering、RAG怎么组合开源 vs 闭源怎么选演进速度太快上半年学的方案下半年可能就被新技术颠覆了今天的热门概念明天可能就被整合进基础模型看来得理一理大模型的演进脉络…方案设计说白了我们要解决的核心问题是建立对大模型技术演进的认知框架我把自己这两年被卷的经历捋了捋发现大模型的发展大概分了四个阶段四个时代GPT 时代2020-2022预训练 提示工程“大力出奇迹”指令时代2022-2023InstructGPT、ChatGPT模型学会听人话多模态时代2023-2024GPT-4V、Gemini能看图、能听声音Agent 时代2024-至今工具调用、深度推理模型开始动手了每个时代的核心变化和选型逻辑都不一样咱们一个个看。实现过程Step 1: GPT 时代 —— “预训练 Prompt”那是 2020 年GPT-3 横空出世。当时的核心思路特别简单堆数据、堆参数、堆算力。# 伪代码GPT-3 时代的用法2020-2022defgpt3_era():# 核心预训练好的模型 精心设计的 Promptmodelload_pretrained_gpt3()# 加载预训练模型# 关键Prompt Engineeringprompt 你是一个专业的文案写手。 任务给一款运动耳机写广告文案。 要求 - 突出降噪功能 - 语气年轻化 - 100字以内 文案 # 模型只负责续写resultmodel.complete(prompt)returnresult这个时代的关键认知模型是续写机你要通过 Prompt 告诉它你是谁、要做什么Few-shot给几个例子能显著提升效果不用微调调 Prompt 就行Prompt Engineering局限性也很明显模型经常答非所问因为只是在续写对复杂指令理解能力差容易生成有害内容没有对齐人类价值观Step 2: 指令时代 —— “对齐人类意图”2022 年底ChatGPT 爆了。它不是简单的 GPT-3.5而是经过了指令微调Instruction Tuning和RLHF人类反馈强化学习。说白了就是教会模型听人话、说人话。# 伪代码ChatGPT 时代的用法2022-2023defchatgpt_era():# 核心对话式交互模型理解指令modelload_instruct_model()# 指令微调后的模型# 关键不用写复杂 Prompt直接说人话messages[{role:system,content:你是 helpful assistant},{role:user,content:写个运动耳机的广告文案突出降噪年轻化语气}]# 模型理解指令而不是简单续写resultmodel.chat(messages)returnresult这个时代的变化从续写变成对话交互方式更自然引入了 System Prompt可以设定角色和规则指令遵循能力大幅提升关键技术点SFT监督微调用高质量对话数据教模型怎么聊天RLHF让人类给回答打分模型学会什么回答是人类喜欢的选型建议如果你今天还在用基座模型Raw Model别折腾 Prompt 了直接用 Chat 版本国内模型文心、通义、Kimi都是这个时代的产物选谁主要看价格和效果Step 3: 多模态时代 —— “不止能看字”2023 年GPT-4V 发布模型开始能看图了。然后是 Gemini、Claude 3、Qwen-VL… 大模型进入眼睛耳朵时代。# 伪代码多模态时代的用法2023-2024defmultimodal_era():# 核心支持图文混合输入modelload_multimodal_model()# GPT-4V / Gemini / Qwen-VL# 关键可以传图片了messages[{role:user,content:[{type:text,text:这张图里的代码有什么 bug 吗},{type:image,image:screenshot.png}# 传图片]}]resultmodel.chat(messages)returnresult多模态解决了什么问题OCR 理解截图里的文字能识别还能理解含义视觉问答“这张图里的图表说明什么趋势”跨模态生成看图写文案、根据描述画图DALL-E、Midjourney技术实现思路文本 Token 图像 Token - 统一编码 - 解码生成图像被编码成类似文本的 Token和文本一起喂给 Transformer。什么时候必须用多模态处理截图、PDF、扫描件OCR理解一步到位需要理解 UI 界面比如自动化测试、RPA内容审核图文结合判断选型建议GPT-4V效果最好但贵Gemini Pro Vision性价比高Google 生态Qwen-VL / InternVL国产开源可私有化部署Step 4: Agent 时代 —— “模型开始动手了”2024 年大模型开始长手了。Function Calling、工具调用、AutoGPT、Devin… 模型不再只是说话而是能做事。# 伪代码Agent 时代的用法2024-至今defagent_era():# 核心模型可以调用工具了modelload_agent_model()# 支持 Function Calling 的模型# 定义工具让模型知道它能干什么tools[{name:search,description:搜索互联网信息,parameters:{query:string}},{name:calculator,description:数学计算,parameters:{expression:string}}]# 用户提问user_input今年 GDP 增长 5%去年是 100 万亿那今年是多少# 关键模型自己决定要不要用工具responsemodel.chat_with_tools(user_input,tools)ifresponse.tool_call:# 模型决定调用计算器resultcalculator(response.tool_call.parameters)# 把结果给模型让它继续回答finalmodel.chat(f计算结果是{result}请回答用户)returnfinalreturnresponse.contentAgent 时代的核心能力工具调用Function Calling模型知道什么时候该查数据库、调 API、算数学规划能力Planning把复杂任务拆成步骤一步步执行记忆Memory记住之前的对话和上下文典型应用AI 编程助手Cursor、GitHub Copilot、Devin不只是补代码还能改 Bug、跑测试智能客服能查订单、改地址、发起退款数据分析自动查数据、画图、写报告技术演进1.0: 单轮调用 - 模型决定用什么工具 2.0: 多轮 ReAct - 思考-行动-观察循环 3.0: 多 Agent 协作 - 多个模型分工合作选型建议如果你只是做聊天机器人没必要上 Agent反而复杂如果需要和现有系统对接查数据、调接口Function Calling 是刚需OpenAI、Claude 的工具调用能力最强国产模型通义、文心也在快速追赶踩坑记录梳理演进路线的过程中有几个常见误区记录一下坑 1: 盲目追新忽视场景现象听说 o1 推理能力强所有场景都换 o1问题o1 贵且慢简单场景用 GPT-4o mini 就够了解决方案简单任务 - 快模型GPT-4o mini、Claude Haiku复杂推理 - 慢模型o1、Claude Opus视觉任务 - 多模态模型系统对接 - 支持 Function Calling 的模型坑 2: 忽视上下文长度现象模型选对了但扔进去一篇长文档中间内容被遗忘问题不同模型上下文长度差异巨大4k - 128k - 2000k解决方案长文档处理 - 选长上下文模型Claude 200k、Gemini 1M、Kimi 200k超长文本 - 考虑 RAG检索增强生成别硬塞坑 3: 混淆基础模型和对话模型现象用了 Llama-3-70B发现效果还不如 GPT-3.5问题基础模型Base没经过指令微调不会对话解决方案用 Instruct/Chat 版本Llama-3-70B-Instruct或者自己微调成本高除非有特定需求坑 4: 私有化部署的幻觉现象“我们要私有化部署 GPT-4 级别的模型”问题70B 参数的模型需要 140G 显存成本吓死人解决方案小参数模型7B、13B 微调适合特定任务大参数模型70B除非真有数据安全要求否则调 API 更划算一张图看懂全景说了这么多画张图总结一下大模型演进路线2020-2024 GPT 时代 指令时代 多模态时代 Agent 时代 (2020-2022) (2022-2023) (2023-2024) (2024-至今) | | | | v v v v 预训练模型 指令微调模型 多模态模型 Agent 模型 Prompt Engineering 对话交互 图文理解 工具调用 RLHF 对齐 跨模态生成 规划执行 代表模型: 代表模型: 代表模型: 代表模型: - GPT-3 - ChatGPT - GPT-4V - GPT-4o - BERT - Claude - Gemini Pro Vision - Claude 3.5 - T5 - 文心一言 - Qwen-VL - Devin - LLaMA - 通义千问 - InternVL - AutoGPT选型决策树你的场景是什么 | ├─- 简单文本任务问答、摘要 | └─- GPT-4o mini / Claude Haiku便宜够用 | ├─- 复杂推理代码、数学 | └─- o1 / Claude Opus / DeepSeek-R1 | ├─- 需要看图/看文档 | └─- GPT-4V / Gemini / Qwen-VL | ├─- 需要调工具/查数据库 | └─- 支持 Function Calling 的模型GPT-4o、Claude | └─- 数据敏感必须私有化 └─- Llama-3 / Qwen / ChatGLM开源模型 微调小结今天我们梳理了大模型从 GPT 到多模态再到 Agent 的演进路线四个时代GPT 时代预训练 Prompt学会续写指令时代SFT RLHF学会听话多模态时代视觉编码学会看图Agent 时代工具调用学会动手选型逻辑不是越新越好是越适合越好简单任务别用重炮复杂任务别省成本多模态和 Agent 是刚需再上不是刚需别折腾当然这个路线还在快速演进中o1/o3 代表的深度推理可能是下一个方向端侧小模型手机本地跑也在快速发展多模态还在往视频理解进化写在最后大模型技术发展太快今天的新可能明天就旧了。我的建议是别追新追理解。理解了演进的逻辑就能快速适应变化。你在大模型选型中踩过哪些坑对哪个方向最感兴趣欢迎在评论区交流如果觉得有用给个吧咱们下篇见

相关文章:

大模型全景图-GPT到多模态演进路线

大模型全景图:从 GPT 到多模态,我是怎么被一路"卷"过来的一张图理清大模型演进路线,不再被各种名词绕晕从一个场景说起 前段时间有个朋友问我:“现在大模型这么多,GPT、Claude、Gemini、文心、通义&#xff…...

终极英雄联盟工具箱:如何用智能助手轻松提升游戏段位

终极英雄联盟工具箱:如何用智能助手轻松提升游戏段位 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari 是一款专为英雄…...

SpringCloud进阶--Seata与分布式事务歉

起因是我想在搞一些操作windows进程的事情时,老是需要右键以管理员身份运行,感觉很麻烦。就研究了一下怎么提权,顺手瞄了一眼Windows下用户态权限分配,然后也是感谢《深入解析Windows操作系统》这本书给我偷令牌的灵感吧&#xff…...

【AI Token中转】2026年AI Token代理站搭建实战:技术架构与运营策略

2026年AI Token中转站搭建实战:技术架构与运营策略 上个月帮朋友搭了一个API中转站。折腾了一周,踩了几个坑,现在稳定跑了两个月。 这篇文章把整个过程和实际数据整理出来。包括技术选型、部署细节、运维经验,还有运营策略。 不讲…...

再次革新 .NET 的构建和发布方式(一)蛊

本文能帮你解决什么? 1. 搞懂FastAPI异步(async/await)到底在什么场景下能真正提升性能。 2. 掌握在FastAPI中正确使用多线程处理CPU密集型任务的方法。 3. 避开常见的坑(比如阻塞操作、数据库连接池耗尽、GIL限制)。 …...

从Windows换到麒麟V10 SP1,这7个自带神器让我彻底卸载了第三方管家软件

从Windows换到麒麟V10 SP1,这7个自带神器让我彻底卸载了第三方管家软件 第一次打开银河麒麟桌面操作系统V10 SP1时,那种既熟悉又陌生的感觉让我想起了十年前从Windows XP升级到Windows 7的体验。作为一个长期使用Windows系统的普通办公用户,我…...

Coding Agent底层架构全解(极其详细),吃透6大核心组件,收藏这篇就够了!

为什么同样的模型,在 Chat 界面和 Coding Agent 里表现完全不同? 最近读到 Sebastian Raschka 的一篇深度文章,拆解了 Coding Agent(代码智能体)的核心架构。Sebastian 是《Build a Large Language Model (From Scratc…...

35岁程序员必看:收藏这份智能体(Agent)开发指南,开启你的“第二曲线”!

35岁,已经成为职场人的魔咒。 尤其是IT行业打工人。 很多人到了35岁,被裁了。 没被裁的,也在担心被裁。 还没到35岁的,已经开始焦虑—— “到了那时候,我该怎么办?” 以前,还真没什么好办法。 但…...

从安全工具开发视角看驱动遍历:如何用C语言在Windows内核里‘看见’所有sys文件

从安全工具开发视角看驱动遍历:如何用C语言在Windows内核里‘看见’所有sys文件 在安全攻防的战场上,内核层始终是兵家必争之地。当恶意软件试图通过加载隐藏驱动来逃避检测时,安全工程师需要一双能穿透迷雾的"眼睛"——这就是驱动…...

从MCAS系统失效到监管失察:波音737MAX空难的工程伦理再审视

1. MCAS系统:一个被简化的技术补丁 当波音工程师面对737MAX机型发动机安装位置带来的气动特性变化时,他们选择了一个看似聪明的解决方案——机动特性增强系统(MCAS)。这个系统的设计初衷非常简单:当飞机仰角过大时&…...

不用装软件!这款MicroPython浏览器 IDE :让你在手机上也能调试树莓派 Pico拐

1、普通的insert into 如果(主键/唯一建)存在,则会报错 新需求:就算冲突也不报错,用其他处理逻辑 回到顶部 2、基本语法(INSERT INTO ... ON CONFLICT (...) DO (UPDATE SET ...)/(NOTHING)) 语…...

ESP32/ESP8266接入Ambient云平台实战指南

1. Ambient ESP32/ESP8266 库技术解析:面向嵌入式物联网的数据上云实践Ambient 是一款专为物联网设备设计的轻量级云端数据可视化服务,其核心价值在于将嵌入式终端采集的传感器数据,通过极简协议上传至云端,并自动生成实时、可配置…...

STM32裸机4-bit驱动HD44780字符LCD库

1. 项目概述CharLcd4bit是一款专为 STM32F103RB 微控制器(如 NUCLEO-F103RB 开发板)设计的轻量级字符型液晶显示驱动库,面向标准 HD44780 兼容的 162 字符 LCD 模块(典型型号:JHD162A、LM016L、PC1602 等)&…...

Beyond Compare 5 开源密钥生成工具:从评估模式到专业授权的完整解决方案

Beyond Compare 5 开源密钥生成工具:从评估模式到专业授权的完整解决方案 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen 当你在使用Beyond Compare 5进行文件对比或同步工作时&…...

告别Qt Creator!在VSCode里配置Qt 6.8.3 + MSVC2022开发环境(附完整settings.json)

在VSCode中构建Qt 6.8.3开发环境:从零配置到高效开发 Qt Creator曾经是Qt开发者的标配IDE,但随着VSCode在代码编辑、插件生态和跨语言支持上的突飞猛进,越来越多的开发者开始转向这个轻量级但功能强大的编辑器。本文将带你从零开始&#xff0…...

3步掌握XUnity.AutoTranslator:Unity游戏实时翻译实战指南

3步掌握XUnity.AutoTranslator:Unity游戏实时翻译实战指南 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator XUnity.AutoTranslator是一款专为Unity游戏设计的智能实时翻译插件,能够…...

L6599A VCO工作原理深度解析:为什么你的LLC闭环仿真总是不稳定?

L6599A VCO工作原理深度解析:为什么你的LLC闭环仿真总是不稳定? 在LLC谐振变换器的设计中,闭环仿真的稳定性往往是工程师面临的最大挑战之一。许多经验丰富的电源工程师都曾遇到过这样的困境:明明按照芯片手册设计了所有外围电路&…...

【51单片机】【Proteus仿真】 十字路口交通灯系统:从仿真到代码的实战解析

1. 项目背景与核心功能 十字路口交通灯系统是嵌入式开发的经典练手项目,它完美融合了硬件控制、定时器中断和状态机设计三大核心技能。我当年第一次用51单片机做这个项目时,整整调了两天黄灯闪烁频率才稳定下来。这个仿真系统最实用的地方在于&#xff0…...

打字不如说话,说话不如截图——AI 代码助手的多模态输入实践捶

整体排查思路 我们的目标是验证以下三个环节是否正常: 登录成功时:服务器是否正确生成了Session并返回了包含正确 JSESSIONID的Cookie给浏览器。 浏览器端:浏览器是否成功接收并存储了该Cookie。 后续请求:浏览器在执行查询等操作…...

CAN BLF包解析实战:从原始报文到可读数据的Python解码之旅

1. 初识CAN BLF文件:汽车电子的数据宝库 第一次拿到BLF文件时,我盯着那一堆十六进制数据直发懵。这就像拿到一本用外星文字写的日记,明明知道里面记录着重要信息,却完全看不懂内容。BLF文件其实是Vector公司CANoe工具录制的CAN总线…...

过温保护电路设计避坑指南:从LM358偏移电压到三极管测温精度的5个关键点

过温保护电路设计避坑指南:从LM358偏移电压到三极管测温精度的5个关键点 在工业控制领域,过温保护电路的设计往往被视为"简单任务",但实际调试中工程师常会遇到仿真完美而实测偏差大的困境。某电机驱动项目就曾因PCB热耦合问题导致…...

从零组装一台能联网的电脑:手把手记录我的南邮电装实习全过程(含BIOS设置与网络配置)

从零组装一台能联网的电脑:手把手记录我的南邮电装实习全过程 第一次亲手组装电脑的体验,远比想象中更令人兴奋。作为电子信息工程专业的学生,这次电装实习让我从理论走向实践,完整经历了从零配件到联网主机的全过程。如果你也和我…...

一文搞懂 Spring Cloud:从入门到实战的微服务全景指南(建议收藏)诨

一、中间件是啥?咱用“餐厅”打个比方 想象一下,你的FastAPI应用是个高级餐厅。 ?? 顾客(客户端请求)来到门口。- 迎宾(CORS中间件):先看你是不是从允许的街区(域名)来…...

【OpenClaw】通过 Nanobot 源码学习架构---()总体淮

核心摘要:这篇文章能帮你 ?? 1. 彻底搞懂条件分支与循环的适用场景,告别选择困难。 ?? 2. 掌握遍历DOM集合修改属性的标准姿势与性能窍门。 ?? 3. 识别流程控制中的常见“坑”,并学会如何优雅地绕过去。 ?? 主要内容脉络 ?? 一、痛…...

SLAM 技术路线已收敛:这几条才是未来主流!

当前SLAM技术路线已完成收敛,未来主流方向清晰且无争议:激光-IMU紧耦合SLAM凭借厘米级定位与高鲁棒性,仍是工业移动机器人、自动驾驶的核心基石,并向固态激光雷达方向持续降本迭代。激光-视觉-IMU多传感器紧耦合融合为全场景通用标…...

数据库分库分表实战

数据库分库分表实战:应对海量数据的高效策略 随着互联网业务的快速发展,单库单表的数据库架构逐渐暴露出性能瓶颈。当数据量达到千万甚至亿级时,查询延迟、写入拥堵等问题频发,分库分表成为解决这一难题的核心方案。本文将深入探…...

【IIC通信】Chap.2 (I2C)IIC协议的特点;为什么IIC需要开漏输出、上拉电阻?

1. IIC协议的核心特点解析 第一次接触IIC总线时,我被它简洁的两线设计惊艳到了。作为工程师最常用的串行通信协议之一,IIC(Inter-Integrated Circuit)确实在很多嵌入式系统中扮演着重要角色。记得当年调试第一个IIC设备时&#xf…...

Python asyncio 并发下载任务设计

Python asyncio 并发下载任务设计 在当今互联网时代,高效下载大量文件是许多应用场景的常见需求。无论是爬取网页数据、批量下载图片,还是同步云端资源,传统的同步下载方式往往因网络延迟而效率低下。Python的asyncio库提供了一种基于协程的…...

NeurIPS 2024新作SOFTS实战:用PyTorch复现这个高效的多元时间序列预测模型

NeurIPS 2024新作SOFTS实战:用PyTorch复现高效的多元时间序列预测模型 多元时间序列预测在能源管理、交通流量分析和金融市场预测等领域具有广泛应用。2024年NeurIPS会议上提出的SOFTS模型,通过创新的Series-cOre Fusion机制,在预测精度和计算…...

嵌入式三角函数查表法:原理、实现与工业优化

1. 三角函数查表法技术原理与嵌入式实现详解1.1 查表法在嵌入式系统中的工程价值在资源受限的嵌入式MCU(如Cortex-M0/M3、8051、AVR)上,实时计算sin/cos/tan等三角函数存在显著瓶颈:浮点运算单元缺失或性能低下、数学库&#xff0…...