当前位置: 首页 > article >正文

从LLM到VLM再到VLA:小白程序员必看的大模型学习路径(值得收藏!)

从LLM到VLM再到VLA小白程序员必看的大模型学习路径值得收藏本文梳理了通用人工智能AGI的发展路径从单模态大语言模型LLM演变为多模态视觉-语言模型VLM再到集感知、认知、行动于一体的视觉-语言-行动模型VLA。文章解析了VLM和VLA的训练方式及端到端模型的重要性强调VLA作为具身智能的核心地位并指出强化学习是实现AGI的关键。适合小白和程序员入门学习值得收藏。AGI 叙事路径在人工智能的发展历程中通用人工智能AGI一直是研究者们追求的终极目标AGI旨在构建一个能够像人类一样在多种领域和任务中表现出智能的系统。2023年来随着 AI 研究的不断进步AGI的发展叙事逐渐清晰从处理单一 模态信息的单模态模型到融合多种模态信息的多模态模型再到以多模态模型为底模、能够自主规划和执行任务的Agent发展到能与现实世界深度交互的具身智能、能探索前沿科学的 AI for ScienceAI4S最终达到 AGI。在这篇学习笔记中我将尝试梳理从 LLM 到具身智能的智能演进路程并厘清一些关键概念单模态模型专注于处理文本、图像、语音等单一类型的信息的模型多模态模型可以协同处理多种信息的模型模型认知更接近人类Agent在强大的单模态或者多模态模型底座之上通过引入记忆、规划与工具调用模块形成的能够自主完成复杂任务的智能体具身智能Agent的终极形态之一。它拥有了物理实体如机器人、自动驾驶汽车突破了数字世界的束缚真正走入物理世界图1拾象科技 AGI 路线路图2阶跃星辰 AGI 路线图PART01LLM首先从大语言模型Large Language Model说起。这类模型在数据上有一个鲜明的特点其输入和输出均只有文本这一个模态的数据。LLM之所以能基于单一的文本模态涌现出惊人的智能一个核心原因在于语言是传递信息效率最高的模态能够以高度浓缩的形式承载复杂的逻辑与丰富的语义。所以相比其他单模态模型LLM具有最高的智能程度。它不仅能够模仿人类的语言风格更重要的是在海量文本数据的训练下目前已经发展出了记忆、理解、推理和生成能力。这些能力的结合使得LLM成为当前生成式 AI时代的基石为后续更复杂的AI模型和应用提供了强大的技术底座。图3LLM 训练过程目前市场上已经出现许多知名的LLM包括Deepseek-V3R1、GPT-4.5、GPT-o1o3 等等。PART02VLM尽管LLM在处理和理解文本方面表现出色但我们生活的现实世界充满了远超文本的模态信息其中最为关键和丰富的便是视觉信息。为了让AI能够理解我们生活的现实世界一个必然的演进方向就是将LLM强大的语言能力与视觉信息相结合。由此多模态视觉-语言模型Vision-Language Model应运而生。它是一种能够同时理解图像或视频与文本并在这两种模态之间建立深度关联的AI大模型。它的出现突破了传统单一模态纯文本或纯视觉模型的局限使得AI第一次拥有了跨越不同模态信息进行分析理解、推理与内容生成的强大能力。在VLM的发展路径中可以观察到一个清晰的趋势从相对成熟的“多模态输入单模态输出”逐步走向更强大、更灵活的“多模态输入多模态输出”。根据这个趋势我将当今的VLM划分为三大主要类型分析型 VLM这类模型的核心功能是跨模态的分析与理解。这类模型的输入可以是文本、图片、视频或者这些的混合但输出主要是文本。它擅长看图说话或回答关于视觉内容的问题。常见的模型如 GPT-4v、Qwen2.5-VL、Gemini 2.5、Claude4 等等生成型 VLM这类模型专注于跨模态的内容生成。它们的输入同样可以是多种模态的组合但输出主要是图片或视频能根据描述创造出视觉内容。这类模型有 Midjourney、Stable Diffusion以及国内的可灵、即梦等等统一型 VLM这是VLM的终极形态它同时集合了分析和生成的能力输入和输出都可以是文本、图片、视频的任意混合实现了真正的“任意模态输入任意模态输出”。这代表了该领域最前沿的方向其典型代表正是 GPT-4o。PS过去许多媒体一直认为现在的模型都是 LLM但真正的 LLM 很少很多自训练初期就是多模态混合准确来说应该是 VLM。这也是为何各家的大模型在命名上如此混乱的原因VLM也遵循预训练—后训练的训练框架但在预训练上与 LLM 方式不同。VLM的预训练方式通常采用双 Transfomer 架构。具体来说就是用一个Transformer编码器来处理文本信息同时用另一个Transformer编码器通常是ViT架构来处理视觉信息。最后通过一个“融合模块”例如跨模态注意力机制将各自 Transfomer中提取出的语言特征和视觉特征进行深度的交互与对齐从而让模型建立起语言与视觉之间的关联。图4VLM 训练过程PART03VLAVLM的出现成功地将语言与视觉这两种关键模态联系起来赋予了AI看见并理解世界的能力。然而这种影响力在很大程度上仅局限在数字世界中模型本身无法与我们身处的现实世界进行交互。为了打破这层壁垒视觉-语言-行动模型Vision-Language-Action Model应运而生。VLA可以看作是VLM的扩展。它在视觉和语言的模态上增加了“行动”Action这个至关重要的模态。VLA以VLM强大的理解能力为基础将其对环境的感知在同一个模型内转化为可以让实体智能体如汽车、机器人执行的电气控制指令。正是这一步让AI拥有了与现实世界进行物理交互的能力。我们可以将这种架构想象成一个高度协同的生物体。在这个架构中VLM扮演着感知和推理的角色它负责理解复杂的视觉场景和人类下达的指令而“行动”Action模块则扮演着小脑的角色它接收来自大脑的决策并负责规划和生成具体的、可执行的动作序列来完成任务。以自动驾驶为例在2024年行业的主流方案倾向于分成“理解”和“规控”两个独立的系统一个强大的VLM负责进行场景理解和逻辑推理然后将它的判断数据传递给一个独立的规控模型由后者来计算并执行具体的驾驶操作。而到了2025年行业则普遍追求一个更纯粹的端到端VLA模型。这种模型期望在内部直接完成从看懂世界到操控汽车的全过程从而省去多个系统之间传递信息所带来的延迟和损耗。这个演进过程可以用一个非常生动的比喻来解释过去的VLME2E方案更像一个教练通过语言的方式指导一名新手驾驶员开车指令的下达和执行之间存在壁垒无法做到最直接的干预。而VLA则是由这位经验丰富的教练直接坐上驾驶位开车感知、决策和行动在一瞬间无缝完成。图5VLA与 VLM在自动驾驶的应用因此一个统一的VLA模型其能力理论上要高于由VLM和规控模型组成的双系统。在理想汽车第二季AI Talk中提到VLA是明确的行业方向但目前具体的技术路线尚未完全收敛整个领域仍处于积极的探索阶段。未来VLA可以通过强化学习在与物理环境的持续互动中进行自我迭代和提升以应对现实世界中无穷无尽的边缘场景这对于实现安全、可靠的具身智能至关重要。图6理想VLA训练自动驾驶具身智能体PART04端到端模型及训练所谓的端到端模型指的是从系统的最原始输入到最终输出的整个流程完全由一个统一的AI模型完成无需人为地将其拆解为多个独立的模块或设置中间步骤。这种架构摒弃了传统流水线式的复杂设计追求极致的简洁和高效。基于这个定义再回头看之前我讨论过的模型就可以进行清晰地辨析原则上LLM、VLM、VLA在其最纯粹的形态下都是典型的端到端模型。在自动驾驶例子中提到的“双系统”方案VLME2E由于它是由“理解”和“规控”两个独立模型构成的其整体架构并非端到端的。但构成这个双系统的两个独立模型其自身都是一个端到端的模型例如VLM实现了从像素到文本的端到端规控模型实现了从中间数据到控制指令的端到端。这个理念同样适用于Agent的设计。当一个Agent的架构是端到端的即一个单一模型直接负责从环境感知到动作决策的全过程我们便可以使用强化学习RL来对它进行训练。通过在环境中不断地试错和探索模型能够自主优化其行为策略例如OpenAI的Deep Research。与之相对以workflow方式编排的agent则不是端到端模型。图7端到端模型PART05端到端模型及训练在本篇笔记中我尝试梳理一条从 LLM 到具身智能的AI进化之路其最终核心是一个端到端的VLA模型。这个单一的模型原生集成了过去需要多个模型才能实现的多种核心能力认知内核 (源于LLM的能力)它拥有强大的推理、常识和语言理解能力使其能像人类一样思考和沟通。这是它的大脑。多模态感知 (源于VLM的能力)它原生具备视觉-语言的联合理解能力使其能看见并理解复杂的物理环境。这是它的眼睛。物理交互 (VLA的核心)最关键的是它能将感知和认知无缝转化为在物理世界中行动的指令使其能操作物体、与环境交互。这是它的手和脚。大脑、眼睛、手脚当所有这些能力被无缝地集成于一个统一的VLA大模型中时基于这个底座模型构建的能够与真实世界交互的具身智能体便诞生了。而驱动这个具身智能体不断进化、提升其泛化能力的最终方法正是端到端训练。尤其是通过与物理世界进行实时互动的强化学习RL让具身智能在一次次的试错和实践中变得更强大、更智能最终能够像真正的生命体一样去适应这个无穷无尽、充满变化的现实世界。## 最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

从LLM到VLM再到VLA:小白程序员必看的大模型学习路径(值得收藏!)

从LLM到VLM再到VLA:小白程序员必看的大模型学习路径(值得收藏!) 本文梳理了通用人工智能(AGI)的发展路径,从单模态大语言模型(LLM)演变为多模态视觉-语言模型&#xff08…...

2026奇点大会AIAgent控制框架深度拆解(ROS 3.0+LLM-Os融合架构首次公开,仅限首批参会者获取的SDK已泄露)

第一章:2026奇点智能技术大会:AIAgent机器人控制 2026奇点智能技术大会(https://ml-summit.org) 实时多模态指令解析架构 大会现场演示的AIAgent控制系统采用分层语义解耦设计,将自然语言指令(如“绕过障碍物,拾取红…...

【数据分析】【SQL】实战演练——从sqlzoo习题到业务场景(戴师兄风格)

1. 从sqlzoo习题到业务场景的思维转换 第一次接触sqlzoo平台时,我完全被它精巧的习题设计惊艳到了。这个平台把枯燥的SQL语法练习,包装成了探索世界数据库的冒险游戏。但真正让我开窍的,是后来在电商公司做数据分析时,突然发现那些…...

APP Inventor蓝牙APP制作:从零到一打造专属遥控器

1. 为什么选择APP Inventor制作蓝牙遥控器 最近在折腾一台自制的蓝牙小车,发现市面上的通用蓝牙调试工具根本不够用。要么功能太简单,要么界面丑得没法看。作为一个对用户体验有强迫症的人,我决定自己动手做一个专属遥控APP。经过一番调研&am…...

AI Agent岗位技术八股:高频问题与答案

这些实际上更像工程难题,公司愿意给30k月薪的原因就在这里,Agent研发不是玩具技能人,是能把玩具变成生产力的人。这环节最直接有效的策略就是跟着项目完整走一遍,如果你无从下手,趁着有大佬带队,你直接跟着…...

Topology:专业级网络拓扑图绘制与可视化解决方案

Topology:专业级网络拓扑图绘制与可视化解决方案 【免费下载链接】topology 项目地址: https://gitcode.com/gh_mirrors/top/topology 在当今复杂的网络环境中,清晰直观的网络拓扑图已成为网络工程师和运维人员不可或缺的助手。Topology作为一款…...

基于微信小程序的校园/体育馆预约系统,支持人脸识别签到+动态二维码,附前端+后端源码

获取方式:关注CSDN博客,私信回复「场馆预约」一、项目背景2026年,体育场馆、会议室、培训教室等线下场地的预约需求爆发式增长,但传统电话/线下登记方式存在信息不同步、时间冲突难排查、管理效率低三大痛点。本文手把手教你用Uni…...

抖音视频批量下载技术实战:douyin-downloader架构设计与应用指南

抖音视频批量下载技术实战:douyin-downloader架构设计与应用指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fall…...

UE5跨平台开发实录:如何用Windows电脑给Linux玩家打包游戏?

UE5跨平台开发实战:Windows环境下为Linux平台打包的完整指南 当游戏开发团队需要同时面向Windows和Linux平台发布时,如何在Windows开发环境中高效完成Linux平台的打包工作?本文将深入探讨UE5(5.3.2版本)的跨平台编译全…...

解锁多光谱图像数据集:从入门到精通的实战指南

1. 多光谱图像数据集入门指南 第一次接触多光谱数据时,我被那些五颜六色的波段图搞得晕头转向。记得当时为了搞明白WorldView-3卫星的8个波段分别代表什么,整整花了两天时间查资料。现在回头看,其实掌握多光谱数据并没有想象中那么难&#xf…...

全球太阳辐射与风力数据资源全解析:从免费到付费的五大平台对比

1. 科学数据中心:免费但有限的基础选择 科学数据中心(https://www.casdc.cn/)是国内较为知名的科研数据共享平台,主要面向学术研究领域提供气象、环境等数据服务。实测下来,它的太阳辐射数据以CSV和NetCDF格式为主&…...

从理论到实践:傅里叶变换、DFT与FFT的数学原理与代码实现

1. 傅里叶变换:从物理现象到数学表达 第一次接触傅里叶变换时,我盯着那堆积分符号看了整整一个下午。直到某天深夜调试音频处理程序时突然顿悟:原来它就像音乐的"成分分析仪"。想象你面前有杯混合果汁,傅里叶变换能告诉…...

建议收藏:机器学习与深度学习的区别是什么?如何选择研究方向?

建议收藏:机器学习与深度学习的区别是什么?如何选择研究方向? 标签:#机器学习、#深度学习、#人工智能、#计算机视觉、#自然语言处理、#数据分析、#ai ### 一、企业招聘角度拆解:机器学习 vs 深度学习,岗位…...

jmeter进行数据库读取预处理转换数组传入

Groovy 脚本实现import groovy.json.JsonOutput// 定义一个通用的转换函数:将 JDBC 变量转为数字列表 def convertJdbcToList { prefix ->def count vars.get(prefix "_#")if (count null || count.toInteger() 0) return []int n count.toInteg…...

揭秘AI Agent:不只是ChatGPT,还能自主干活的AI神器!

AI Agent是一种有目标、会思考、能自主调用工具完成任务的AI。它区别于大语言模型聊天助手,具备记忆、自主规划和行动能力。Agent类型多样,如编程、个人助理、内容生成和通用类型等。运行模式主要包括ReAct(思考行动)和Plan-and-E…...

程序员转行大模型开发:高薪风口!4大方向+90天学习路线助你月薪30K+

程序员转行到大模型开发领域,可以根据个人兴趣和职业规划选择不同的方向。以下是几个推荐的方向、推荐原因以及学习路线:1. 自然语言处理(NLP)工程师 推荐原因: NLP是AI大模型应用最广泛的领域之一,随着聊天…...

大模型 vs Agent:揭秘AI灵魂与躯体的关系,你真的懂AI吗?

文章深入解析了大模型与Agent的区别,将大模型比作“底层脑组织”,而Agent则是被塑造成特定“角色”的脑子。文章用演员与角色的比喻,阐述了同一模型可扮演不同角色。并提出了Agent的能力方程式:模型身份定义(Prompt)长期记忆(Memo…...

后端开发者的新战场:Java程序员逆袭之路,大模型开发入门指南,月薪30K+不是梦!

本文为Java程序员提供了一份详尽的大模型开发转行指南。首先介绍了大模型的概念,接着逐步引导读者学习机器学习、深度学习的基础知识,掌握TensorFlow、PyTorch等工具和框架,并提升编程和数学能力。文章强调了Java程序员在软件架构和开发流程上…...

三十五岁零基础转行成为AI大模型开发者怎么样呢?转行ai大模型

以下从3个方面帮大家分析: 35岁转行会不会太晚?零基础学习AI大模型开发能不能学会?AI大模型开发行业前景如何,学完后能不能找到好工作? 一、35岁转行会不会太晚? 35岁正处于人生的黄金时期,拥有…...

一场源码泄露事故,验证了怎样的架构设计?

本文章节选自黄佳老师的《Claude Code 工程化实战》专栏,欢迎同学们去课程中围观全文。 你好,我是黄佳。 2026年 3 月 31 日,有人发现 anthropic-ai/claude-code 的 v2.1.88 npm 包中包含了一个不该出现的文件——cli.js.map。这是一份 sour…...

【AI知识点】交叉注意力机制:从原理到实战,打通多模态信息交互的桥梁

1. 从图文问答看交叉注意力机制的魅力 想象一下这样的场景:你给AI系统展示一张照片,照片里是一只橘猫趴在键盘上睡觉,然后问它"这只猫在做什么?"。要让AI准确回答"猫在键盘上睡觉",它需要同时理解…...

金融建模新思路:如何用连续时间随机游走(CTRW)预测股价波动?

金融建模新思路:如何用连续时间随机游走(CTRW)预测股价波动? 金融市场的高频波动常让传统模型失效。2023年美股"闪电暴跌"事件中,布朗运动模型预测偏差达47%,而采用CTRW框架的机构误差控制在12%以…...

Mac微信双开

Mac微信双开 在终端输入以下命令sudo cp -R /Applications/WeChat.app /Applications/WeChat2.app修改副本的Bundle Identifier 执行以下命令,将副本标识改为唯一值sudo /usr/libexec/PlistBuddy -c “Set :CFBundleIdentifier com.tencent.xinWeChat2” /Applicati…...

告别Transformer?手把手教你用xPatch搞定时间序列预测(附代码实战)

告别Transformer?手把手教你用xPatch搞定时间序列预测(附代码实战) 当Transformer在时间序列预测任务中遭遇性能瓶颈时,工程师们往往陷入两难:是继续优化这个"庞然大物",还是寻找更轻量高效的替代…...

AgentRun:当 Serverless 与 AI Agent 结合,如何颠覆传统的舆情分析模式

在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...

LangChain如何实现Multi-Agent协作

会根据问题选择召回策略、决定是否多次搜索、过滤重复结果,还能将高价值信息回写知识图谱库。 Agentic RAG 在普通RAG(“召回-增强-生成”)基础上更具主动性: 相比自然语言回答,精准性和可复现性更高,但对执行环境要求高,需在隔…...

Nacos 安全护栏:MCP、Agent、配置全维防护,重塑 AI Registry

在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...

Nano-Banana Studio可部署方案:本地离线模型免网络依赖部署

Nano-Banana Studio可部署方案:本地离线模型免网络依赖部署 1. 为什么需要一个“衣服拆解展示台”? 你有没有遇到过这样的场景:服装设计师要向客户展示一件夹克的全部结构细节,却只能靠手绘草图或零散的局部照片;工业…...

零基础爬虫:豆包 × F12,搞定互动易投资者问答

作者: 连小白 (连享会) 邮箱: lianxhcn163.com 提要:本文介绍了一种适合零基础用户的爬取深交所互动易投资者问答数据的方法。通过结合 AI 助手(如豆包)和浏览器的 F12 开发者工具,用户无需编写复杂代码&am…...

SQL在分布式数据库中执行JOIN_数据分片与节点交互原理解析

JOIN在分片表上慢是因为默认不广播小表,而是跨节点拉取数据,导致网络请求激增、重复扫描和中间结果膨胀;需确保JOIN字段为相同分片键才能单节点执行。JOIN 在分片表上为什么慢得像卡住?因为大多数分布式数据库(比如 Ti…...