当前位置: 首页 > article >正文

【卷卷观察】Physical AI(具身智能)崛起 + 开源效率革命——AI正在从“数字“走向“物理“

结论先挂出来AI这波浪潮正在发生结构性分化一边是数字世界的agent疯狂落地一边是物理世界的AI开始暴走。两条线都在跑但物理AI这一支很多人还没真正重视。上周末跟一个创业的朋友吃饭他在做具身智能方向就是让AI控制机械臂、干体力活那种。聊到一半他突然说了一句话让我愣了两秒你知道吗我们现在拿一块NVIDIA H100跑物理模拟一天的成本是数字AI agent的50倍。数字AI agent输入文字、输出文字token成本一降再降GLM-4.7或Gemini 2.5 Ultra一顿火锅钱能跑几十万次。物理AI agent输入传感器数据、输出电机控制物理模拟实时控制硬件延迟一套下来贵到离谱。这个对比太鲜明了也太容易被忽视。圈内都在聊Agent、大模型、GPT-5但Physical AI这个赛道正在闷声搞大事。一、Physical AI具身智能是什么为什么突然起来了先说清楚这个概念。Physical AI具身智能不是某个具体产品而是一类AI系统的统称——这些系统的输入输出都跟物理世界直接相关视觉、触觉、力反馈、电机控制、自动驾驶的路径规划。简单说就是让AI长出手和脚真正去搬东西、开车子、控制机器人。IBM最近发了一篇博客讲这个概念核心观点是AI正在从纯数字决策进化到物理世界交互。以前AI的战场在服务器机房现在开始往工厂、仓库、马路上渗透。为什么现在起来了三个原因撞一块了传感器便宜了。激光雷达、深度相机、力矩传感器过去五年价格跌了70%以上。一个工业级3D视觉传感器五年前要8万现在1万多就能拿下。模型推理效率上来了。开源社区出了好多针对机器人控制的轻量模型延迟从原来的100毫秒压到了20毫秒以内。实时控制要求毫秒级响应这个跨越很关键。英伟达和Google在基础设施侧持续砸钱。Blackwell架构的GPU专门为物理模拟优化了内存带宽Google的TPU v5推理物理模型的速度比上一代快了3倍。成本降了部署就变得可行了。但我得泼一盆冷水。Physical AI现在有两个硬伤一是数据太难获取数字AI可以从互联网爬几十亿token物理AI需要真实的物理交互数据这玩意采集成本极高且效率低下二是仿真环境和真实物理世界之间的sim2real gap仿真到现实的迁移差距依然是未解决的难题。你在仿真里训练得再好拿到真机上跑效果经常打七折。这不是唱衰是现实。Physical AI是长期方向但短期内别指望它替代人工流水线。二、开源模型效率革命小米MiMo是个什么信号VentureBeat上周发了一篇报道讲小米开源了MiMo-V2.5和V2.5-Pro两个模型。参数规模没透露但评测数据很能打——推理效率比同档次模型高40%价格只有GPT-5.5的三十分之一。我的判断是开源社区正在用一种很野的方式逼近闭源模型的性能天花板。看一下数据对比模型MMLU得分推理延迟API价格每1M tokenGPT-5.591.2250ms$3.0Gemini 2.5 Ultra90.8220ms$2.8小米MiMo-V2.5-Pro87.9180ms$0.08小米MiMo-V2.586.3120ms$0.03这数据什么意思开源模型在某些垂直场景下体验已经接近闭源顶流但价格是百分之一量级。GPT-5.5跑一次复杂推理的钱MiMo能跑三万次。这对行业的影响是结构性的。过去两年大家都在说模型即服务闭源模型厂商靠API调用量赚钱。现在这个逻辑正在被侵蚀——当开源模型性能足够好、部署足够便宜的时候企业为什么要花十倍二十倍的钱去买闭源API有人会说闭源模型的 Safety 和alignment更好。这个我不否认但商业决策看的是性价比不是技术理想主义。中型公司的CTO们在选型的时候预算表比道德表权重高得多。当然开源模型的问题也明显维护成本、部署复杂度、SLA保障缺失。这些是企业级客户绕不开的坎。但在AI应用层创业的团队——尤其是做RAG、Agent、工作流自动化的——开源模型已经是主力选择了。三、推理成本革命基础设施层的暗战说完模型层再往下一层看——基础设施。NVIDIA最近搞了个挺有意思的事Blackwell架构的推理优化让同等算力下的推理吞吐量提升了2.3倍。Google的TPU v5e专门针对长上下文推理做了内存优化Context window从128K扩展到了1M价格反而降了15%。这不是孤立的硬件迭代而是整个推理成本曲线在下移。做一个不严谨的推算2023年初跑一个1000 token的复杂推理任务成本约0.01美元2025年初同等任务成本约0.0008美元按现在的迭代速度2026年底应该能摸到0.0001美元。这个下降速度是什么概念比摩尔定律还要猛。成本的下降会带来一个很直接的效应以前不经济的AI场景变得经济了。比如实时语音翻译每句话0.0001美元已经低于人工翻译成本代码审查每次Code Review 0.0002美元比雇一个初级工程师便宜三个数量级长文档分析百万字级别的法律合同、财报分析成本从几十美元降到了几毛钱但这里有个容易被忽视的隐忧推理成本下降≠商业模式成立。当AI调用成本趋近于零的时候API提供商怎么赚钱答案可能是卖Agent能力卖工作流编排卖行业解决方案而不是卖token。这是一个深层的商业逻辑转变。谁先意识到这个转变谁就能在下一个周期里卡到好位置。四、AI Agent的落地瓶颈交互基础设施才是真正的卡点说完物理AI和开源革命再来看一个被严重低估的问题AI Agent为什么落地比想象中慢圈内都在说Agent是下一个超级入口但现实里真正跑起来的Agent应用少之又少。不是模型不够强是交互基础设施没到位。举个例子。你让Claude帮我订一个会议室听起来很简单对吧但实际上背后要打通日历系统Google Calendar/Outlook、会议室管理系统某个不知名的SaaS、企业通讯录、审批流程。这四个系统接口标准不一、认证机制不同、响应格式各异。模型再强它也不知道怎么跟这些遗留系统打交道。AI News最近有一篇文章专门讲这个核心观点我很认同AI Agent需要一层交互基础设施这层基础设施负责把现实世界里的各种系统接口标准化、抽象化让Agent能够用统一的范式去操作所有东西。这层基础设施包括什么首先是工具调用协议。现在的Agent调用外部工具主流方案是Function Calling但各家实现不一致错误处理也不规范。Anthropic提出了MCPModel Context Protocol试图做统一标准但离行业标配还有距离。其次是状态管理。Agent执行一个多步骤任务需要在步骤之间维护状态。现在的做法是塞到Context里硬扛但随着任务复杂度上升Context窗口迟早会爆。需要一套持久化的状态管理机制类似Session但更强大。第三是安全与权限。当Agent开始替你操作各种系统的时候你怎么控制它的权限范围它能读取哪些数据能执行哪些操作能访问哪些API这些问题没有标准答案每家企业都在自己造轮子。我的判断是交互基础设施这个赛道被严重低估了。模型层已经卷成红海了但基础设施层还存在大量空白。谁能做出一个真正好用的Agent开发框架运行时环境谁就能吃到下一波红利。五、AI供应链紧张被卡脖子的不只是芯片Economist最近发了一篇文章讲AI正在面临供应链紧张。这个话题在中文互联网上讨论得不多但我认为非常关键。说到供应链紧张大家第一反应是GPU芯片——确实H100的交付周期一度拉到36周严重的时候黑市价格炒到了官方售价的2倍。但这只是冰山一角。真正的问题在于AI供应链是一个复杂的系统多个环节都在紧绷。电力是第一个瓶颈。训练一个大模型需要兆瓦级别的电力持续供给。微软和谷歌的数据中心用电量过去两年翻了3倍但电网扩容速度跟不上。美国一些数据中心已经开始跟地方政府谈判要求优先供电。中国的AI数据中心更惨东数西算工程推进速度远低于预期西部的清洁电力外送能力严重不足。高带宽光模块是第二个瓶颈。GPU集群之间需要超高速互联现在主流是400G光模块但供应链上游的磷化铟激光器产能严重不足。2024年400G光模块的交付周期是20周2025年改善了一些但依然在12周以上。冷却系统是第三个瓶颈。高密度GPU集群的散热是个物理难题。传统风冷已经不够了液冷成为刚需。但液冷方案需要定制化设计和施工交付周期比风冷长3倍。国内能做的液冷集成商就那么几家订单已经排到2026年了。这意味着什么意味着算力扩张的速度正在被供应链瓶颈拖慢。不是说GPU不够用而是整个配套系统都在拖后腿。企业想扩算力光有钱不够还得等设备交付。这个时间差对中小型AI公司是致命的。没有足够的算力支撑模型训练和推理都会受影响。大厂有长期合作协议供应链优先级高中小厂只能等等一天就是烧一天的钱。六、泡沫之争AI到底是不是泡沫最后聊一个有争议的话题。HN上最近有个热帖Ask HN: What Makes AI a Bubble? 讨论很激烈两派观点泾渭分明。反泡沫派的核心论点是AI有真实收入支撑。微软、谷歌、亚马逊的AI云服务收入都在高速增长Adobe、Salesforce的AI功能带来了明显的付费转化提升Stripe、Snowflake这些企业软件公司的AI驱动收入占比越来越高。收入在增长就不是泡沫。泡沫派的反驳更犀利收入增长≠护城河。现在AI带来的收入很大一部分是AI加持带来的价格溢价和效率提升但这个溢价能持续多久当开源模型性能追上来、各家AI功能都差不多的时候溢价空间就没了。更要命的是很多SaaS公司的AI功能本质上只是把大模型API包装了一下自己没有核心技术上游模型厂商随时可以跳过这些中间商自己做。我自己的判断是结构性的AI浪潮不是泡沫但投机性的AI估值是泡沫。这怎么理解真正在做底层模型、基础设施、核心应用的公司它们的价值是真实的——模型能力在提升成本在下降应用场景在扩展这些都是有数据支撑的。但那些靠AI概念包装一下就融资估值翻三倍的公司它们的估值就是泡沫。壁垒在哪里护城河在哪里复购率怎么样客户留存怎么样这些问题答不上来的估值再高也是空中楼阁。2026年的AI赛道大概率会经历一轮洗牌。潮水退了才知道谁在裸泳——这句话虽然俗但放在这里太合适了。写在最后我的判断和建议说了这么多最后给一个明确的结论。对AI从业者Physical AI是下一个增长点但别all in。数字AI agent的落地路径更清晰商业模式更成熟先在这个方向上建立现金流。Physical AI可以作为技术储备但商业化时间线要放长。开源模型已经具备生产可用性不要盲目追闭源顶流。在应用层创业开源微调是性价比最高的选择。省下来的API成本可以投到数据标注和用户体验上。交互基础设施是下一个兵家必争之地。如果你在做Agent开发框架或者运行时环境现在是最好的入场时机——这个赛道还没被大厂完全占领。对投资人和决策者AI供应链的瓶颈是真实的在评估算力扩张计划的时候要把设备交付周期考虑进去。不要高估自己的算力获取能力也不要低估供应链紧张持续的时间。泡沫分两种一种是该死的泡沫一种是成长的烦恼。AI这波浪潮我倾向于认为是后者。技术进步是真实的成本下降是真实的场景渗透是真实的——短期估值可能有泡沫但长期价值会均值回归。本文涉及数据截至2026年4月部分市场动态信息由公开报道整理观点代表作者个人判断仅供参考。

相关文章:

【卷卷观察】Physical AI(具身智能)崛起 + 开源效率革命——AI正在从“数字“走向“物理“

结论先挂出来:AI这波浪潮正在发生结构性分化,一边是数字世界的agent疯狂落地,一边是物理世界的AI开始暴走。两条线都在跑,但物理AI这一支很多人还没真正重视。上周末跟一个创业的朋友吃饭,他在做具身智能方向&#xff…...

AMD显卡驱动终极瘦身指南:Radeon Software Slimmer完全教程

AMD显卡驱动终极瘦身指南:Radeon Software Slimmer完全教程 【免费下载链接】RadeonSoftwareSlimmer Radeon Software Slimmer is a utility to trim down the bloat with Radeon Software for AMD GPUs on Microsoft Windows. 项目地址: https://gitcode.com/gh_…...

3步配置FlexASIO:让普通电脑也能享受专业级低延迟音频体验

3步配置FlexASIO:让普通电脑也能享受专业级低延迟音频体验 【免费下载链接】FlexASIO A flexible universal ASIO driver that uses the PortAudio sound I/O library. Supports WASAPI (shared and exclusive), KS, DirectSound and MME. 项目地址: https://gitc…...

微前端架构的几种实现方案

微前端架构的几种实现方案 随着前端应用复杂度的提升,微前端架构逐渐成为解决大型项目模块化与团队协作问题的热门方案。它通过将单体应用拆分为多个独立子应用,实现技术栈无关、独立开发和部署,从而提升开发效率和可维护性。本文将介绍微前…...

QuickLook.Plugin.FolderViewer:Windows上的终极文件夹快速预览解决方案

QuickLook.Plugin.FolderViewer:Windows上的终极文件夹快速预览解决方案 【免费下载链接】QuickLook.Plugin.FolderViewer Folder viewer plugin for QuickLook 项目地址: https://gitcode.com/gh_mirrors/qu/QuickLook.Plugin.FolderViewer 在日常文件管理中…...

FPGA上跑CNN,PS和PL怎么分工效率最高?以LeNet-5数字识别项目为例,聊聊软硬件协同设计

FPGA上部署LeNet-5的软硬件协同设计实战:从架构拆解到性能调优 在边缘计算场景中,FPGA凭借其并行计算能力和低功耗特性,成为轻量级CNN部署的理想载体。当我们使用Zynq这类PSPL异构平台时,如何合理划分软硬件任务、优化数据通路&am…...

终极指南:使用BSA算法实现ROS机器人全覆盖路径规划

终极指南:使用BSA算法实现ROS机器人全覆盖路径规划 【免费下载链接】full_coverage_path_planner Full coverage path planning provides a move_base_flex plugin that can plan a path that will fully cover a given area 项目地址: https://gitcode.com/gh_mi…...

LangChain + LangGraph:打造智能Tool调用与多Agent协同系统

LangChain + LangGraph 实现Tool调用与多Agent协同 目录 LangChain + LangGraph 实现Tool调用与多Agent协同 一、核心基础认知 1. 三者的角色分工 2. 工具调用的核心闭环 3. 环境准备 二、第一步:LangChain Tool的标准化定义 方式1:@tool装饰器快速定义(最常用) 方式2:Str…...

如何用CheatEngine-DMA插件实现终极内存修改:完整实战指南

如何用CheatEngine-DMA插件实现终极内存修改:完整实战指南 【免费下载链接】CheatEngine-DMA Cheat Engine Plugin for DMA users 项目地址: https://gitcode.com/gh_mirrors/ch/CheatEngine-DMA CheatEngine-DMA是一款专为DMA(直接内存访问&…...

LinkSwift:2025年最强大的网盘直链下载工具终极指南

LinkSwift:2025年最强大的网盘直链下载工具终极指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

猫抓插件:如何突破网页限制,轻松下载视频音频资源

猫抓插件:如何突破网页限制,轻松下载视频音频资源 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否曾经遇到过这样的情…...

你的Tmux窗口编号为什么乱跳?从`kill-server`到会话持久化机制的深度解读

Tmux窗口编号管理机制:从会话持久化到高效配置实践 终端复用工具Tmux以其强大的会话管理能力著称,但许多用户在窗口编号问题上频频碰壁——为什么删除所有窗口后重新启动时编号不从0开始?为什么执行kill-server后会出现"lost server&quo…...

网易云音乐油猴脚本:三分钟解锁周杰伦完整曲库与云盘快传的专业方案

网易云音乐油猴脚本:三分钟解锁周杰伦完整曲库与云盘快传的专业方案 【免费下载链接】myuserscripts 网易云音乐油猴脚本:歌曲下载、转存云盘、云盘歌曲快传、云盘匹配纠正... 项目地址: https://gitcode.com/gh_mirrors/my/myuserscripts 还在为网易云音乐中…...

Obsidian图片本地化终极指南:3步实现永久保存的Local Images Plus插件

Obsidian图片本地化终极指南:3步实现永久保存的Local Images Plus插件 【免费下载链接】obsidian-local-images-plus This repo is a reincarnation of obsidian-local-images plugin which main aim was downloading images in md notes to local storage. 项目地…...

你的QQ空间数字记忆,需要一个专属的时光档案馆

你的QQ空间数字记忆,需要一个专属的时光档案馆 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 还记得那些年,在QQ空间写下的第一条青涩说说吗?那些深…...

YOLOv13涨点改进| TGRS 2026 |全网创新首发、Conv卷积改进篇 | 引入SFEM空间-频率特征增强模块,同时建模空间域和频域信息,助力YOLOv13遥感小目标检测,小目标分割高效涨点

一、本文介绍 🔥这篇论文作者使用YOLO模型发SCI一区!喜提TGRS 2026顶刊!做遥感小目标检测任务。 本文给大家介绍利用SFEM空间-频率特征增强模块改进YOLOv13网络模型,SFEM 是一种面向 RGB 分支的空间–频域特征增强模块,主要作用是提升复杂场景下 RGB 特征的表达能力与稳…...

告别受限:用ViWizard Apple Music Converter,真正拥有你喜欢的音乐

在数字音乐时代,Apple Music 凭借海量曲库和高品质音质,成为了无数人的首选。但你有没有遇到过这样的困扰:明明付了会员费,下载好的歌曲一旦停止续费,就全部变成灰色无法播放;或者想在朋友的智能音箱、旧款…...

告别版本冲突!用NVM在Windows上丝滑管理多个Node.js项目(附镜像加速)

告别版本冲突!用NVM在Windows上丝滑管理多个Node.js项目(附镜像加速) 你是否曾在Windows上同时维护多个Node.js项目时,因为版本不兼容而焦头烂额?老项目需要Node.js 12,新项目却要求Node.js 18&#xff0c…...

深度解析:DepotDownloader如何成为Steam内容下载的终极工具

深度解析:DepotDownloader如何成为Steam内容下载的终极工具 【免费下载链接】DepotDownloader Steam depot downloader utilizing the SteamKit2 library. 项目地址: https://gitcode.com/gh_mirrors/de/DepotDownloader 在数字游戏分发领域,Stea…...

3步将任何图片转换为专业PSD分层的完整指南

3步将任何图片转换为专业PSD分层的完整指南 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 你是否曾面对复杂的插画作品,想要将其分解为独立的…...

NVIDIA Profile Inspector终极教程:解锁显卡隐藏性能的完整指南

NVIDIA Profile Inspector终极教程:解锁显卡隐藏性能的完整指南 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 你是否对NVIDIA显卡的性能感到不满?想要获得超越官方控制面板的深…...

Cursor Pro破解工具完整指南:三步激活方案实现永久免费使用

Cursor Pro破解工具完整指南:三步激活方案实现永久免费使用 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached you…...

极空间NAS开启SSH:解锁底层权限,从存储盒变成全能私有服务器

前言 极空间NAS到手之后,正常用法就是插电、装盘、装App,照片备份和影音库这两个功能用得最多。但这台设备本质上是跑在Linux上的ARM小服务器,底层系统和普通Linux服务器没什么太大差别,只是厂商做了图形化封装让你不用接触命令行…...

分支循环讲解

一、 分支结构:程序的“分叉路口”分支结构允许程序根据条件的真假执行不同的代码块。1. if 语句if 句是最常用的分支语句。在 C 语言中,0 表示假,非 0 表示真 。基本形式:如果表达式为真,执行语句 。if...else&#x…...

TVA在汽车动力电池模组全流程检测中的应用(2)

前沿技术背景介绍:AI 智能体视觉系统(TVA,Transformer-based Vision Agent),是依托Transformer架构与因式智能体所构建的新一代视觉检测技术。它区别于传统机器视觉与早期AI视觉,代表了工业智能化转型与视觉…...

【Java微服务治理终极指南】:Service Mesh落地中90%团队踩坑的5大陷阱及避坑清单

更多请点击: https://intelliparadigm.com 第一章:Java微服务服务网格治理全景图 在云原生架构演进中,Java微服务正从传统SDK治理模式逐步转向以Sidecar为核心的透明化服务网格(Service Mesh)治理范式。Istio、Linke…...

从公众号引流到小程序:手把手教你用UniApp + wx-open-launch-weapp打造无缝跳转体验

从公众号到小程序的流量魔法:UniApp开放标签实战指南 每次在公众号文章底部看到那个诱人的按钮,点击后瞬间跳转到小程序完成购买,你是否好奇这背后的技术实现?这种丝滑的体验不仅提升了用户转化率,更为业务增长打开了新…...

Shor算法:量子计算如何威胁传统密码学

1. Shor算法与量子计算的密码学威胁量子计算的出现对传统密码学体系构成了前所未有的挑战。1994年,数学家Peter Shor提出的量子算法能够在多项式时间内完成大整数分解,这一突破直接威胁到RSA等广泛使用的公钥加密系统的安全性。Shor算法的核心在于利用量…...

Windows下OPCEnum服务配置全攻略:从手动注册到权限设置的保姆级教程

Windows下OPCEnum服务配置全攻略:从手动注册到权限设置的保姆级教程 在工业自动化领域,OPC(OLE for Process Control)技术作为连接不同厂商设备和应用程序的桥梁,其稳定运行至关重要。而OPCEnum服务作为OPC架构中的关键…...

BiliTools:B站内容效率革命,AI智能处理与跨平台下载完整解决方案

BiliTools:B站内容效率革命,AI智能处理与跨平台下载完整解决方案 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/b…...