当前位置: 首页 > article >正文

边缘AI能否跟上模型演进的步伐?

模型开发速度已超越芯片设计周期边缘AI架构必须将适应性放在首位。模型更新的频率高度依赖具体应用场景并与产品生命周期和运营风险密切相关。适应性往往与功耗、性能和面积目标相冲突因此有效的异构架构和完善的软件/编译器工具链至关重要。圆桌专家观点当今的芯片架构师在为快速演进的AI模型设计高性能、高效能的AI处理器时需要应对多重挑战。Semiconductor Engineering就此议题与多位业界专家展开对话参与者包括Arm边缘AI产品管理总监Ronan Naughton、Cadence Tensilica DSP产品管理集团总监Amol Borkar、Cadence AI IP产品营销总监Jason Lawley、Expedera首席科学家兼联合创始人Sharad Chole、Silvaco旗下Mixel营销总监Justin Endo、Quadric首席营销官Steve Roddy、Rambus研究员兼杰出发明家Steven Woo博士、Siemens EDA IC验证与EDA AI产品负责人Sathishkumar Balasubramanian以及Synopsys首席产品经理Gordon Cooper。以下为对话节选点击此处查看第一部分。模型更新频率因应用而异SEAI模型移植是边缘AI处理器设计中的重要环节。在快速高效的移植过程中目标AI模型的更新频率如何芯片供应商或IP核供应商需要多快响应客户的新模型移植需求这是否因终端市场细分领域而有所不同Roddy在某些细分领域模型变化的速度正在加快。以汽车和机器人领域为例正在发生深刻变革——从多个独立模型串联的方式转向视觉语言动作VLA模型这类融合了视觉处理、语言处理与控制动作的世界模型。传统视觉处理高度依赖计算能力面对4K图像中的海量像素需要关注乘加运算MAC密度而语言模型则更关注权重的流式传输参数量可达300亿。VLA模型将两者融合对通用计算能力提出了更高要求这类模型也在快速迭代。不过并非所有场景都如此。以一款售价49美元、安装在门口用于检测快递失窃的摄像头为例用户买来安装后可能从不更新固件电池耗尽就直接更换新品。而另一端安装在路灯上用于监控交通、使用寿命长达10年的摄像头或寿命长达20年的汽车模型更新的需求就至关重要了。对于大多数主流应用而言模型的迭代速度之快甚至可能在产品出厂前就已更新。如今对灵活性的重视程度远超三年前以静态视觉任务为主的时代。Woo新模型和优化方案涌现速度之快使硬件厂商根本来不及跟上每一次模型变化。客户对此有所理解但他们同样期望在某种模型系列占据主导地位时能够快速获得更高处理速度、更大内存带宽以及一定程度的专项优化。这给芯片架构和软件性能工程师带来了压力要求他们支持快速高效的移植以提升吞吐量、降低延迟。在消费和视觉类边缘设备中响应时间窗口极短竞争优势取决于速度与准确性而在安全关键市场模型对安全性的要求极高因为一旦出错代价不可估量。NaughtonArm倡导异构AI理念AI任务可以分布在整个SoC乃至不同设备之间。以个人计算为例设想用户戴着智能眼镜走在街上眼镜通过蓝牙与手机相连。眼镜上的处理器专注于语音理解和图像分析等特定任务并针对该设备进行了深度优化而手机上的任务种类繁多、更新频繁无论是OEM自有应用还是第三方应用都难以预判。Arm的策略是保持完全可编程性以应对任何工作负载。因此不同设备、不同应用场景的模型更新频率各不相同。Balasubramanian这很大程度上取决于应用场景。在西门子负责的工厂自动化业务中汽车生产线上的边缘AI设备所处环境相对固定模型更新频率远低于自动驾驶汽车。自动驾驶需要应对大量未知场景必须尽可能实时更新模型因为这是关乎生命安全的关键任务。即使在工业场景中一旦发生未经训练的异常情况也需要具备更新模型的能力。Cooper我认同这是应用驱动的判断。从芯片研发到量产通常需要一两年时间产品还要在市场上存活5到10年因此IP必须具备一定的灵活性以应对模型变化。从CNN到大语言模型我们看到了相似的演进轨迹——先追求规模再追求效率大模型正在向小语言模型SLM演进。持续的技术迭代要求架构具备一定的灵活性但这与追求极致的低功耗、小面积、高性能之间存在固有的权衡。Borkar模型更新的速度令人叹为观止每小时甚至每分钟都可能出现新变种。与此同时市场正驱动着AI向各类产品渗透即使并非最优方案各家企业也纷纷将AI融入解决方案。对于嵌入式领域而言最大的挑战在于这不像Windows系统那样双击即可运行每天都有新的算子层涌现而我们的团队规模远不及大型GPU厂商。从硬件角度看单一的NPU或DSP难以应对所有情况通常需要NPU加CPU的异构子系统组合。从软件角度看编译器工具链同样至关重要——不仅要能将模型映射到硬件还要在直接映射不可行时提供算子仿真的应急方案。最终用户最关心的是模型能否顺畅地输入左端、得到右端结果这背后需要硬件与软件的协同配合。Chole模型变化的速度在很大程度上取决于NPU在处理流程中的位置——是靠近传感器还是靠近应用层。靠近传感器的NPU如噪声降低应用更新频率较低因为传感器的工作负载、帧率和延迟要求相对稳定而面向应用层、涉及用户交互的NPU则需要支持更多来自数据中心或学术界的新技术包括各类量化方法和模型架构优化。真正的挑战不在于支持新模型本身而在于以高性能支持新模型——某一代NPU上可用的优化技术可能并不适用于所有新模型这就形成了架构允许的变化范围与受硬件约束时模型所能发挥的收益之间的博弈。Lawley对客户而言有两类模型至关重要。一类是可以公开分享的参考模型用于验证性能另一类则是他们的核心竞争力所在——那个不能对外公开的秘密模型。这使得编译器的能力变得极为关键它必须能在无法查看模型细节的情况下将其高效映射到目标硬件。随着模型持续演进编译器跟上新网络结构和算子的能力既极具挑战性又成本高昂。IP公司的优势恰恰在于可以将软件开发成本分摊给多个客户而自研定制加速器的企业则往往在软件侧面临更大压力。Roddy这一点至关重要。没有任何下游OEM愿意依赖距离自己三层之外的IP授权商来完成新模型的移植。工具链必须足够可靠、开箱即用。无论底层架构如何软件都必须让汽车制造商的数据科学家能够直接将更新后的算法高性能地部署到目标硬件上而不是勉强能跑但只能跑在CPU上、速度降至二十分之一。这中间不能横亘十二层NDA协议。无论是工业场景中的智能体应用还是车载应用我们这些IP供应商都不能成为新模型落地的瓶颈。智能体AI带来新挑战SE随着智能体AI的蓬勃发展这股热潮如何改变了你们所观察到的工作负载类型和频率Balasubramanian围绕智能体AI我们看到一些大型企业和GPU供应商正在探索浮点精度的调整以平衡精度与内存容量之间的权衡。整体工作负载正在增加编排复杂度也在上升。边缘AI的IP是否足够灵活以适应这些变化是一个关键问题。Naughton谈及智能体AI需要区分云端智能体AI和本地/私有智能体AI两种主要形态。在云端模式中设备如手机或笔记本电脑通过API调用云端大语言模型完成任务在本地私有模式中模型运行在用户设备上可访问私人数据。在这两种场景下Arm的CPU通常承担编排器的角色——理解用户意图、分解任务、调度云端或边缘的智能体执行。在编排器层面Llama、vLLM、OpenClaw等框架更新极为频繁智能体层面的Claude、ChatGPT、Gemini Flash等也在快速迭代模型的更新周转速度相当之快。Roddy从某种角度看我们其实不需要过于担心这个问题。智能体AI最令人振奋的地方在于它代表着推理需求的一次跃升——从此前由人类行为触发的零散推理请求转变为全天候7×24小时持续运行的工作负载。以工厂监控为例如果一千台设备每天向云端发送数十万次查询每日的Token消耗费用将高达数万美元根本不可持续。因此小语言模型SLM、VLA等必须完全在本地自给自足地运行边缘设备也需要配备更强的算力、更大的内存仅在出现异常时才回传云端。这将深刻改变整个架构格局——总体Token需求将呈爆炸式增长数据中心和边缘设备都将面临饱和压力。Woo智能体AI带来的不仅仅是更多推理请求更是长期运行、持续积累上下文的工作负载。这将硬件设计的重点从短期、瞬时处理转向对持续效率、数据移动、可靠性和功耗管理的更高要求。随着智能体之间相互通信单个工作负载将被放大内存容量和带宽需求也随之增长。这推动芯片架构向更紧密的集成和更智能的内存分层管理方向演进而不仅仅是提升计算能力。Chole智能体AI工作负载的Token量非常庞大这里需要拆开来看。过去两三年随着大模型规模不断扩大微调的收益已逐渐不如提示词工程。如今一个精心设计的系统提示可以带来远超微调的准确性提升——但代价是系统提示从过去的几千Token膨胀到两三万Token。更重要的是随着大语言模型对复杂任务的理解能力大幅提升用户可以用更简短的描述表达复杂意图这反而使得输出的Token量大幅增加——从过去的一两千Token扩展到如今的数万Token。这直接决定了应用应该运行在什么位置。我并不确定重度智能体应用适合部署在边缘让手机跑两个小时才给出答案显然不现实。作为行业我们需要认真思考哪类智能体适合在边缘运行并在隐私敏感性与延迟敏感性之间找到平衡。Cooper从NPU的视角来看智能体AI更像是一个系统级问题。关键在于NPU能否在传统感知AI处理传感器输入和以大语言模型、VLA为代表的内存密集型计算之间灵活切换。客户并不会直接问你的NPU能跑智能体AI吗他们更关心的是每秒能生成多少Token或能否高效运行这些特定模型。智能体AI的性能评估更多是一个系统层面的问题而非单一NPU的指标。Lawley如果你认为自己已经完全理解智能体AI将如何在边缘落地那很可能说明你还没真正理解它。这将是推理在边缘演进的下一个重大跃变。但无论如何演变最终都会回归到三个核心问题消耗多少功耗需要多大的数据移动量需要多强的计算能力QAQ1边缘AI处理器的模型更新频率取决于哪些因素A边缘AI的模型更新频率主要取决于应用场景和产品生命周期。例如固定环境的工厂自动化设备更新频率较低而自动驾驶汽车、智能手机等产品因需应对复杂多变的场景更新极为频繁甚至可能在产品出厂前就已完成多次迭代。产品使用寿命越长、应用越复杂对模型灵活更新的需求就越高。Q2为什么说编译器工具链对边缘AI芯片至关重要A编译器工具链是连接AI模型与硬件的关键桥梁。由于客户最核心的模型往往无法对外公开编译器必须在无法直接查看模型的情况下将其高效映射到目标硬件。随着模型架构和算子持续演进编译器能否跟上这种变化直接决定了IP产品的竞争力。IP公司可以将软件开发成本分摊给多个客户这是相对于自研定制加速器的重要优势。Q3智能体AI对边缘设备的硬件架构有哪些新要求A智能体AI将推理需求从偶发性请求转变为全天候持续工作负载边缘设备需要配备更强算力、更大内存并具备高效的数据移动能力。同时工作负载向长期运行、深度上下文积累演进对持续效率、功耗管理和可靠性提出了更高要求。由于将海量推理请求全部回传云端的成本过高边缘设备需具备本地自主处理能力仅在异常情况下才与云端交互。

相关文章:

边缘AI能否跟上模型演进的步伐?

模型开发速度已超越芯片设计周期,边缘AI架构必须将适应性放在首位。模型更新的频率高度依赖具体应用场景,并与产品生命周期和运营风险密切相关。适应性往往与功耗、性能和面积目标相冲突,因此有效的异构架构和完善的软件/编译器工具链至关重要…...

Quaid:为AI智能体构建持久记忆层,解决上下文遗忘难题

1. 项目概述:为AI智能体构建持久记忆层如果你和我一样,深度依赖AI编程助手来完成日常开发工作,那么你一定遇到过这个令人头疼的场景:你花了大半个小时,向助手详细解释了当前项目的架构、你个人的编码偏好、刚刚修复的那…...

Blender 3MF插件完整指南:如何在Blender中直接处理3D打印文件

Blender 3MF插件完整指南:如何在Blender中直接处理3D打印文件 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat 你是否厌倦了在Blender和3D打印软件之间来回切换…...

NeuroRebuild™神经重构技术白皮书——赋能港口动态目标全维度空间还原

NeuroRebuild™神经重构技术白皮书——赋能港口动态目标全维度空间还原 副标题:突破遮挡、弱光感知瓶颈,树立智慧港口复杂场景智能感知新标杆 前言 港口作为高动态、强遮挡、多干扰的复杂作业场景,人员、集卡、AGV、集装箱、船舶等目标…...

Windows右键菜单管理终极指南:ContextMenuManager高效解决方案

Windows右键菜单管理终极指南:ContextMenuManager高效解决方案 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager 你是否曾被Windows右键菜单中数十个杂…...

DownKyi终极指南:5步掌握B站视频批量下载与高清保存技巧

DownKyi终极指南:5步掌握B站视频批量下载与高清保存技巧 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等&…...

3分钟上手G-Helper:释放华硕笔记本潜能的轻量级神器

3分钟上手G-Helper:释放华硕笔记本潜能的轻量级神器 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expe…...

AIDD开源框架harness:模块化设计加速AI药物发现全流程

1. 项目概述:当药物研发遇上AI,一个开源框架的诞生在生物医药领域,药物研发一直是一项周期漫长、成本高昂且充满不确定性的“探险”。从靶点发现到最终上市,平均需要超过10年时间和数十亿美元的投入,而失败率却高得惊人…...

基于Vue 3与File System API构建本地Markdown知识库管理器

1. 项目概述:一个Markdown文件管理器的诞生如果你和我一样,是一个重度依赖Markdown来记录工作、整理知识、撰写文档的开发者或内容创作者,那么你一定遇到过这样的困境:随着时间推移,电脑里散落着成百上千个.md文件。它…...

3步实现高效B站视频转文字的智能解决方案

3步实现高效B站视频转文字的智能解决方案 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 在信息爆炸的时代,视频已成为知识传播的主流媒介。B站作…...

当音乐挣脱枷锁:用ncmToMp3重获你的音乐主权

当音乐挣脱枷锁:用ncmToMp3重获你的音乐主权 【免费下载链接】ncmToMp3 网易云vip的ncm文件转mp3/flac - ncm file to mp3 or flac 项目地址: https://gitcode.com/gh_mirrors/nc/ncmToMp3 你是否曾为网易云VIP下载的NCM加密音乐文件而烦恼?它们被…...

解决Conda环境创建中的下载超时问题

引言 在使用Bash脚本创建Conda环境时,经常会遇到下载超时的问题,特别是当你需要下载大量包或者网络连接不稳定时。这种问题不仅影响开发效率,还可能导致整个项目进展的延迟。今天,我们将探讨如何解决这种问题,并通过实…...

Ruby on Rails的魔法:理解redirect_to的奥秘

在Ruby on Rails框架中,redirect_to是开发者常用的一个方法,它能够实现页面重定向,帮助用户在操作后导航到新的页面或资源。然而,对于初学者来说,这个方法似乎带着一丝“魔法”,特别是当我们看到如redirect_to @article这样的代码时。这篇博客将详细探讨Rails中redirect_…...

终极免费游戏串流指南:Sunshine自托管服务器完整部署教程

终极免费游戏串流指南:Sunshine自托管服务器完整部署教程 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine Sunshine是一个开源的自托管游戏串流服务器,专为M…...

ARM GIC中断配置与同步机制深度解析

1. ARM GIC中断配置机制解析GIC(Generic Interrupt Controller)作为ARM架构中的中断控制器核心组件,其配置机制直接影响系统中断处理的实时性和可靠性。在GICv5架构中,中断配置主要涉及以下几个关键方面:1.1 中断配置的原子性保证GIC通过特定…...

Seraphine:英雄联盟玩家的智能数据助手与BP自动化工具

Seraphine:英雄联盟玩家的智能数据助手与BP自动化工具 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 你还在为每次进入游戏前手动查询队友对手战绩而烦恼吗?还在为BP阶段的手忙脚乱而…...

量子卷积与块编码技术解析及应用

1. 量子卷积与块编码基础解析量子卷积运算在量子计算领域扮演着基础性角色,其核心思想是将经典离散卷积运算移植到量子计算框架中。传统卷积运算在信号处理中表现为对输入信号与卷积核的加权叠加操作,而在量子版本中,这一过程通过酉算子的线性…...

非线性状态空间模型的并行化与优化实践

1. 非线性状态空间模型的并行化挑战非线性状态空间模型(Nonlinear State Space Models, nSSMs)是时间序列分析和递归神经网络(RNN)中的核心工具,广泛应用于计算神经科学、金融预测和自然语言处理等领域。传统上&#x…...

CANN/metadef自动映射函数

AutoMappingFn 【免费下载链接】metadef Ascend Metadata Definition 项目地址: https://gitcode.com/cann/metadef 函数功能 自动映射回调函数。 函数原型 Status AutoMappingFn(const google::protobuf::Message *op_src, ge::Operator &op)参数说明 参数 输入…...

MiGPT小爱音箱AI改造:5分钟打造专属智能语音助手终极指南

MiGPT小爱音箱AI改造:5分钟打造专属智能语音助手终极指南 【免费下载链接】mi-gpt 🏠 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 想让你的小爱音箱摆脱"…...

ARM活动监视器(AMU)架构解析与性能监控实践

1. ARM活动监视器架构概述在ARMv8/v9架构中,活动监视器(Activity Monitors)是一组用于性能监控的硬件计数器,它们能够精确记录处理器执行过程中的各类微架构事件。作为性能分析子系统(PMU)的核心组件,AMU通过非侵入式的方式为开发者提供芯片级…...

3分钟学会用LeaguePrank安全美化英雄联盟客户端界面

3分钟学会用LeaguePrank安全美化英雄联盟客户端界面 【免费下载链接】LeaguePrank 项目地址: https://gitcode.com/gh_mirrors/le/LeaguePrank 还在羡慕别人华丽的英雄联盟个人主页吗?想要展示自己心仪的段位却苦于官方限制?LeaguePrank就是你一…...

ATCA与CPCI桥接技术:StarFabric在工业通信中的应用

1. 工业标准架构的演进与挑战在电信设备和工业控制领域,AdvancedTCA(ATCA)和CompactPCI(CPCI)代表着两代不同的技术标准。ATCA作为PICMG 3.x系列规范的最新成果,其8U280mm的板卡尺寸比传统CPCI的6U160mm提供…...

代码注释翻译工具ccmate:提升多语言代码库可读性的工程实践

1. 项目概述与核心价值最近在折腾一个多语言代码库的文档化工作,团队里不同成员用不同语言写的工具和库散落在各处,想统一生成一份清晰的中文文档,方便后续维护和团队协作。手动翻译和整理显然不现实,效率太低且容易出错。就在这个…...

CANN/ge Tiling下沉特性分析

Tiling 下沉(Tiling Sink)特性分析 【免费下载链接】ge GE(Graph Engine)是面向昇腾的图编译器和执行器,提供了计算图优化、多流并行、内存复用和模型下沉等技术手段,加速模型执行效率,减少模型…...

智能体任务编排实战:基于DAG的自动化流程与生产级部署指南

1. 项目概述:从“Agent-Task”看智能体任务编排的实战价值最近在开源社区里,KwokKwok/agent-task 这个项目引起了我的注意。乍一看名字,你可能会觉得它又是一个关于AI智能体(Agent)的通用框架,但深入探究后…...

实时音频共振抑制算法Resonix-AG:原理、部署与优化实践

1. 项目概述与核心价值最近在音频处理圈子里,一个名为“Resonix-AG”的项目引起了我的注意。这个项目源自GitHub上的一个仓库mangiapanejohn-dev/Resonix-AG,乍一看名字,可能很多人会联想到音频共振或声学处理。没错,这正是它的核…...

Page Assist:5分钟快速上手,让本地AI模型成为你的网页助手

Page Assist:5分钟快速上手,让本地AI模型成为你的网页助手 【免费下载链接】page-assist Use your locally running AI models to assist you in your web browsing 项目地址: https://gitcode.com/GitHub_Trending/pa/page-assist Page Assist是…...

使用Mergoo开源库实现LLM专家混合:原理、配置与实战指南

1. 项目概述:Mergoo,一个专为LLM专家融合而生的开源库在大型语言模型(LLM)的微调与应用实践中,我们常常面临一个经典困境:是训练一个“通才”模型来应对所有任务,还是为每个特定领域&#xff08…...

CUDA内核内存安全验证:挑战与Model2Kernel解决方案

1. CUDA内核内存安全验证的挑战与现状在GPU加速计算领域,CUDA内核作为并行计算的核心单元,其内存安全问题直接影响着计算任务的正确性和系统稳定性。特别是在大型语言模型(LLM)推理场景中,CUDA内核需要处理动态变化的张…...