当前位置：首页 > article >正文

LLMCompiler：大语言模型并行函数调用编译器原理与实践

article 2026/5/10 1:07:01

1. 项目概述一个为LLM设计的“并行函数调用编译器”如果你正在构建基于大语言模型LLM的智能体应用并且被工具调用Function Calling的串行延迟和高昂成本所困扰那么LLMCompiler这个项目值得你花时间深入了解。简单来说它就像是一个为LLM设计的“编译器”或“调度器”核心目标是将一个复杂的用户查询自动分解成多个可以并行执行的任务从而大幅降低整体响应时间并节省API调用成本。这不仅仅是简单的“多线程”调用其背后是一套完整的、基于LLM自身推理能力的规划与编排逻辑。传统的ReAct或类似链式思维Chain-of-Thought的代理框架在处理需要调用多个外部工具如搜索、计算、查数据库的复杂问题时通常是顺序执行的思考一步调用一个工具等待结果再思考下一步。这种模式存在明显的效率瓶颈尤其是当某些工具调用之间没有依赖关系时顺序等待就造成了不必要的延迟。LLMCompiler的创新之处在于它引导LLM在规划阶段就识别出任务之间的依赖图DAG将独立的函数调用并行发射出去最后再整合结果。根据其论文数据在多个基准测试上它能实现显著的延迟降低、成本节省和准确率提升。2. 核心架构与工作原理拆解要理解LLMCompiler的价值我们需要先拆解它的工作流程。它并非一个全新的底层模型而是一个构建在现有LLM之上的编排框架。其核心思想借鉴了编译器的设计将高级语言用户自然语言查询编译成优化后的低级指令序列并行函数调用计划。2.1 三阶段执行流水线LLMCompiler的架构主要分为三个核心单元它们协同工作形成一个高效的流水线规划器Planner这是整个系统的“大脑”。它接收用户的初始查询并结合可用工具函数的描述生成一个任务执行计划。这个计划不是一个简单的列表而是一个有向无环图DAG其中节点代表需要调用的函数边代表任务之间的数据依赖关系。例如对于问题“北京和上海今天的气温分别是多少”规划器会识别出“获取北京气温”和“获取上海气温”这两个任务可以并行执行因为它们之间没有依赖。任务获取单元Task Fetching Unit这个单元负责解析规划器输出的DAG。它的核心工作是进行拓扑排序找出所有当前可以立即执行的任务即入度为0的节点。一旦识别出这些独立任务它就会将它们分发给执行单元。这里的一个关键优化是“流式输出”对应命令行参数--stream即任务一旦被识别为可执行就立即发送给执行器而不是等整个DAG都规划完再开始执行这进一步减少了端到端延迟。执行器Executor执行器接收来自任务获取单元的任务并发起实际的函数调用。它负责准备函数调用所需的参数调用对应的工具可能是本地函数、API接口或数据库查询并获取返回结果。所有并行调用的结果会被收集起来并传递给规划器进行下一轮的规划或最终答案的合成。2.2 依赖识别与并行化的关键LLMCompiler的魔力在于如何让LLM学会生成带依赖关系的任务图。这主要通过精心设计的提示工程Prompt Engineering来实现。在提供给规划器LLM的提示词Prompt中框架会明确要求模型以特定的结构化格式例如JSON输出计划其中必须声明每个任务的输入依赖于哪些先前任务的输出。通过提供丰富的上下文示例In-context Examples模型能够学会识别常见依赖模式比如数据依赖任务B需要任务A的输出作为输入参数。逻辑依赖必须先通过任务A确认某个事实才能决定是否执行任务B。无依赖即可并行任务A和任务B处理的是查询中不同的、独立的子问题。这种基于提示的方法使得LLMCompiler具有良好的模型兼容性无论是OpenAI的GPT系列还是开源的LLaMA等模型只要具备一定的推理和指令跟随能力都可以作为规划器使用。3. 环境搭建与快速上手实操理论讲完了我们来看看如何亲手把它跑起来。LLMCompiler项目基于Python依赖管理清晰搭建过程比较 straightforward。3.1 基础环境配置首先我们需要一个干净的Python环境。官方推荐使用Conda这能很好地隔离依赖。# 1. 创建并激活Conda环境 conda create --name llmcompiler python3.10 -y conda activate llmcompiler # 2. 克隆项目仓库并安装依赖 git clone https://github.com/SqueezeAILab/LLMCompiler cd LLMCompiler pip install -r requirements.txt注意务必使用Python 3.10。其他版本如3.11可能会因某些依赖包的版本冲突而导致安装或运行错误。这是我在初次尝试时遇到的坑切换到3.10后问题迎刃而解。安装完成后项目目录结构大致如下LLMCompiler/ ├── configs/ # 各个基准测试的配置文件工具定义、提示词 ├── llmcompiler/ # 核心框架源代码 ├── run_llm_compiler.py # 主运行脚本 ├── evaluate_results.py # 结果评估脚本 └── requirements.txt3.2 运行官方基准测试项目提供了三个基准测试来展示其效果hotpotqa多跳问答、movie电影推荐和parallelqa并行问答。我们以需要并行搜索的hotpotqa为例。首先你需要一个OpenAI的API密钥。将其设置为环境变量export OPENAI_API_KEYsk-your-api-key-here然后运行以下命令启动评估python run_llm_compiler.py --benchmark hotpotqa --store ./results/hotpotqa_results.json --stream这里解释一下关键参数--benchmark hotpotqa指定要运行的基准测试。--store ./results/hotpotqa_results.json指定结果保存的路径。文件会以JSON格式存储每个问题的输入、真实答案、模型预测和耗时。--stream强烈建议开启。如前所述它启用流式任务分发能有效降低延迟。根据我的实测在复杂查询上开启此选项端到端延迟可以减少20%-30%。--logging如果需要更详细的运行日志来进行调试可以加上此参数。运行结束后你可以使用评估脚本查看汇总统计信息python evaluate_results.py --file ./results/hotpotqa_results.json这个脚本会计算并打印出准确率、平均延迟、总token消耗等关键指标方便你直观对比性能。3.3 使用开源模型vLLM集成对于希望使用本地或私有开源模型的开发者LLMCompiler通过集成vLLM框架提供了支持。这比直接使用原始Hugging Face Transformers接口在推理速度上有巨大优势。第一步启动vLLM服务端你需要在一台有GPU的机器上先使用vLLM启动一个兼容OpenAI API格式的模型服务。例如启动一个LLaMA-2-7B-Chat模型# 假设你已安装vLLM: pip install vllm python -m vllm.entrypoints.openai.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --served-model-name llama-2-7b-chat \ --port 8000第二步配置并运行LLMCompiler在LLMCompiler项目中运行以下命令将模型端点指向你刚启动的vLLM服务python run_llm_compiler.py \ --model_type vllm \ --benchmark hotpotqa \ --store ./results/hotpotqa_llama2.json \ --model_name llama-2-7b-chat \ --vllm_port 8000重要提示项目configs目录下的默认提示词模板是针对LLaMA-2 70B非聊天版进行优化的。如果你使用其他模型尤其是Chat版可能需要调整gpt_prompts.py中的提示词以符合该模型的对话格式和指令遵循特性。直接使用可能导致规划器输出格式不符合预期。我的经验是对于Chat模型需要在系统提示词System Prompt中更明确地强调输出格式要求。4. 如何定制你自己的工具与任务LLMCompiler的真正威力在于应用于你自己的业务场景。将官方示例迁移到自定义用例并不复杂核心是配置两个文件tools.py和gpt_prompts.py。我们以一个“智能旅行助手”的场景为例构建一个能并行查询航班、酒店和天气的代理。4.1 定义工具函数 (tools.py)首先在configs目录下为你自己的场景创建一个新文件夹例如configs/travel_assistant。然后创建tools.py在这里定义所有可用的函数。# configs/travel_assistant/tools.py import datetime from typing import TypedDict # 定义工具函数的参数类型这有助于LLM理解输入格式 class SearchFlightsInput(TypedDict): origin: str destination: str date: str # YYYY-MM-DD class SearchHotelsInput(TypedDict): location: str check_in: str check_out: str class GetWeatherInput(TypedDict): city: str date: str # 实际的工具函数实现这里用模拟函数代替真实API调用 def search_flights(origin: str, destination: str, date: str) - str: Searches for available flights from origin to destination on a given date. Args: origin: Departure city code (e.g., PEK). destination: Arrival city code (e.g., SHA). date: Departure date in YYYY-MM-DD format. Returns: A string describing flight options. # 模拟API调用 return fFound 3 flights from {origin} to {destination} on {date}: Flight CA1501 (08:00-10:30), MU5101 (10:00-12:35), CZ6166 (14:20-16:50). def search_hotels(location: str, check_in: str, check_out: str) - str: Searches for hotels in a specific location for given dates. Args: location: City name (e.g., Shanghai). check_in: Check-in date in YYYY-MM-DD. check_out: Check-out date in YYYY-MM-DD. Returns: A string describing hotel options. nights (datetime.datetime.strptime(check_out, %Y-%m-%d) - datetime.datetime.strptime(check_in, %Y-%m-%d)).days return fFound 5 hotels in {location} for {nights} nights ({check_in} to {check_out}): Hilton ($200/night), Marriott ($180/night). def get_weather(city: str, date: str) - str: Gets weather forecast for a city on a specific date. Args: city: City name. date: Date in YYYY-MM-DD. Returns: A string describing the weather. return fWeather in {city} on {date}: Sunny, 22-28°C. # 关键TOOL_DESCRIPTIONS 列表向LLMCompiler描述每个工具 TOOL_DESCRIPTIONS [ { type: function, function: { name: search_flights, description: Search for flight tickets between two cities on a specific date., parameters: SearchFlightsInput, } }, { type: function, function: { name: search_hotels, description: Search for available hotels in a city for a given date range., parameters: SearchHotelsInput, } }, { type: function, function: { name: get_weather, description: Get the weather forecast for a city on a specific date., parameters: GetWeatherInput, } }, ]工具定义的核心要点清晰的文档字符串DocstringLLM主要依靠函数的description和参数描述来理解工具的用途。描述务必准确、无歧义。严格的参数类型使用TypedDict或Pydantic模型定义参数结构能极大提高LLM生成正确参数格式的准确率。模拟实现在原型阶段函数内部可以返回模拟数据。这让你能快速测试整个编排逻辑是否正确而无需等待真实API。4.2 设计提示词示例 (gpt_prompts.py)接下来创建gpt_prompts.py提供少量但高质量的上下文示例教LLM如何为你的工具生成计划。# configs/travel_assistant/gpt_prompts.py # 系统提示词设定角色和输出格式要求 SYSTEM_PROMPT You are a travel planning assistant. Your job is to decompose a users travel-related query into a set of tasks that can be executed in parallel when possible. You have access to the following tools: search_flights, search_hotels, get_weather. Output a JSON object representing an execution plan with the following schema: { tasks: [ { id: 1, name: tool_name, arguments: {arg1: value1, ...}, dependencies: [] # list of task IDs whose outputs this task needs } ] } If two tasks do not depend on each others output, they can be parallelized (have no dependencies between them). # 上下文示例一个用户查询及其理想的规划输出 EXAMPLE_QUERIES [ { query: I want to fly from Beijing to Shanghai next Monday, and also check the weather in Shanghai for that week., plan: { tasks: [ { id: 1, name: search_flights, arguments: {origin: Beijing, destination: Shanghai, date: 2024-06-10}, dependencies: [] }, { id: 2, name: get_weather, arguments: {city: Shanghai, date: 2024-06-10}, dependencies: [] }, { id: 3, name: get_weather, arguments: {city: Shanghai, date: 2024-06-11}, dependencies: [] } ] } } ] def get_prompt(query: str): 构建最终发送给LLM的提示词。 import json examples_str \n.join([fQuery: {eq[query]}\nPlan: {json.dumps(eq[plan], indent2)} for eq in EXAMPLE_QUERIES]) prompt f{SYSTEM_PROMPT} Here are examples of how to plan: {examples_str} Now, plan for the following query: Query: {query} Plan: return prompt提示词设计心得少而精通常1-3个高质量的示例足以让现代LLM学会任务分解和依赖识别的模式。示例应覆盖你预期的主要查询类型如并行、串行、混合依赖。输出格式必须严格在系统提示词中明确要求输出JSON并给出详细的Schema。LLMCompiler的后续单元依赖于这个固定的格式来解析。依赖关系显式化在示例中清晰地展示dependencies字段如何工作。对于无依赖的并行任务该字段为空列表[]。4.3 创建配置文件并运行最后你需要在configs/travel_assistant目录下创建一个__init__.py文件可以为空或者确保你的运行脚本能正确导入这个配置。更简单的方法是你可以复制一个现有基准测试的配置结构然后替换其中的工具和提示词模块。为了运行你的自定义配置你可能需要稍微修改run_llm_compiler.py脚本或者创建一个新的启动脚本将配置路径指向你的configs/travel_assistant目录。核心是确保TOOL_DESCRIPTIONS和get_prompt函数能被正确加载。5. 性能对比与效果评估LLMCompiler论文中展示了其在多个维度上的优势。我们可以从三个层面来理解其带来的收益5.1 延迟与成本优势分析这是最直观的收益。考虑一个需要调用3个独立外部API的查询每个API平均响应时间为500毫秒。串行方案如ReAct总延迟 ≥ 3 * 500ms 1500ms还未计算LLM自身生成思考的时间。LLMCompiler并行方案理想情况下总延迟 ≈ 最大单任务延迟 500ms。在实际的hotpotqa基准测试中需要并行调用两个搜索引擎LLMCompiler相比ReAct实现了约1.8倍的延迟降低。对于按token计费的API如GPT-4并行调用虽然可能增加单次规划调用的token数但由于大幅减少了“思考-等待-再思考”的循环次数总体token消耗和成本反而可能下降。论文中指出在某些任务上成本节省可达40%。5.2 准确率提升的内在逻辑你可能会疑惑并行化为何能提升准确率这主要归功于两点减少长上下文中的信息衰减在串行链式调用中早期步骤的结果需要被不断拼接到后续LLM的提示词中。当步骤很多时关键信息可能被淹没或遗忘。并行方案允许所有原始子问题被同时、清晰地提出每个工具调用都基于最原始的查询上下文减少了信息传递的损失。避免错误累积串行流程中前一步的错误输出会直接作为后一步的输入导致错误传播。而在LLMCompiler的DAG中如果一个任务失败或出错只要它不阻塞其他独立任务其他部分仍可继续进行。最后的结果合成步骤有机会基于更多正确的中间结果进行判断。5.3 与ReAct等传统方案的对比为了更直观我将LLMCompiler与典型的ReAct代理在几个关键维度上进行对比特性维度ReAct / 顺序思维链代理LLMCompiler执行模式严格的顺序执行思考 - 行动 - 观察 - 循环。规划先行依赖识别并行执行独立任务。任务调度LLM被动地决定下一步受制于上一步结果。LLM主动规划全局DAG系统负责优化调度。延迟表现高与任务数量线性相关有依赖时。低接近最慢的单任务耗时对独立任务。资源利用率低LLM和外部工具经常处于空闲等待状态。高可以同时利用多个计算/IO资源。适用场景强依赖、探索式任务如一步步解题。子任务相对独立、可预先分解的复杂查询。实现复杂度相对简单逻辑直观。较高需要设计规划提示词和依赖解析逻辑。从上表可以看出LLMCompiler并非要取代ReAct而是提供了一种新的、更适合“可并行化”复杂任务的范式。两者可以互为补充。6. 实战中的常见问题与排查技巧在实际集成和使用LLMCompiler的过程中你肯定会遇到一些挑战。以下是我在实验过程中总结的几个典型问题及其解决方法。6.1 规划器输出格式错误问题描述LLM没有按照gpt_prompts.py中定义的JSON格式输出计划导致Task Fetching Unit解析失败报出JSON解码错误。根本原因提示词中的格式指令不够强硬或清晰。使用的开源模型尤其是较小或未经专门微调的模型指令遵循能力较弱。上下文示例太少或不够典型。解决方案强化系统提示词在SYSTEM_PROMPT中使用类似“你必须严格输出一个有效的JSON对象且只输出这个JSON对象不要有任何其他解释文字。”的强硬指令。使用Chat模型格式如果使用Chat模型如Llama-2-Chat,Qwen-Chat确保你的提示词符合其对话模板。例如对于Llama-2消息格式应为[INST] SYS\n{你的系统提示词}\n/SYS\n\n{用户查询} [/INST]将规划任务作为用户查询的一部分放入[INST]标签中。增加输出后处理在代码中添加一个健壮的后处理层。如果JSON解析失败可以尝试用正则表达式从错误响应中提取可能的JSON结构或者触发一个简单的修复性LLM调用例如让另一个LLM将非结构化输出重写为正确JSON。LLMCompiler的代码中可以考虑在llmcompiler/planner.py模块的_parse_plan函数里增加这类容错逻辑。提供更多示例在EXAMPLE_QUERIES中增加2-3个不同复杂度的示例确保它们都完美遵循了输出格式。6.2 依赖关系识别错误问题描述LLM错误地判断了任务间的依赖关系将本应并行的任务设为串行或将有依赖的任务错误地并行导致执行失败或结果错误。根本原因LLM对任务间逻辑关系的理解出现偏差这通常是因为领域知识或常识的缺失。解决方案在工具描述中明确依赖暗示在TOOL_DESCRIPTIONS的函数description里可以隐晦地指出它通常依赖于哪些信息。例如search_hotels的描述可以写成“在确定了目的地城市和日期后搜索酒店信息”。设计更具引导性的示例在上下文示例中特意包含需要识别微妙依赖的案例。例如一个查询是“预订从A到B的机票并预订B地对应日期的酒店”。在示例计划中明确将search_hotels任务的dependencies设为[1]依赖于任务1的航班目的地结果即使目的地B在原始查询中已提及。这教会模型即使参数已出现如果逻辑上需要确认也可以建立依赖。引入参数验证在执行器层面在调用工具前对参数进行基础验证。如果发现某个任务的参数中引用了不存在的“上游任务输出变量”则暂停执行并将该任务重新交给规划器进行修正。6.3 并行调用下的错误处理与限流问题描述当并行调用多个外部API时其中一个失败如网络超时、权限错误、速率限制如何处理而不影响其他成功任务同时如何避免对下游服务造成突发流量冲击解决方案实现弹性任务执行在llmcompiler/executor.py中将每个任务的执行包装在try-except块中。任务失败时捕获异常记录错误信息和任务ID并返回一个特定的“任务执行失败”结果对象而不是让整个程序崩溃。设计结果聚合策略在规划器进行最终答案合成的阶段如果有需要能够处理部分任务失败的情况。提示词应指导LLM处理这种“部分信息可用”的场景例如让它基于可用信息给出回答并说明缺失部分。集成速率限制器对于有QPS限制的外部API需要在执行器层面添加一个全局的速率限制器例如使用asyncio.Semaphore或第三方库ratelimiter。确保并行发起的请求不会超过阈值。可以将限流逻辑封装在具体的工具函数内部或者作为一个装饰器应用于所有工具。使用异步与超时控制利用asyncio库实现真正的并发IO。为每个任务调用设置合理的超时如asyncio.wait_for防止单个慢请求阻塞整个流程。6.4 针对复杂、动态依赖的扩展问题描述有些任务的依赖关系无法在初始规划时完全确定需要根据前一步的执行结果动态产生新任务例如根据第一次搜索的结果决定进行更精细的第二次搜索。这超出了LLMCompiler论文中描述的静态DAG模型。解决方案LLMCompiler的架构本身可以扩展以支持动态性。你可以将其视为一个“多轮规划-执行”循环第一轮规划并执行初始的独立任务。收集第一轮所有结果后将“原始查询第一轮结果”作为新的输入再次提交给规划器。规划器基于新上下文生成下一轮的任务计划可能依赖于第一轮的某些结果。重复此过程直到规划器认为可以生成最终答案。这实际上是将一个大的静态DAG分解为多个按顺序执行的小型动态DAG。实现时你需要修改主循环逻辑并仔细设计跨轮次的上下文传递和任务ID管理机制避免冲突。7. 进阶应用与生态集成当你熟悉了LLMCompiler的基本用法后可以探索其与现有AI开发生态的集成以及更高级的应用模式。7.1 与LangChain和LlamaIndex集成LLMCompiler已被集成到两个流行的LLM应用框架中这大大降低了使用门槛LangChain / LangGraph在LangGraph中LLMCompiler可以被视为一个特殊的“编译节点”。你可以将你的工具集定义为LangChain Tools然后利用LangGraph的图编排能力来运行LLMCompiler规划的执行图。这让你能轻松地将LLMCompiler与LangChain丰富的文档加载器、记忆模块、输出解析器等组件结合。官方示例提供了在LangGraph中使用LLMCompiler的完整笔记本。LlamaIndex在LlamaIndex中它以LlamaPack的形式提供。这意味着你可以将其作为一个即插即用的智能体模块用于增强你的RAG检索增强生成管道。例如对于一个复杂查询可以先使用LLMCompiler并行调用多个检索工具获取不同来源的信息再进行综合生成。集成心得通过框架集成来使用LLMCompiler通常比自己从头管理配置和运行循环更方便尤其是当你已经在使用这些框架构建应用时。它能更好地处理状态管理、工具定义标准化和可观测性。7.2 混合使用不同模型端点一个有趣的策略是“规划”与“执行”使用不同性价比的模型。例如规划器Planner使用能力强但昂贵的模型如GPT-4因为它需要复杂的逻辑分解和规划能力。规划调用通常只需一次且输出结构化token数可控。执行器中的LLM调用如果某些工具本身也涉及LLM调用如文本总结、信息提取可以使用成本较低但速度快的模型如GPT-3.5-Turbo或本地部署的7B/13B开源模型。LLMCompiler的配置允许你为不同组件指定不同的模型端点。你可以在初始化时为规划器和执行器中的工具分别传入不同的API客户端或模型配置实现成本与性能的精细权衡。7.3 监控、调试与可观测性在生产环境中使用LLMCompiler必须建立有效的监控。日志记录确保开启--logging选项并配置日志级别为INFO或DEBUG记录下每一轮规划生成的DAG、每个任务的开始/结束时间、参数、结果和状态成功/失败。这些日志是排查问题的基础。可视化任务图可以编写一个简单的工具将规划器输出的JSON格式的DAG使用graphviz或networkx库渲染成图片。这对于理解LLM是如何分解复杂任务、识别依赖关系非常有帮助尤其是在调试规划错误时。性能指标收集在代码中埋点收集关键指标规划耗时、任务并行度平均同时执行的任务数、任务执行耗时分布、总体端到端延迟、各阶段Token消耗。这些数据能帮助你量化优化效果并发现瓶颈所在是规划慢还是某个外部工具慢。LLMCompiler为解决LLM智能体应用中的效率瓶颈提供了一个优雅且强大的思路。它将编译器优化的思想引入LLM的推理过程通过并行化来释放性能潜力。从我的实践来看它的价值在需要调用多个独立API或服务的场景中尤为突出例如复杂信息聚合、跨系统工作流自动化等。虽然需要投入一些精力来设计提示词和处理边界情况但其带来的延迟降低和成本优化收益是实实在在的。随着智能体应用越来越复杂这类专注于优化编排效率的框架其重要性只会与日俱增。

LLMCompiler：大语言模型并行函数调用编译器原理与实践

相关文章：

LLMCompiler：大语言模型并行函数调用编译器原理与实践

2026 年了，国产大模型和 GPT/Claude的差距还有多大？

通用人工智能系统(GPAIS)的技术挑战与可信AI治理框架

容器是怎么管理 Bean 的？

医学影像分割：2D超图像与3D网络性能对比与选型指南

Bean 会被 JVM 回收吗？

Bean 什么时候会被销毁？

航空发动机齿轮有限元可靠性分析与齿廓修形优化【附仿真】

CANN/hcomm通信域初始化

OBS虚拟摄像头插件：4个虚拟摄像头同时工作的终极指南

ThinkPad风扇控制革命：如何用TPFanCtrl2告别过热与噪音困扰

深度解析 MCP (Model Context Protocol)：构建 AI Agent 的核心纽带

收藏必看！2026年AI内卷混战风口拆解，小白也能轻松入局大模型

收藏！2026年转AI大模型应用开发，正确学习顺序别踩坑（小白/程序员必看）

【2026最新版｜收藏备用】用Skill简化大模型知识库连接，小白程序员入门必看

VMware Unlocker 3.0：专业解锁工具让PC轻松运行macOS虚拟机的高效指南

GitHub中文界面终极指南：3步免费快速安装，告别英文困扰

基于Kubernetes的AI应用控制平面：kiro-acp架构解析与实践指南

微信小程序集成ChatGPT：架构设计与工程实践全解析

本地部署AI助手Catai：基于Llama.cpp的模型管理与服务集成指南

通用人工智能系统GPAIS：从专用AI到通用智能体的架构与实战

2026 AI大会报名通道即将关闭：3大未公开优先注册通道+5类免审资格今日解锁

CANN/ops-math 3D反射填充算子

CANN/runtime CMO缓存操作

Context Harness：本地优先AI知识库引擎，无缝集成Cursor与Claude

构建安全多语言代码沙盒：从原理到实践

AI赋能宠物纪念册：Gemini3.1Pro的情感文案术

深度解析next-routes：Next.js早期动态路由解决方案的设计与实现

AMCT KV Cache量化配置

网络安全技术岗怎么选，不止渗透...