当前位置: 首页 > article >正文

A-RAG 解读:能做好混合检索策略的RAG,才是真 Agentic RAG

市面上的 RAG 系统不管叫什么名字本质上只有两种做法第一种一次性检索。把用户的 query 向量化从语料库里捞出 Top-K 个文档片段拼成一个大 prompt 塞给模型。GraphRAG、HippoRAG、LightRAG 都属于这一类——区别只是检索前怎么组织索引知识图谱、层级树、还是线性图但检索本身是一锤子买卖模型没有第二次机会。第二种预定义工作流。人提前写好一套流程——先检索、再判断够不够、不够就改写 query 再检索——模型按步骤执行。IRCoT、FLARE、Self-RAG、MA-RAG 都是这个路子。看起来是多轮的但每一步干什么、什么顺序都是人定死的模型只是流水线上的工人。这两种做法有一个共同问题模型不参与检索决策。用什么方式检索、检索几次、什么时候该停全是人预先规定好的。模型的推理能力再强在检索这个环节上也使不上劲。针对这个困境前不久中科大团队提出了一套全新的A-RAG框架通过把检索的决策权交还给模型RAG可以更聪明的决定应该搜怎么怎么搜。接下来本文将深度解读A-RAG 是什么以及如何把它与Milvus的混合检索能力相结合。01A-RAG 是什么A-RAG 论文中作者定义真正的 Agentic RAG 需要同时满足三个条件自主策略选择Autonomous Strategy迭代执行Iterative Execution交错式工具调用Interleaved Tool Use现有方法最多满足其中一两个A-RAG 是唯一三个全满足的。具体怎么做A-RAG 给 Agent 暴露三个不同粒度的检索接口keyword_search关键词精确匹配。不建倒排索引查询时直接对语料做文本匹配返回命中的句子片段和所在 chunk 的 ID。适合查专有名词、型号、人名这类精确实体。semantic_search语义向量检索。把 query 编码成向量和预先计算好的句子级 embedding 做余弦相似度匹配返回语义最相关的句子片段。适合理解模糊的、自然语言描述的问题。chunk_read读取完整文档块。前两个工具只返回片段摘要Agent 觉得某个 chunk 值得深入看就调这个工具读全文。没有预定义流程没有固定顺序。Agent 自己决定什么时候用哪个工具用几次什么时候停什么时候直接给答案。这三个工具覆盖了从关键词级、句子级到文档块级的三层信息粒度论文把它叫做层级检索接口Hierarchical Retrieval Interfaces——Agent 可以先粗筛再精读也可以直接精确命中完全取决于问题本身的特征。02实验结果说明了什么在 HotpotQA、2WikiMultiHopQA、MuSiQue 等多跳问答基准上A-RAG 全面超过 GraphRAG、HippoRAG2 和各类 Workflow RAG 方法。在 MuSiQue 这类需要跨段落多步跳转的难题上A-RAG 对最优基线的领先幅度超过 10 个百分点。但分数不是重点重点是 Agent 的行为。论文做了消融实验单独去掉 keyword_search准确率明显下滑单独去掉 semantic_search下滑幅度更大。两个工具都在起作用但分工不同——Agent 碰到精确实体时会主动选 keyword_search碰到模糊描述时走 semantic_search。没人教它这么做是模型自己根据问题特征选的。真正值得关注的是上下文效率。只给 Agent 一个 embedding 检索工具A-RAG Naive它平均要消耗 56,360 个 token 才能回答 MuSiQue 的问题给齐三个工具A-RAG Full降到 5,663 个 token准确率反而更高。工具越丰富Agent 检索得越少越准。不是因为它更懒而是因为它能直接用对的方式找到对的东西不再需要靠反复撒网来弥补单一工具的盲区。但A-RAG 的代价是显性的每次查询Agent 都要先推理一轮该用哪个工具这个决策本身在消耗 token 和响应时间。如果检索融合能在数据库层完成Agent 就能把全部算力用在问题推理上而不是工具选择上。03Milvus 2.6 把检索决策做进了数据库A-RAG 给 Agent 配备了两个检索工具每次查询都需要运行时决策。Milvus 2.6 的 Full-Text Search 把这个决策从运行时移到了写入时。具体做法是在 Collection 里定义一个开启了enable_analyzerTrue的文本字段同时挂一个 BM25 Function——Milvus 在写入文档时自动分词、构建关键词权重输出成一个SPARSE_FLOAT_VECTOR字段存进去。这个稀疏向量字段始终和稠密向量字段并排存在不需要 Agent 在推理时决定“要不要走关键词这条路”两条路在数据层面从写入起就都准备好了。A-RAG 的理论设计和 Milvus 2.6 的工程决策在结构上是同构的A-RAG运行时决策Milvus 2.6写入时构建keyword_search精确词汇匹配SPARSE_FLOAT_VECTOR BM25 Function自动构建关键词稀疏索引semantic_search向量相似度检索FLOAT_VECTOR稠密向量语义检索Agent 每次推理决定走哪条路hybrid_search两路并发RRF 自动融合决策过程消耗 Agent token数据库层透明完成零决策成本这个对应关系说明了一件事A-RAG 在理论层面证明了混合检索的必要性Milvus 2.6 把这个必要性变成了一个字段类型。你不再需要维护两套独立的检索系统也不需要在 Agent 的 prompt 里教它什么时候该用哪个工具——写入时定义好 schema查询时一个hybrid_search接口把两条路都走完结果融合好再返回。这也是第 04 节代码里enable_analyzerTrue和SPARSE_FLOAT_VECTOR两行定义的实际含义前者告诉 Milvus“这个文本字段需要分词”后者告诉 Milvus“把分词结果转成 BM25 稀疏向量存进来”。查询时你只需要提交原始文本Milvus 把向量化这一步也替你做了。04怎么落地Schema 定义*核心就一件事*建 Collection 时同时定义稠密向量、稀疏向量两个字段并挂上 BM25 Function。这里有一个容易忽略的细节——enable_analyzerTrue只是告诉 Milvus 这个文本字段需要分词真正把分词结果转成 BM25 稀疏向量的是schema.add_function()这一步。少了这一步sparse_vector字段在写入时永远是空的关键词检索会静默失败不报错只是什么都查不到。写入数据时sparse_vector字段无需手动提供Milvus 在写入时自动完成 text →分词 → BM25 权重 → 稀疏向量的完整链路。from pymilvus import MilvusClient, DataType, Function, FunctionType import numpy as np import time client MilvusClient(urihttp://localhost:19530) # 若 Collection 已存在先清除方便重复运行 if client.has_collection(arag_docs): client.drop_collection(arag_docs) # ── 1. Schema 定义 ────────────────────────────────────────── schema client.create_schema() schema.add_field(id,DataType.INT64,is_primaryTrue, auto_idTrue) schema.add_field(text, DataType.VARCHAR, max_length2000, enable_analyzerTrue) schema.add_field(dense_vector,DataType.FLOAT_VECTOR, dim768) schema.add_field(sparse_vector,DataType.SPARSE_FLOAT_VECTOR) # BM25 输出字段 schema.add_field(user_id, DataType.VARCHAR, max_length64) schema.add_field(create_time, DataType.INT64) # ── 2. BM25 Function核心text → sparse_vector 的自动映射── bm25_function Function( namebm25, function_typeFunctionType.BM25, input_field_names[text], # 从 text 字段读原文 output_field_names[sparse_vector] # 自动写入稀疏向量字段 ) schema.add_function(bm25_function) # ── 3. 索引定义 ─────────────────────────────────────────────── index_params client.prepare_index_params() index_params.add_index( field_namedense_vector, index_typeAUTOINDEX, metric_typeCOSINE ) index_params.add_index( field_namesparse_vector, index_typeSPARSE_INVERTED_INDEX, metric_typeBM25 # ⚠️ 必须是 BM25不能写IP ) # ── 4. 创建 Collection ──────────────────────────────────────── client.create_collection( collection_namearag_docs, schemaschema, index_paramsindex_params ) # ── 5. 写入测试数据 ────────────────────────────────────────── # 生产环境中 dense_vector 替换为真实 embedding如 sentence-transformers 输出 # sparse_vector 字段无需手动提供BM25 Function 在写入时自动生成 data [ { text: Milvus 是一个高性能云原生向量数据库支持十亿级向量的毫秒级检索。, dense_vector: np.random.rand(768).tolist(), user_id: u_001, create_time: 1700000100 }, { text: A-RAG 通过层级检索接口让 LLM 在keyword_search 和 semantic_search 之间自主决策。, dense_vector: np.random.rand(768).tolist(), user_id: u_001, create_time: 1700001000 }, { text: BM25 是一种经典的关键词检索算法擅长精确匹配型号、版本号等专有名词。, dense_vector: np.random.rand(768).tolist(), user_id: u_002, create_time: 1700002000 }, { text: RRFReciprocal Rank Fusion将多路检索结果按排名加权合并无需手动调权重。, dense_vector: np.random.rand(768).tolist(), user_id: u_002, create_time: 1700003000 }, ] client.insert(collection_namearag_docs, datadata) #等待数据刷入生产环境可改为 flush wait_for_loading time.sleep(2) print(✅ Collection 创建完成数据写入就绪。)Hybrid Search 无 Filter两路检索同时发出RRF 自动融合一个接口搞定。sparse_req的data传的是原始文本字符串不是向量——Milvus 内部会调用写入时定义的同一套 BM25 Function 完成查询向量化。这和dense_req需要你自己传 embedding 是不同的稠密向量这边模型的选择768 维还是 1536 维、归一化方式都由你控制稀疏向量这边Milvus 全权接管。from pymilvus import MilvusClient, AnnSearchRequest, RRFRanker import numpy as np client MilvusClient(urihttp://localhost:19530) # 查询文本生产环境中query_embedding 替换为真实 embedding 结果 query_text 向量数据库如何进行关键词检索 query_embedding np.random.rand(768).tolist() # ── 语义检索理解查询意图 ──────────────────────────────────── dense_req AnnSearchRequest( data[query_embedding], anns_fielddense_vector, param{metric_type: COSINE}, limit10 ) # ── 关键词检索精确匹配专有名词、版本号、型号 ───────────────── # data 传原始文本字符串Milvus 内部通过 BM25 Function 自动向量化 sparse_req AnnSearchRequest( data[query_text], anns_fieldsparse_vector, param{metric_type: BM25}, limit10 ) # ── 两路并发RRF 融合排序后返回 Top 5 ──────────────────────── results client.hybrid_search( collection_namearag_docs, reqs[dense_req, sparse_req], rankerRRFRanker(k60),# k60 是经验值大多数场景无需调整 limit5, output_fields[text, user_id, create_time] ) print(f查询{query_text}\n{─*50}) for hit in results[0]: print(fScore : {hit[distance]:.4f}) print(fText : {hit[entity][text]}) print(fUser : {hit[entity][user_id]}| Time: {hit[entity][create_time]}) print()Hybrid Search 带 Filter生产环境里通常还需要元数据过滤——比如多租户场景下只检索当前用户的文档或者只检索特定时间范围内的内容。加一个filter参数不影响两路向量检索的并发执行。Milvus 的执行顺序是先做向量检索召回候选集再对候选集做标量过滤——不是全量扫描所以加 filter 不会拖慢检索性能。from pymilvus import MilvusClient, AnnSearchRequest, RRFRanker import numpy as np client MilvusClient(urihttp://localhost:19530) query_text 向量数据库如何进行关键词检索 query_embedding np.random.rand(768).tolist() dense_req AnnSearchRequest( data[query_embedding], anns_fielddense_vector, param{metric_type: COSINE}, limit10 ) sparse_req AnnSearchRequest( data[query_text], anns_fieldsparse_vector, param{metric_type: BM25}, limit10 ) # ── 只检索 u_001 用户、指定时间之后的文档 ────────────────────── results client.hybrid_search( collection_namearag_docs, reqs[dense_req, sparse_req], rankerRRFRanker(k60), filteruser_id u_001 and create_time 1700000000, limit5, output_fields[text, user_id, create_time] ) print(f查询已过滤 user_idu_001{query_text}\n{─*50}) for hit in results[0]: print(fScore : {hit[distance]:.4f}) print(fText : {hit[entity][text]}) print(fUser : {hit[entity][user_id]} | Time: {hit[entity][create_time]}) print()这三段代码覆盖了从写入到查询的完整链路——BM25 Function 在写入时自动构建稀疏向量hybrid_search 在查询时两路并发融合。Agent 不需要做任何检索决策Milvus 在底层替它做完了。05尾声语义检索理解意思、关键词匹配精确命中各有各的死角——A-RAG 的答案是让模型自己决定走哪条Milvus 2.6 的答案是两条路同时跑、数据库层融好再返回。前者每次查询多花一轮 Agent 推理后者在写入时就把准备工作做完了。解法不同指向同一件事单走一条路不够用。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

A-RAG 解读:能做好混合检索策略的RAG,才是真 Agentic RAG

市面上的 RAG 系统,不管叫什么名字,本质上只有两种做法: 第一种,一次性检索。把用户的 query 向量化,从语料库里捞出 Top-K 个文档片段,拼成一个大 prompt 塞给模型。GraphRAG、HippoRAG、LightRAG 都属于…...

共建信任基础设施——《知识产权资产成熟度评价认证白皮书》的八大行动倡议与未来展望

以下是《知识产权资产成熟度评价认证白皮书》的第七篇解读文章,聚焦于行动倡议与未来展望。 解读七:共建信任基础设施——《知识产权资产成熟度评价认证白皮书》的八大行动倡议与未来展望 关键词:行动倡议、行业分册、国际标准、AI自动化评…...

Java的java.lang.foreign.MemorySegment数组访问与边界检查在安全API中的保证

Java的java.lang.foreign.MemorySegment作为Project Panama的核心组件,为开发者提供了安全高效的原生内存访问能力。在涉及数组操作时,其严格的边界检查机制成为保障内存安全的关键屏障。本文将深入探讨MemorySegment如何通过设计层面的多重防护&#xf…...

单入射方向光波导耦合光栅的优化

摘要 将光耦合到光波导在现代光学的各种应用中具有重要意义。在VirtualLab Fusion中,使用傅里叶模态法(FMM,也称为RCWA)和参数优化工具,可以优化真实的光栅几何形状,以实现特定衍射级次的最佳耦合效率。本例展示了针对特定入射方…...

FRED应用:准直透镜模拟与优化

1. 摘要 本文您将会学到如下内容: 透镜基本参数输入; 优化变量与评价函数设定; 优化; 照度分析;2. 操作流程1) 创建之前,我们需要设置其喜好,点击菜单Tools>Preference , 注意其红色…...

OCAD应用:利用OCAD进行一般光学系统的设计

填写完对光学系统的设计技术要求之后就可以在窗体右侧的绘图框内绘制光学系统方案草图。绘图框的基本尺寸默认为一张横排的A4图纸。如果根据系统总体尺寸的要求需要调整绘图框图纸图幅的尺寸,可以利用界面是文字框从 “图幅选择”中选择,点击“图幅选择”…...

不止于分频:用FPGA实现一个可配置的N分频模块(支持奇偶,含Testbench)

可配置N分频模块的FPGA工程实践:从参数化设计到验证闭环 在FPGA开发中,时钟管理就像乐队的指挥,协调着各个外设模块的节奏。想象一下这样的场景:你的设计需要同时驱动UART(115200波特率)、I2C(4…...

GraalVM Native Image内存暴增紧急响应清单(含jcmd + native-image-agent + heapdump离线分析三件套)

第一章:GraalVM Native Image内存暴增的典型现象与根因认知当使用 GraalVM 的 native-image 工具将 Java 应用编译为原生可执行文件时,开发者常在构建阶段遭遇 JVM 堆内存急剧飙升(如从 2GB 涨至 16GB),甚至触发 OutOf…...

动态内存压缩技术:优化大语言模型显存占用

1. 动态内存压缩技术解析:突破大语言模型部署瓶颈在生成式AI领域,大语言模型(LLM)的部署一直面临内存占用的严峻挑战。以Llama-2-70B模型为例,当处理4096个token的上下文时,仅KV缓存就需要占用约40GB显存,这几乎耗尽了…...

从IL代码级看AI推理卡顿:反编译dotnet publish -r win-x64输出,揪出JIT对SIMD指令生成的3个致命缺陷

第一章&#xff1a;C# .NET 11 AI 模型推理加速 面试题汇总核心考察维度 .NET 11 中 AI 推理加速能力的面试题聚焦于跨层协同优化&#xff0c;包括原生 ONNX Runtime 集成、Span<T>-first 张量操作、JIT-AOT 混合编译策略&#xff0c;以及针对 ARM64/AVX-512 的硬件感知调…...

如何处理SQL查询中的逻辑非操作_使用NOT语法排除

...

小白也能懂的中文NLP:bert-base-chinese预训练模型镜像使用全解

小白也能懂的中文NLP&#xff1a;bert-base-chinese预训练模型镜像使用全解 1. 为什么你需要了解bert-base-chinese&#xff1f; 想象一下&#xff0c;你正在开发一个智能客服系统&#xff0c;需要理解用户提问的真实意图&#xff1b;或者你负责舆情监测&#xff0c;要从海量…...

Spring Boot 3.4 + Java 25虚拟线程微服务重构实战(亿级日活订单系统降本增效全链路复盘)

第一章&#xff1a;Spring Boot 3.4 Java 25虚拟线程微服务重构实战&#xff08;亿级日活订单系统降本增效全链路复盘&#xff09;在支撑日均1.2亿订单的电商核心交易系统中&#xff0c;原基于 Spring Boot 2.7 Tomcat 线程池的同步架构遭遇严重瓶颈&#xff1a;平均请求延迟…...

【深度解析】从“盯着 Agent 干活”到全自动编排执行:AI Coding Orchestrator 的工作流升级实践

摘要 本文基于视频内容&#xff0c;系统拆解 AI 编码代理从“单任务循环执行”演进到“智能编排执行”的核心逻辑&#xff0c;重点分析 Epic 拆解、并行批处理、结果复核、计划动态更新等关键机制&#xff0c;并结合 Python 实战演示一个可落地的多 Agent 编排原型。背景介绍 过…...

深度学习在心电图分析中的高效架构设计与实践

1. 项目概述&#xff1a;当深度学习遇见心电图分析作为一名长期从事医疗AI落地的算法工程师&#xff0c;我见证了深度学习在ECG分析领域的飞速发展。12导联心电图作为临床最常用的心脏检查手段&#xff0c;每天在全球产生数百万条记录。传统的人工判读方式不仅效率低下&#xf…...

Spring Boot 4.0 Agent-Ready到底有多强?3大核心变革、5个必踩坑点、7天零改造接入实录

第一章&#xff1a;Spring Boot 4.0 Agent-Ready 架构全景概览Spring Boot 4.0 标志着 JVM 应用可观测性与运行时增强能力的重大演进。其核心设计目标是原生支持 Java Agent 的深度集成&#xff0c;无需修改业务代码即可实现字节码增强、指标采集、分布式追踪注入与实时诊断等功…...

从打字机到Python代码:深入理解‘\r\n’和‘\n’如何影响你的文件读写与网络传输

从打字机到Python代码&#xff1a;深入理解‘\r\n’和‘\n’如何影响你的文件读写与网络传输 当你在Windows上编写的Python脚本在Linux服务器上运行时&#xff0c;突然发现日志文件全部挤成一团&#xff1b;或者当你从MacOS导出的CSV文件在Excel中打开时&#xff0c;每行末尾多…...

手把手教你用Python解析中科微/泰斗GNSS模块的NMEA数据(附完整代码)

Python实战&#xff1a;GNSS模块NMEA数据解析全流程指南 当你第一次从GNSS模块的串口接收到类似$GNGGA,024725.000,3642.98201,N,11707.89084,E,1,08,3.6,-5.3,M,0.0,M,,*5E这样的数据时&#xff0c;是否感到无从下手&#xff1f;本文将带你从硬件连接到数据可视化的完整流程&a…...

从FOC到你的无人机:深入浅出讲透Clark/Park变换在无刷电机控制中的核心作用

从FOC到无人机&#xff1a;Clark/Park变换如何成为无刷电机控制的神经中枢 当你手持无人机遥控器&#xff0c;推动油门杆时&#xff0c;电机转速的瞬间响应背后隐藏着一场精密的数学舞蹈。这场舞蹈的核心编舞者&#xff0c;正是Clark变换与Park变换这对黄金组合。它们将控制器的…...

React 调度器优化:源码中对任务队列使用最小堆(Min-Heap)而不是排序数组的根本原因是什么?

React 调度器优化&#xff1a;为什么我们要用“堆”来排队&#xff0c;而不是每次都“排序”&#xff1f;——一场关于 CPU 节约的深度解剖大家好&#xff0c;我是你们的老朋友&#xff0c;今天咱们不聊组件怎么写&#xff0c;也不聊 Hooks 的坑&#xff0c;咱们来聊聊 React 最…...

Postman上传文件接口调试避坑指南:为什么你的`List<MultipartFile>`接收不到多个文件?

Postman多文件上传接口调试实战&#xff1a;从原理到避坑全解析 当你第一次在Postman里尝试上传多个文件时&#xff0c;可能会遇到一个令人困惑的现象——明明按照教程配置了List<MultipartFile>参数&#xff0c;后端却始终接收不到完整的文件列表。这种情况在实际开发中…...

银行局域网如何通过WebUploader优化视频监控超大附件的断点校验与传输日志插件?

前端老炮的20G文件夹上传大冒险&#xff08;附部分代码&#xff09; 各位前端同仁们&#xff0c;我是老张&#xff0c;一个在辽宁苦哈哈写代码的"前端民工"。最近接了个活&#xff0c;客户要求用原生JS实现20G文件夹上传下载&#xff0c;还要支持IE9&#xff01;这简…...

抖音批量下载终极指南:3分钟搞定无水印视频采集,告别手动烦恼

抖音批量下载终极指南&#xff1a;3分钟搞定无水印视频采集&#xff0c;告别手动烦恼 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and brow…...

Raspberry Pi RP2350 A4步进版本解析与安全增强

1. Raspberry Pi RP2350 A4步进版本深度解析作为一名长期跟踪Raspberry Pi硬件发展的嵌入式开发者&#xff0c;我最近详细研究了RP2350微控制器的A4步进版本更新。这次迭代不仅修复了关键硬件缺陷&#xff0c;还引入了多项安全增强特性&#xff0c;对于嵌入式系统开发者而言意义…...

AI优化电动汽车充电:PSO算法与GPU加速实践

1. 电动汽车充电优化的AI革命&#xff1a;从理论到实践作为一名长期关注能源与AI交叉领域的技术从业者&#xff0c;我最近被加拿大皇家军事学院(RMC)团队的研究成果所震撼。他们开发的这套基于粒子群优化(PSO)算法的实时充电调度系统&#xff0c;完美诠释了如何用AI技术解决电动…...

Qianfan-OCR科研提效:数学教材截图→公式LaTeX+概念解释文本同步生成

Qianfan-OCR科研提效&#xff1a;数学教材截图→公式LaTeX概念解释文本同步生成 1. 工具简介 Qianfan-OCR是一款基于百度千帆InternVL架构开发的单卡GPU专属文档解析工具。它完美解决了科研人员在处理数学教材、论文等复杂文档时的痛点问题——传统OCR工具无法准确识别数学公…...

Qwen3-4B-Thinking部署实战:Ubuntu/CentOS下vLLM环境一键初始化脚本

Qwen3-4B-Thinking部署实战&#xff1a;Ubuntu/CentOS下vLLM环境一键初始化脚本 1. 模型简介 Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是一个基于vLLM框架部署的文本生成模型&#xff0c;该模型在约5440万个由Gemini 2.5 Flash生成的token上进行了训练。模型的主要目…...

CVRPTW问题的高效图粗化解法与实践

1. 带时间窗车辆路径问题的图粗化解法解析在物流配送和运输调度领域&#xff0c;带时间窗的容量约束车辆路径问题&#xff08;CVRPTW&#xff09;一直是个令人头疼的难题。想象一下&#xff0c;你管理着一个大型配送中心&#xff0c;每天需要安排数十辆货车为数百个客户送货。每…...

造相-Z-Image-Turbo亚洲美女LoRA应用:打造你的虚拟偶像素材库

造相-Z-Image-Turbo亚洲美女LoRA应用&#xff1a;打造你的虚拟偶像素材库 如果你正在为游戏、动漫、虚拟主播或者品牌营销寻找高质量的亚洲女性角色素材&#xff0c;那么今天介绍的这套工具组合&#xff0c;可能会成为你的“生产力神器”。 它由两部分组成&#xff1a;一个是…...

Hypnos-i1-8B生产环境:科研团队部署8B模型做论文公式推导辅助

Hypnos-i1-8B生产环境&#xff1a;科研团队部署8B模型做论文公式推导辅助 1. 项目背景与价值 Hypnos-i1-8B是一款专注于强推理能力和数学解题的8B级开源大模型&#xff0c;特别适合科研场景下的复杂逻辑推理和公式推导任务。这个模型基于NousResearch/Hermes-3-Llama-3.1-8B微…...