当前位置: 首页 > article >正文

RAG系统评估实战:从原理到应用,Ragas工具全解析

1. 项目概述RAG评估的“瑞士军刀”如果你正在构建或优化一个基于检索增强生成RAG的系统那么你一定遇到过这个灵魂拷问“我的RAG应用效果到底怎么样” 是检索的文档不够准还是大模型回答得不够好传统的单一指标比如检索的召回率或者生成文本的BLEU分数在评估RAG这种复杂流水线时常常显得力不从心无法全面反映真实用户体验。这就是RagasRAG Assessment诞生的背景。它不是一个RAG框架而是一个专门为评估RAG系统性能而生的开源工具包。你可以把它想象成RAG领域的“质检员”或“评测工具箱”提供了一套多维度的、自动化的评估指标帮助开发者科学、量化地衡量系统的优劣从而进行精准的迭代优化。我第一次接触Ragas是在优化一个内部知识问答系统时当时我们只能靠人工抽查来评估回答质量效率低且主观性强。引入Ragas后我们能够对数百个测试问题自动生成评估报告清晰地看到是上下文相关性拖了后腿还是答案忠实度出了问题优化方向瞬间明确。这个项目由Vibrant Labs维护社区活跃它试图解决的核心痛点就是让RAG系统的评估像传统软件工程的单元测试一样变得可重复、可量化、可自动化。2. Ragas的核心评估指标体系解析Ragas的强大之处在于它提供了一套层次分明、覆盖RAG全链路的评估指标。这些指标大致可以分为两类基于文本的指标和基于LLM的指标。理解每一类指标的内涵和适用场景是有效使用Ragas的关键。2.1 基于文本的经典指标这类指标不依赖大语言模型计算速度快侧重于评估检索阶段的质量。2.1.1 检索相关度这是评估检索器性能的核心指标。它衡量的是系统检索出来的文档或文档块与用户问题之间的相关程度。Ragas通常通过计算问题与每个检索上下文之间的嵌入向量相似度如余弦相似度来实现。一个高的检索相关度分数意味着检索器找到了真正与问题相关的背景材料这是生成高质量答案的基础。如果这个分数低你可能需要重新审视你的文档切分策略、嵌入模型的选择或检索算法的配置。2.1.2 上下文精度与召回率这是对检索相关度的进一步细化。对于一个问题可能存在多个相关的文档片段。上下文精度在所有检索到的片段中真正相关的片段所占的比例。它衡量的是检索结果的“纯度”。高精度意味着垃圾信息少。上下文召回率系统检索到的相关片段占所有可能相关片段的比例。它衡量的是检索的“全面性”。高召回率意味着漏掉的关键信息少。在实际优化中我们往往需要在精度和召回率之间做权衡。例如增加检索数量top-k可能会提高召回率但通常会降低精度。Ragas可以帮助你量化这个权衡点。2.2 基于LLM的深度评估指标这类指标利用大语言模型如GPT-4、Claude或开源的Judge模型作为“裁判”来评估生成答案的质量更贴近人类的主观判断。2.2.1 答案相关性这个指标评估生成的答案是否直接、有效地回答了原始问题。一个答案可能语法正确、信息丰富但如果答非所问得分就会很低。LLM裁判会根据问题和答案判断答案的针对性和有效性。这是衡量RAG系统“是否解决了用户问题”的最直接指标。2.2.2 答案忠实度也称为“事实一致性”这是RAG系统至关重要的“安全阀”。它评估生成的答案是否严格基于提供的上下文信息有没有“胡编乱造”。即使上下文里没有明确信息LLM也可能利用其内部知识或产生幻觉来生成一个看似合理的错误答案。高忠实度意味着答案的每一句主张都能在上下文中找到依据。2.2.3 上下文利用度这个指标衡量答案在多大程度上利用了所提供的上下文信息。一个理想的RAG答案应该充分吸收并整合上下文中的关键信息。如果答案相关性高但上下文利用度低可能意味着模型过于依赖自身先验知识而忽略了检索到的文档这违背了RAG的初衷。反之如果生硬地照搬上下文句子也可能导致答案不流畅。注意基于LLM的评估虽然更智能但成本较高如果使用商用API且评估结果可能受到裁判模型本身偏见的影响。通常建议在关键测试集上使用或与基于文本的指标结合使用。3. 从零开始使用Ragas进行首次评估实战理论讲完了我们上手操作一遍。假设你已经有了一个简单的RAG应用无论是用LangChain、LlamaIndex还是自建的并且准备了一个小型的评估数据集。这个数据集通常需要包含问题、人工标注的“标准答案”或至少是相关的文档id、以及你的RAG系统实际运行后产生的“上下文”和“生成答案”。3.1 环境搭建与数据准备首先安装Ragas。推荐使用虚拟环境。pip install ragas如果你的评估想使用LLM裁判如计算忠实度、相关性还需要配置LLM。以使用OpenAI为例import os from ragas.llms import LangchainLLM from langchain_openai import ChatOpenAI os.environ[OPENAI_API_KEY] your-api-key # 将LangChain的LLM封装为Ragas可用的格式 llm ChatOpenAI(modelgpt-4-turbo) ragas_llm LangchainLLM(llm)接下来准备你的评估数据。数据需要组织成Pandas DataFrame的格式包含特定的列名import pandas as pd # 示例构造一个包含三个样本的评估数据集 data { “question”: [“公司今年的战略重点是什么”, “产品X的主要技术参数”, “如何申请年假”], “answer”: [“根据年度报告公司今年将聚焦AI和数据安全两大领域。”, “产品X支持最高64GB内存采用5纳米制程芯片。”, “员工需在内部系统提交申请并经直属领导审批。”], # RAG系统生成的答案 “contexts”: [ [“公司年报指出未来一年人工智能与数据安全业务将成为核心增长引擎。”], [“产品规格书显示内存容量为32GB至64GB芯片技术为5纳米工艺。”], [《员工手册》第5章规定年假申请流程为系统提交部门经理审核。”] ], # 检索到的上下文列表 “ground_truth”: [“AI与数据安全”, “内存64GB5纳米芯片”, “系统提交领导审批”] # 可选的参考标准答案 } df pd.DataFrame(data) print(df.head())3.2 选择指标并执行评估Ragas提供了便捷的评估管道。我们选择一组指标既有快速的文本指标也有深度的LLM指标。from ragas import evaluate from ragas.metrics import ( answer_relevancy, faithfulness, context_recall, context_precision, answer_correctness ) # 定义要评估的指标组合 metrics [ context_precision, # 上下文精度 context_recall, # 上下文召回率 faithfulness, # 忠实度需LLM answer_relevancy, # 答案相关性需LLM ] # 执行评估如果metrics中包含需要LLM的指标需通过llm参数传入 # 如果只用文本指标则无需传llm result evaluate( df, metricsmetrics, llmragas_llm # 如果使用了faithfulness等需要传llm ) # 查看评估结果 result_df result.to_pandas() print(result_df)运行后result_df会为数据集中的每一个样本每一行计算所选指标的分数。你会得到类似下面的表格questionanswercontextsfaithfulnessanswer_relevancycontext_precisioncontext_recall公司今年的战略重点是什么......0.950.881.00.8产品X的主要技术参数......0.750.920.51.0如何申请年假......1.00.851.01.03.3 解读评估报告与可视化直接看数字表格可能不够直观。Ragas可以与matplotlib等库结合进行可视化但我更习惯先进行一些统计分析来定位系统瓶颈。# 计算各指标的平均分了解整体表现 mean_scores result_df[[faithfulness, answer_relevancy, context_precision, context_recall]].mean() print(“\n各指标平均分”) print(mean_scores) # 找出忠实度低的样本这些是高风险答案 low_faithfulness_samples result_df[result_df[faithfulness] 0.7] if not low_faithfulness_samples.empty: print(“\n⚠️ 发现忠实度较低的样本可能存在幻觉”) print(low_faithfulness_samples[[question, answer, faithfulness]]) # 找出检索精度低的样本检索器可能有问题 low_precision_samples result_df[result_df[context_precision] 0.5] if not low_precision_samples.empty: print(“\n 发现上下文精度较低的样本检索结果噪音大”) print(low_precision_samples[[question, contexts, context_precision]])通过这样的分析你可以快速得出如下结论如果context_precision普遍低说明检索器返回了很多不相关的文档。需要优化文档切分chunking的大小和重叠度或者尝试不同的嵌入模型embedding model。如果context_recall普遍低说明很多相关文档没被检索到。可以尝试增加检索数量top-k或者改进检索策略如使用混合搜索结合关键词和向量检索。如果faithfulness低说明大模型经常脱离上下文“自由发挥”。可能需要优化提示词Prompt明确指令“严格根据给定上下文回答”或者考虑使用上下文更敏感、幻觉更少的模型。如果answer_relevancy低说明答案可能冗长或未切中要害。优化提示词要求答案简洁、直接或者检查检索到的上下文是否本身就未能聚焦问题核心。4. 高级技巧与定制化评估方案掌握了基础评估后你可以利用Ragas进行更深入的分析和定制以适应复杂的生产环境。4.1 构建高质量的评估数据集评估结果的可靠性严重依赖于评估数据集的质量。一个糟糕的数据集会带来误导性的结论。来源多样性数据集中的问题应覆盖你应用场景的各个主要方面包括简单事实型、复杂推理型、多跳问答型等。难度梯度包含简单、中等、困难的问题以测试系统的鲁棒性。“黄金答案”的标注ground_truth标准答案最好由领域专家提供。对于开放性问题可以是一组关键信息点而不必是完整句子。负样本可以故意加入一些系统知识范围外的问题用来测试系统能否正确回答“我不知道”而不是产生幻觉。4.2 自定义评估指标与集成现有流水线Ragas具有良好的扩展性。你可以创建自定义指标。例如定义一个“合规性检查”指标使用LLM判断答案是否符合公司特定的表述规范。from ragas.metrics.base import Metric from ragas.llms import llm_factory from ragas.run_config import RunConfig class ComplianceMetric(Metric): name “compliance” is_batchable False # 取决于实现 def __init__(self, llm): self.llm llm async def _ascore(self, row): # row 包含 question, answer, contexts 等 prompt f””” 请判断以下答案是否符合公司‘积极、严谨’的表述规范。 问题{row[question]} 答案{row[answer]} 只输出‘符合’或‘不符合’。 “”” response await self.llm.generate_text(prompt) return 1.0 if “符合” in response else 0.0 # 使用自定义指标 custom_metrics [ComplianceMetric(llmragas_llm)] # ... 然后和内置指标一起传入 evaluate 函数此外你可以将Ragas评估无缝集成到你的CI/CD流水线中。例如在每次重要的模型或检索器更新后自动在固定的评估集上运行Ragas并设置质量门槛如平均忠实度不得低于0.85低于门槛则阻止部署从而实现评估驱动的开发。4.3 成本优化策略使用GPT-4等模型进行全量评估可能成本高昂。可以采用以下策略分层评估对所有数据运行快速的文本指标如检索相关度。只对文本指标表现不佳或随机抽样的子集运行昂贵的LLM指标。使用小型裁判模型对于内部或对精度要求稍低的评估可以使用gpt-3.5-turbo或开源的Judge模型如Ragas社区提供的一些微调模型来替代GPT-4。缓存评估结果对于不变的问题和上下文其LLM评估结果是确定的可以进行缓存避免重复计算。5. 常见陷阱、问题排查与效能提升在实际使用中我踩过不少坑也总结了一些提升评估效能的经验。5.1 评估结果不稳定或分数偏低问题描述每次评估分数波动大或者整体分数普遍偏低。排查思路检查数据格式确保DataFrame的列名完全正确question,answer,contexts且contexts是列表的列表。审视上下文质量contexts中的文本是否干净是否包含大量无关的标记、页眉页脚脏数据会严重影响检索相关度和LLM评估。在评估前对检索到的上下文进行简单的清洗过滤。LLM裁判的PromptRagas内置指标的Prompt是精心设计的但如果你使用了自定义LLM或版本其响应格式可能不符合Ragas的解析预期。可以查看源码或调试输出看LLM返回的原始内容是什么。评估集规模如果数据集太小比如少于10个样本分数波动是正常的。建议评估集至少包含50-100个有代表性的样本。5.2 如何区分是检索问题还是生成问题这是RAG调试中最常见的问题。Ragas的指标设计本身就帮你做了分离。context_precision/context_recall低这明确指向检索阶段的问题。与生成答案无关。faithfulness低但context_precision高这很典型。检索到了相关文档检索没问题但模型没有忠实于这些文档生成有问题。优化重点在Prompt或生成模型。answer_relevancy低但faithfulness高答案虽然基于上下文但没有很好回答问题。可能是上下文本身信息不足或者Prompt未能引导模型组织出针对性答案。5.3 超越分数进行根因分析分数只是一个信号更重要的是背后的原因。对于低分样本一定要进行人工复查。打开“黑箱”不要只看分数。对于faithfulness低的样本仔细对比answer和contexts看模型在哪里添加了、歪曲了或遗漏了信息。检索结果分析对于检索指标低的样本手动检查查询的嵌入向量是否合理或者尝试用关键词搜索是否能找到相关文档这有助于判断是嵌入模型问题还是文档切分问题。建立“问题案例库”将典型的失败案例如特定类型的幻觉、检索遗漏记录下来归类分析。这能帮助你发现系统性的弱点而不是随机错误。5.4 与A/B测试和人工评估的结合Ragas的自动化评估不能完全替代人工评估尤其是对答案的流畅性、专业性和细微差别的判断。定位阶段用Ragas定性阶段用人工在快速迭代和定位瓶颈时依赖Ragas的自动化指标。在版本发布前或关键决策点进行小规模、深入的人工评估。作为A/B测试的监控指标当你对系统进行A/B测试时例如对比两种不同的检索策略Ragas的各项指标可以作为核心的量化对比依据比单纯看业务指标如点击率更能说明技术层面的优劣。在我自己的项目中引入Ragas后我们团队对RAG系统的“健康度”有了前所未有的清晰认知。它把原本模糊的“感觉效果不太好”变成了“检索召回率下降5%主要影响多跳复杂问题”。这种数据驱动的洞察力是优化工作得以高效推进的基础。记住评估不是终点而是持续改进的指南针。从建立一个小的、有代表性的评估数据集开始定期运行评估让数据告诉你下一步该往哪里走。

相关文章:

RAG系统评估实战:从原理到应用,Ragas工具全解析

1. 项目概述:RAG评估的“瑞士军刀”如果你正在构建或优化一个基于检索增强生成(RAG)的系统,那么你一定遇到过这个灵魂拷问:“我的RAG应用效果到底怎么样?” 是检索的文档不够准,还是大模型回答得…...

你还在手动敲命令部署?GitHub Actions 让你 push 即上线,摸鱼时间翻倍

你改完代码,打开终端,输入 npm run build,然后 FTP 上传,或者登录服务器 git pull。这一套操作每天重复 N 次,不累吗?今天我们来把“部署”这件事自动化——用 GitHub Actions,只要你 git push&…...

思维导图+实验报告册

思维导图:实验报告册实验拓扑及要求实验思路1、配置IP地址 2、私网通,公网通---配置静态路由协议,测试公网通 3、配置R1-R5的ppp的pap认证,R5为主认证方 4、R2与R5之间使用ppp的CHAP认证,R5为主认证方; 5、…...

CANN/asc-devkit算子属性设置API

AddAttr 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/ca…...

国际AI治理新规:算力阈值与全球暂停机制如何重塑AI研发格局

1. 项目概述:为什么我们需要一个“全球AI红绿灯”? 最近和几个做AI安全研究的朋友聊天,大家不约而同地提到了同一个词:失控感。这种感觉,不是来自某个具体的模型漏洞,而是源于整个行业正在以指数级速度狂奔…...

Flutter+开源鸿蒙实战|城市共享驿站智能存取系统 Day3 扫码模块集成+智能寄存表单+时长计费算法+驿站详情页+本地缓存持久化

Flutter开源鸿蒙实战&#xff5c;城市共享驿站智能存取系统 Day3 扫码模块集成智能寄存表单时长计费算法驿站详情页本地缓存持久化 欢迎加入开源鸿蒙跨平台社区&#xff1a;https://openharmonycrossplatform.csdn.net <!-- Schema.org 结构化数据 --> <script type…...

基于Tauri与Vue ue 3的轻量级Markdown编辑器inkdown技术解析

1. 项目概述&#xff1a;一个为创作者而生的轻量级写作工具最近在折腾个人知识库和内容创作流程时&#xff0c;我又一次陷入了工具选择的困境。市面上主流的Markdown编辑器功能强大&#xff0c;但往往伴随着臃肿的界面、复杂的配置&#xff0c;或是需要联网的云服务。对于我这种…...

AI智能体技能库:模块化工具集如何赋能Agent开发与自动化

1. 项目概述&#xff1a;一个为AI智能体赋能的技能库最近在折腾AI智能体&#xff08;Agent&#xff09;开发的朋友&#xff0c;估计都绕不开一个核心问题&#xff1a;如何让一个“大脑”&#xff08;通常是大型语言模型&#xff09;具备执行具体任务的能力&#xff1f;光会“思…...

Agent Input Compiler:本地AI编程助手上下文优化工具详解

1. 项目概述&#xff1a;一个为AI编码工具“编译”上下文的本地优先工具如果你用过Cursor、Claude Code这类AI编程助手&#xff0c;肯定遇到过这样的场景&#xff1a;你想让它帮你修改一个函数&#xff0c;结果它一股脑地把整个项目&#xff0c;甚至node_modules里的package.js…...

AI赋能马术:Gemini3.1Pro打造智能护理知识库

在 2026 年&#xff0c;AI 的应用已经不再局限于写代码、做图文或回答通用问题&#xff0c;而是逐渐进入更细分、更专业的知识管理场景。对于马术教练来说&#xff0c;马匹护理并不是一个单点技能&#xff0c;而是一套需要长期积累的系统知识&#xff0c;包括饲养管理、日常观察…...

终极指南:如何在Windows上使用com0com虚拟串口驱动实现零成本串口通信

终极指南&#xff1a;如何在Windows上使用com0com虚拟串口驱动实现零成本串口通信 【免费下载链接】com0com Null-modem emulator - The virtual serial port driver for Windows. Brought to you by: vfrolov [Vyacheslav Frolov](http://sourceforge.net/u/vfrolov/profile/)…...

谷歌Gmail客户端升级:新增AI Inbox入口,‘Help me write’功能深度进化

谷歌Gmail客户端&#xff1a;新增AI Inbox快捷入口品玩5月9日消息&#xff0c;据9to5google报道&#xff0c;谷歌在Gmail安卓及iOS客户端底部导航栏新增了“AI Inbox”快捷入口。此入口位于“Gmail”与“Chat”之间&#xff0c;用户点击后可进入以任务为核心的邮件视图。该视图…...

半导体光刻中SRAF与逆光刻技术的应用与优化

1. 半导体光刻中的分辨率增强技术演进在32nm及更先进工艺节点中&#xff0c;光刻工艺面临着前所未有的挑战。当k1因子降至0.25左右时&#xff0c;传统的光学系统改进&#xff08;如提高数值孔径NA&#xff09;已接近物理极限。这种情况下&#xff0c;计算光刻技术成为突破分辨率…...

年轻人用 AI 完成情绪自救:从发疯吐槽到平行宇宙重养自己

五一节后&#xff0c;年轻人情绪宣泄新方式五一假期结束&#xff0c;打工人的“节后综合症”未消。面对工作群消息和改不完的 PPT&#xff0c;打工人蝈蝈在摸鱼时打开灵光 APP 里的小游戏“老板被我 fire 了”&#xff0c;体验痛扁老板、原地暴富的爽感。而这个应用是网友二旬老…...

39《树莓派CAN总线通信实战:从入门到精通》

树莓派CAN总线通信实战:从入门到精通(001)CAN总线基础与树莓派硬件选型 一、一个让我熬夜到凌晨三点的CAN总线问题 去年做车载OBD数据采集项目,树莓派4B接MCP2515模块,波特率设成500kbps,结果一上电就疯狂丢帧。用逻辑分析仪抓波形,发现CAN_H和CAN_L之间的差分电压只有…...

DeepSeek-Reasonix:只绑 DeepSeek,缓存命中率 99.82% 砍 80% 成本的 AI 编程助手

【导语&#xff1a;AI 编程助手赛道迎来新成员 DeepSeek-Reasonix&#xff0c;它只绑定 DeepSeek&#xff0c;将前缀缓存稳定性发挥到极致&#xff0c;成本效率表现出色&#xff0c;还具备多种工作模式。】偏执路线&#xff1a;只绑 DeepSeek 压榨缓存稳定性开发者在 GitHub 上…...

Helm-GCS:构建高并发安全的私有Helm仓库实战指南

1. 为什么需要 helm-gcs&#xff1a;一个云原生时代的务实选择在 Kubernetes 生态里&#xff0c;Helm 是事实上的包管理标准&#xff0c;它让部署复杂的应用从“写一堆 YAML 文件”变成了“一个helm install命令”。但随之而来的一个现实问题是&#xff1a;我们打包好的这些 He…...

1.6.5 掌握Scala数据结构 - 集合

深入探讨了 Scala 数据结构中的集合体系&#xff0c;核心在于理解不可变与可变集合的本质区别。不可变集合是函数式编程的基石&#xff0c;强调数据的安全性与持久化&#xff0c;任何增删改操作均不改变原集合&#xff0c;而是返回包含更新内容的新集合&#xff0c;天然具备线程…...

计算机毕业设计 | SpringBoot+vue流浪宠物管理 小动物救助领养平台(附源码+论文)

1&#xff0c;绪论 1.1 研究背景 近年来&#xff0c;第三产业发展非常迅速&#xff0c;诸如计算机服务、旅游、娱乐、体育等服务行业&#xff0c;对整个社会的经济建设起到了极大地促进作用&#xff0c;这一点是毋庸置疑的。现下&#xff0c;国家也出台了一些列的政策来支持和…...

taotoken的api key管理与访问控制功能实际使用感受分享

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 Taotoken 的 API Key 管理与访问控制功能实际使用感受分享 作为团队中负责大模型应用接入与成本治理的管理员&#xff0c;我的一项…...

【学习篇】第18期 C++模板

【你奶奶都能听懂的C】第18期 C模板 目录【你奶奶都能听懂的C】第18期 C模板开头&#xff1a;一.模板1.概念2.用法分类&#xff08;1&#xff09;函数模板&#xff08;2&#xff09;类模板二.非类型模板参数三.模板的特化1.概念&#xff08;1&#xff09;函数模板特化&#xff…...

Python自动化Yandex.Metrika数据采集:从API封装到ETL管道实战

1. 项目概述&#xff1a;一个被低估的Yandex.Metrika数据助手 如果你正在运营一个面向俄语区或东欧市场的网站&#xff0c;或者你的产品在这些地区有用户&#xff0c;那么你一定对Yandex.Metrika不陌生。它就像是俄罗斯的Google Analytics&#xff0c;是洞察用户行为、分析流量…...

华为CANN/pypto全1张量创建函数

pypto.ones 【免费下载链接】pypto PyPTO&#xff08;发音: pai p-t-o&#xff09;&#xff1a;Parallel Tensor/Tile Operation编程范式。 项目地址: https://gitcode.com/cann/pypto 产品支持情况 产品是否支持Ascend 950PR/Ascend 950DT√Atlas A3 训练系列产品/Atl…...

Go HTTP客户端熔断保护:ok-breaker原理、配置与生产实践

1. 项目概述与核心价值最近在折腾一些自动化脚本和API调用时&#xff0c;遇到了一个老生常谈但又极其烦人的问题&#xff1a;如何优雅地处理那些“不稳定”的第三方服务&#xff1f;我说的不稳定&#xff0c;不是指服务完全宕机&#xff0c;而是那种间歇性抽风、响应时快时慢、…...

年春节AI发展大事记

. GIF文件结构 相比于 WAV 文件的简单粗暴&#xff0c;GIF 的结构要精密得多&#xff0c;因为它天生是为了网络传输而设计的&#xff08;包含了压缩机制&#xff09;。 当我们用二进制视角观察 GIF 时&#xff0c;它是由一个个 数据块&#xff08;Block&#xff09; 组成的&…...

掌握AI教材生成技巧,借助低查重工具,3天完成50万字教材编写!

编写教材的困境与 AI 解决方案 谁没有遇到过编写教材时的框架难题呢&#xff1f;面对空白的文档&#xff0c;常常会呆坐半个小时&#xff0c;完全不知从何下手——先解释概念好&#xff0c;还是先引用案例&#xff1f;章节该根据逻辑划分&#xff0c;还是根据课时来安排&#…...

Slack与Cursor AI本地自动化助手:提升开发效率的智能工作流

1. 项目概述&#xff1a;一个连接Slack与Cursor AI的本地自动化开发助手 如果你和我一样&#xff0c;每天大部分工作时间都泡在Slack和代码编辑器里&#xff0c;那你肯定也经历过这种场景&#xff1a;产品经理或同事在Slack里提了一个需求&#xff0c;你看到了&#xff0c;然后…...

大模型岗位选哪个?3大方向对比+简历避坑指南!后端转大模型必看!

本文对比了大模型岗位的三个主要方向&#xff1a;LLM应用工程师、算法工程师和AI全栈工程师。LLM应用工程师侧重于基于大模型构建应用系统&#xff0c;需要突出的能力包括技术选型、问题解决和落地交付&#xff1b;算法工程师负责模型训练和微调&#xff0c;需重点展示微调方法…...

面向参数高效边缘语言模型的正交基分解映射

正交基分解 作者:李金雨 标题建议 《OBDM: Orthogonal Basis Decomposition Mapping for Parameter-Efficient Edge Language Models》 中文标题:《OBDM:面向参数高效边缘语言模型的正交基分解映射》 摘要 (Abstract) 大型语言模型在移动设备和边缘计算场景中的部署受限…...

lvgl_v8之基于arc实现一个交易成功动画

static lv_obj_t* widget_check_line; static lv_point_t widget_check_points[3]; static const lv_point_t widget_check_full_points[...