华为大咖说丨如何通过反馈机制来不断优化大模型应用?
本文分享自时习知
作者:袁泉(华为AI数据工程专家)全文约3015字,阅读约需8分钟
大模型应用正式投入使用后,存在一个较为普遍的情况:在利用“大模型提升业务运营效率”的过程中,业务部门和IT团队在初期通常都充满热情,对成果的期待也很高。一旦冷启动完成,应用如期上线,则皆大欢喜,庆祝新特性上线,宣传造势。
在组织和热情的惯性下,大模型应用效果通常有一定的爬坡,这是“前程发力的快周期”。但随后,就会逐渐或快速面临准确率、满意度双双下滑的局面,有些从此就跌入低谷,再也没起来;而有些则是震荡式的,一直妄图阶段性冲高,结果却不尽如意,很难维持在上线初期的那个水平,这是“后程乏力的慢周期”。有点像中国的股市,快起快落,牛短熊长。
面对这样情况下的大模型应用,该如何进行优化呢?今天,我想和大家聊聊“反馈热循环”机制这件事。(反馈热循环是一种持续的循环过程,不断地提供内容,获取AI的反馈,根据反馈调整和优化内容,并再次进行反馈。这样的循环往复,为AI提供持续且高质量的数据和知识。)
01 什么是反馈?
谈到反馈,我们先明白其定义。中文对反馈的解读是,在对信息的有效接收和正确理解的基础上,及时予以回应并形成良性循环。而反馈的英文解读则是,Feedback = Feeding(数据) + Understanding(信息) + Backing(执行) 。
最近我在读《反馈,化解不确定性的数字认知论》,其中有那么一段话讲得挺好。“反馈本身没有意义,以不同的方式更高效地转化和利用反馈中隐藏的信息,才使反馈有了意义。”

02 业界有哪些不错的反馈循环设计思路?
2.1 Midjourney: 反馈不够,设计来凑。
在没有任何利益的驱动下,是没有人愿意反馈的,这显然是违背人性的。因此Midjourney通过生成图片下面的Favourite(代表喜欢和收藏),这种相对巧妙的设计,让用户在与应用进行交互的过程中,不知不觉地把反馈的事情给干了。

2.2 从GPT3.5到GPT4, 根据环境反馈迭代改进的智能循环体,是产品断代式演进的关键。
相较于GPT3.5,GPT4的整体表现是现象级的。在短短几个月的时间,实现了模型能力的大幅提升。在面向全世界上亿用户的尝鲜式公测,GPT4设计智能循环体(code model代码模型、feedback model反馈模型、repair model修复模型),以根据环境反馈不断迭代改进模型能力,起到了不小的作用。英伟达科学家Jim Fan直呼:“Critique is all you need。”

2.3 互联网企业与传统企业,在反馈机制上各有优劣。
整体来说,互联网企业和传统企业在AI反馈应用上各有优劣。

互联网企业应用,由于庞大的用户群体和天然的利益驱动,在如何快速搜集反馈数据上优势明显,同时在面对反馈的效果(推荐、检索、生成方案)上,用户的包容性更强些;但在反馈信息如何更好地闭环,传统企业应用面向的用户群范围相对固定,流程相对清晰和责任主体比较明确,更容易聚焦TOP问题,同时用户对反馈效果是否符合预期,相对更苛责。
03 目前,各领域应用+AI在反馈机制上存在什么问题?
结合各领域应用+AI的调研结果,无论是在“智能搜索问题”场景还是在“方案生成推荐”场景,各领域在反馈内容应该分成哪些类,如何分类,反馈的信息是否足够完整上,都在摸着石头过河。

有细分到【业务问题】【应用问题】【平台问题】的,也有笼统的【好】【不好】【没有帮助】等。
总的来说,各领域应用+AI在对反馈数据分哪几类,分到哪个粒度,按照什么层级来分等,缺少方法和统一的标准。反馈信息不完整,不足以支撑下一步的问题理解。
04 AI反馈的几种模式及特点
初步调研完各领域AI应用当前的场景和所采取的反馈机制后,我就在想,有没有可能在业务(含流程)、应用、数据等反馈上找到共性,从而提炼出几类模式。然后基于几类模式来做好解决方案设计。这样领域应用可以照方抓药,找到适合自己的模式和方法;同时围绕几个典型场景,吃透几类模式,进而沉淀平台公共能力,以便后续更好地被复用。
经过提炼,个人认为以为3类模式,基本上可以覆盖企业的绝大部分场景。
“标注”即反馈,或者称之为“上报”即反馈。这里指的是领域通过运营人员、AI数据工程专家在进行例行的问题分析和标注(通常按周/月,方式一般为线下EXCEL或者应用自身构建的运营分析模块),基于分析后的结果,需要将相关信息(如优化后的AI数据集、意图判断、问题&正确的回答)传递给AI数字产线,从而进入下一轮的迭代。以某产品为例,有众多的用户在使用其AI搜索推荐等功能,我们可以让AI标注工程师对用户的问答结果&问题等分类,再把相关信息上报给AI数字产线进行下一轮优化,这种"标注"即反馈。
这种反馈模式下,Feeding(数据)和Understanding(信息)都是业务offline处理好了,对于平台来说,关键在于做好对接和Backing(执行)。
“作业”即反馈。AI基于业务活动中的上下文信息(如单据),结合历史的知识经验等input,生成其推荐的方案output。业务人员在操作过程中结合实际情况以及自身知识储备,所采取的完全采纳,部分采纳、弃用、补充等策略,在系统提交后流入到下一作业环节。以“方案生成与推荐”的招聘场景为例,HR输入各种招聘需求,AI推送相关岗位给候选人,基于候选人【刷一刷】、【浏览】、【简历筛选意见】、【直接投递】等动作,给予结果反馈。
这种反馈模式下,Feeding(数据)的挑战是如何在应用侧做好数据定义,Understanding(信息)的关键在于应用的交互设计。
“行为”即反馈。这一类应用的特点是业务受众面较广,没有特别强的领域属性,偏集团公共类。该类AI应用通常需要业务给出明确的信息作为输入,且业务的提问通常不容易收敛,长尾效应明显。这种反馈模式下,关键在于如何基于用户的行为分析其意图,以及判断实际达成情况,最大的挑战在于用户行为的感知和分析。
以“企业通用搜索”为例,用户的连续相似问行为:xxx产品经理是谁?-->xxx产品经理-->xxx产品经理负责人-->谁负责xxx-->xxx谁负责,用户对AI反馈结果的复制、粘贴、转发行为;用户的转人工坐席或提交问题单等行为,都是对于结果是否满意的一种隐性反馈……
以上各个反馈模式的特点,下图已整理好。

05 从建好一个“应用 + AI ”的视角,看AI反馈结果的几条循环路径
反馈的最终结果,是导向改进。好的方面,要继续发扬光大;不好的方面,要有找到对应责任主体来制定相应的改进策略,不断循环形成飞轮。
从如何建好一个“应用+AI”的视角出发,AI反馈结果可以按照以下4条路径,由不同的组织负责优化,也有可能一个问题需要同时从4个方面进行优化才能达到想要的效果。

06 不同AI反馈模式下的反馈MRC(机器阅读理解)模板设计
既然定义了几类反馈模式,那必然是要有对应的反馈模板的。当前AI反馈存在的问题中,“信息不完整”“语言不统一”具备一定的典型代表,那么就需要有模板来指导和校验反馈的信息是否足够清晰、完整。下图是基于两个典型场景所提炼的反馈模板,仅供参考。(关于MRC的相关信息,可见上期《华为大咖说》——华为大咖说丨什么是大模型“MRC”?一文讲明白~)

07 反馈热循环的解决方案设计
将AI反馈循环所需要的业务能力,分成3大段。
第1段是Feeding(有效接收),即反馈信号能被正确到的能力,具体如数据采集有哪几种模式,如何降噪,如何获取环境信息等;第2段是Understanding(正确理解),即已被接收的反馈信息如何被正确理解,具体如Understanding分析中哪些是定性分析,哪些是定界分析,哪些是定位分析等;第3段是Backing(优化、循环),即如何行动和验证改进的持续有效性,具体如补充缺失知识、做好分片、结果评测等。
根据以上3大段的AI反馈循环所需要的业务能力结合对应的组织、流程,即可设计一份反馈热循环的解决方案。

关于“应用+AI”反馈热循环的思考,今天我就分享到这里,欢迎小伙伴在评论区互动交流。
相关文章:
华为大咖说丨如何通过反馈机制来不断优化大模型应用?
本文分享自时习知 作者:袁泉(华为AI数据工程专家)全文约3015字,阅读约需8分钟 大模型应用正式投入使用后,存在一个较为普遍的情况:在利用“大模型提升业务运营效率”的过程中,业务部门和IT团队…...
上海亚商投顾:沪指缩量震荡 风电、传媒股集体走强
上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 市场全天缩量震荡,三大指数集体收涨,北证50则跌超7%,超80只北交所个股跌逾…...
三磺酸-Cy3.5-羧酸在水相环境中表现良好,能够提高成像的清晰度和准确性
一、基本信息 中文名称:三磺酸-Cy3.5-羧酸,水溶性Cy3.5 羧基 英文名称:trisulfo-Cy3.5-carboxylic acid,trisulfo-Cy3.5-COOH,trisulfo-Cyanine3.5-COOH 分子式:C41H44N2NaO11S3- 分子量:85…...
国标GB28181视频平台EasyGBS国标GB28181软件实现无需插件的视频监控对讲和网页直播
在当今社会,视频监控已经成为公共安全、企业管理、智能城市建设等领域不可或缺的一部分。然而,由于不同厂家和平台之间的兼容性问题,视频监控系统的联网和整合面临巨大挑战。为了解决这个问题,国家制定了《公共安全视频监控联网系…...
mac nwjs程序签名公证(其他mac程序也一样适用)
为什么需要公证 mac os14.5之后的系统,如果不对应用进行公证,安装,打开,权限使用上都会存在问题,而且有些问题你强制开启(sudo spctl --master-disable)使用后可能会有另外的问题, …...
网络应用技术 实验一:路由器实现不同网络间通信(华为ensp)
目录 一、实验简介 二、实验目的 三、实验需求 四、实验拓扑 五、实验任务及要求 1、任务 1:完成网络部署 2、任务 2:设计全网IP 地址 3、任务 3:实现全网主机互通 六、实验步骤 1、在ensp中部署网络 2、配置各主机 IP地址、子网掩…...
使用 Qt GRPC 构建高效的 Trojan-Go 客户端:详细指南
使用 Qt GRPC 构建高效的 Trojan-Go 客户端:详细指南 初识 Qt 和 gRPC 什么是 Qt?什么是 gRPC? 项目结构概述创建 proto 文件定义 API 下载 api.proto 文件解析 proto 文件 1. package 与 option 语句2. 消息类型定义 TrafficSpeedUserUserSt…...
【mysql进阶】5-事务和锁
mysql 事务基础 1 什么是事务 事务是把⼀组SQL语句打包成为⼀个整体,在这组SQL的执⾏过程中,要么全部成功,要么全部失败,这组SQL语句可以是⼀条也可以是多条。再来看⼀下转账的例⼦,如图: 在这个例⼦中&a…...
指增和中性产品的申赎加减仓及资金调拨自动化伪代码思路
定义一些关键字代表的意义 STRUCT: 代表需要输入的格式化的信息IMPORT: 代表需要输入的外部信息, 这些信息通常是客观的SEARCH: 需要从某地比如数据库检索搜集信息SUM: 一种宏观的加和操作, 比如两个股票户ABAB,微观上实际还是有差异GROUP: …...
【论文分享】居住开放空间如何影响老年人的情感:使用可穿戴传感器的现场实验
本研究首次通过跟踪实时、高分辨率的环境暴露和情绪反应来研究和比较不同质量住宅社区中的居住开放空间(ROS)与老年人情绪之间关联;并采用混合方法,包括可穿戴传感器和问卷调查,收集了中国广州老年居民的客观和主观住宅…...
入门 | Prometheus+Grafana 普罗米修斯
#1024程序员节|征文# 一、prometheus介绍 1、监控系统组成 一个完整的监控系统需要包括如下功能:数据产生、数据采集、数据存储、数据处理、数据展示、分析、告警等。 (1)、数据来源 数据来源,也就是需要监控的数据…...
制作Ubuntu根文件系统
制作Ubuntu根文件系统: gunzip ubuntu-base-22.04.5-base-arm64.tar.gz mkdir ubuntu tar xvpf ubuntu-base-22.04.5-base-arm64.tar -C ubuntu 挂载目录、复制dns、执行chroot cd /userdisk/ubuntu cp /etc/resolv.conf ./etc/resolv.conf mount --bind /dev ./d…...
16个最佳测试管理工具(2024)
1、前言 测试管理解决方案能够帮助你捕捉测试需求、设计测试用例、生成测试执行报告、管理资源等。软件质量的疏忽可能导致公司遭受巨大的经济损失、声誉损害或面临诉讼风险。一个优秀的测试管理工具是防止缺陷和故障进入生产环节的关键。 2、PractiTest 功能特点&#x…...
基于知识图谱的猕猴桃种植技术问答系统
猕猴桃怎么种植更高效、病虫害怎么防治、最适宜的气候条件有哪些?作为一名科技研发迷,这些问题是不是听起来很有挑战性?咱们今天就来聊聊一个特别的研发项目——基于知识图谱的猕猴桃种植技术问答系统。这不仅仅是一个农业项目,它…...
Swift雨燕蜂窝无线通信系统介绍
本文博客链接:jdh99-CSDN博客,作者:jdh,转载请注明. 1. 概述 物联网小无线通信技术众多,其中大多是小范围小规模的无线通信技术,而行业难点是如何做到广覆盖、大容量、低功耗。 针对以上难点,宏讯物联研发了Swift雨燕蜂窝无线通信技术&…...
【ZZULI】数据库第二次实验
【ZZULI】数据库第二次实验 创建学生信息管理系统的数据库通过T-SQL语句创建学生表、课程表、选课表创建学生表创建课程表创建选课表 修改表结构。为SC表添加写的列,列名为备注修改备注列的数据长度。删除SC表的备注列。 通过T-SQL语句对表的列添加约束,…...
Javaee---多线程(一)
文章目录 1.线程的概念2.休眠里面的异常处理3.实现runnable接口4.匿名内部类子类创建线程5.匿名内部类接口创建线程6.基于lambda表达式进行线程创建7.关于Thread的其他的使用方法7.1线程的名字7.2设置为前台线程7.3判断线程是否存活 8.创建线程方法总结9.start方法10.终止&…...
Java后端面试内容总结
先讲项目背景,再讲技术栈模块划分, 讲业务的时候可以先讲一般再特殊 为什么用这个,好处是什么,应用场景 Debug发现问题/日志发现问题. QPS TPS 项目单元测试,代码的变更覆盖率达到80%,项目的复用性高…...
DC-1渗透测试
DC1 五个flag的拿取(截图是五个flag里面的内容) 注意事项:kali的用户名:root 密码:kali 注意:DC1 只要开机服务就起来了 思路:信息收集—> 寻找漏洞—> 利用漏洞(sql注入,文件上传漏洞…...
深度剖析:电商 API 接口如何成就卓越用户体验
在电商领域的激烈竞争中,提供卓越的用户体验已成为企业脱颖而出的关键。而电商 API 接口在其中扮演着举足轻重的角色,它如同电商平台的神经系统,连接着各个关键环节,为用户带来无缝、高效且个性化的购物之旅。 一、极速响应&#…...
OpenClaw Dashboard:AI智能体集群的实时可视化指挥中心设计与部署
1. 项目概述:OpenClaw Dashboard,一个为AI智能体集群打造的实时指挥中心如果你正在运行一个OpenClaw智能体集群,或者对构建多智能体系统感兴趣,那么你很可能面临一个共同的痛点:如何清晰地掌控全局?当几十甚…...
NCCL watchdog timeout 先别只会加 timeout:PyTorch 新出的 Flight Recorder,真正值钱的是能把第一处 collective 分歧揪出来
NCCL watchdog timeout 先别只会加 timeout:PyTorch 新出的 Flight Recorder,真正值钱的是能把第一处 collective 分歧揪出来 很多人第一次遇到 NCCL watchdog timeout,第一反应都是三件事:查网络、调大 timeout、怀疑 NCCL 又炸了。这个顺序经常不够用。因为在很多真实训…...
仅限首批Beta开发者访问的Gemini Calendar高级API权限池即将关闭——现在掌握这6个私有端点将决定你团队的2025排期话语权
更多请点击: https://intelliparadigm.com 第一章:Gemini Google Calendar智能安排 Gemini 与 Google Calendar 的深度集成正在重塑日程管理范式。通过 Google Workspace 的授权 API 与 Gemini 的自然语言理解能力协同,用户可直接用日常语句…...
LangGraph、OpenClaw、Hermes:三种 Agent 路线,不是一回事
开头 这两年,只要聊到 Agent,绕不开三个名字:LangGraph、OpenClaw、Hermes。 它们都很火。 但也很容易被混在一起。 有人把 LangGraph 当成一个“Agent 产品”。 有人把 OpenClaw 当成一个“Agent 框架”。 也有人把 Hermes 理解成“另…...
从Distributed到Lumped:三种SPEF寄生模型,你的芯片时序分析该选哪一个?
芯片时序分析中的SPEF模型选择:精度与效率的终极权衡 在28nm以下工艺节点,互连线寄生效应导致的时序偏差可能占到整体时钟周期的30%以上。面对动辄数千万个net的现代SoC设计,工程师们不得不在模型精度与运行时间之间做出艰难抉择。就像一位资…...
【PTA实战】矩阵乘法:从输入格式到核心算法的完整解析
1. 矩阵乘法在PTA平台的核心挑战 第一次在PTA平台做矩阵乘法题时,我被那个"格式卡顿"坑得差点怀疑人生。明明算法逻辑完全正确,提交后却总是提示"格式错误",这种经历相信很多同学都遇到过。矩阵乘法作为线性代数的基础运…...
FPGA上做图像压缩,别从零造轮子!聊聊DCT那些开源IP核与设计技巧
FPGA图像压缩实战:DCT开源IP核选型与架构优化指南 在嵌入式视觉系统开发中,JPEG图像压缩是FPGA工程师经常遇到的需求场景。当项目周期紧张且资源有限时,明智的开发者会优先考虑利用经过验证的开源IP核,而非从零开始实现离散余弦变…...
从零到上手:用LDAP Browser连接和管理你的OpenLDAP服务器(Windows平台实战)
从零到上手:用LDAP Browser连接和管理你的OpenLDAP服务器(Windows平台实战) 在企业级身份认证体系中,LDAP(轻量级目录访问协议)扮演着核心角色。许多技术团队虽然已经部署了OpenLDAP服务端,却苦…...
别再死记硬背了!Vivado伪双口RAM的wea/ena信号,这次用仿真波形给你讲透
深入解析Vivado伪双口RAM控制信号:从波形图看wea/ena关键设计 在FPGA开发中,存储器设计一直是性能优化的关键环节。Xilinx Vivado工具链提供的伪双口RAM IP核因其灵活性和高效性,成为许多高速数据处理系统的首选方案。然而,不少开…...
BIGEMAP自定义在线地图源:从零到一构建专属底图库
1. 为什么需要自定义地图源? 在日常工作中,我们经常会遇到这样的场景:项目需要特殊的地图底图,但软件内置的地图源无法满足需求;或者需要叠加多个地图源进行对比分析;又或者某些专业领域需要特定的地图数据…...
