成为AI产品经理——模型评估概述
目录
一、模型宣讲和评估的原因
二、模型宣讲
三、模型评估
1. 重要特征
① 特征来源
②特征意义
2.选择测试样本
3.模型性能和稳定性
一、模型宣讲和评估的原因
刘海丰老师提到他们在做一个金融AI产品未注重模型指标,过于注重业务指标,导致产生了大量的业务损失。
主要问题为:
1.模型上线未评估
2.模型上线未监控
3.特征无评估、无监控
因此他们增加了模型宣讲和模型评估的节点,对这两个节点的工作内容和交付物做了相应的规定。
二、模型宣讲
首先算法同学在宣讲之前给产品经理交付模型报告。
模型报告包括:模型设计、算法选型、特征来源、测试结果。
产品经理在看过模型报告之后请算法同学进行模型宣讲,宣讲内容为:
1.为什么选择这个算法?
2.选择了哪些特征?
3.训练样本是哪些?
4.测试的方案和结果是什么?
宣讲目的是搞清楚算法的逻辑且对于算法同学容易忽略的三个问题进行评估:
1.特征的来源:来源是否合理,避免出现后续特征无法获取的情况
2.训练样本的合理性:避免选择的样本数据和业务数据不符合,比如:样本太久
3.测试结果是否符合预期:测试结果太好或者太差,无法满足业务预期
这里是我们给模型上线的第一道保障。在这个环节中,我们需要知道算法的基本逻辑,特征来源的稳定性,训练样本的合理性以及测试结果是否符合预期,我们对于模型进行粗略的评估。
三、模型评估
很多同学对于模型宣讲和模型评估之间的差异有疑惑,这里说明一下:
模型宣讲我们只是进行粗略评估,但是此时的模型评估环节我们要站在业务的角度上对模型进行详细的评估。
模型评估产物:输出模型验收报告。
这里是刘老师给出的一个例子,不同业务标准的评估指标不相同,可以进行相应的调整。
1.重要特征
2.选择测试样本
3.模型性能和稳定性测试结果
1. 重要特征
我们需要列出重要特征,对于每一个重要特征的来源和意义进行评估。
① 特征来源
如果这个特征来自于外部数据,那么我们就要关注这个特征的可持续性和稳定性。
②特征意义
这个特征是否符合业务或者是否符合常理。eg:我们要用到夜间购物特征,如果这个特征设置在23点-2点不合理。一般设置在0点-5点。
2.选择测试样本
我们需要根据业务的场景和特性选择指标,比如我们观察一个线上商城的购买量,我选择的测试样本应该是2019.1-2019.12月的样本,因为购买能力会根据季节和周期进行浮动,我们应该尽量全面的选择样本。选择好测试样本之后我们交给算法同学进行测试,看是否达到业务预期效果。
注意样本的选择直接决定了测试结果,所以一定要谨慎选择,符合业务场景。
3.模型性能和稳定性
模型性能和稳定性是最最重要的,直接决定了模型是否能够上线。
模型性能分为四步进行评估:
- 评估重要特征的测试结果是否符合预期:包括特征IV,KS等等
- 评估重要特征的稳定性:一般是PSI值(PSI<0.2)
- 评估模型性能测试结果是否符合预期:包括模型KS、AUC、MSE等等
- 评估模型的稳定性,一般也是PSI值(PSI<0.2)
如果一个算法是回归模型,就不需要AUC和KS这些指标啦,随机应变。

至此,模型验收结束,就可以进行后期的模型部署,工程开发,集成测试,集成验收,产品上线的环节了。
产品上线流程图如下所示:

参考文献:刘海丰——《成为AI产品经理》
相关文章:
成为AI产品经理——模型评估概述
目录 一、模型宣讲和评估的原因 二、模型宣讲 三、模型评估 1. 重要特征 ① 特征来源 ②特征意义 2.选择测试样本 3.模型性能和稳定性 一、模型宣讲和评估的原因 刘海丰老师提到他们在做一个金融AI产品未注重模型指标,过于注重业务指标,导致产生…...
内存屏障与JVM指令
内存屏障是一种同步原语,用于确保在并发程序中,当一个线程对内存中的数据进行修改后,其他线程可以及时地获取到最新的数据。 内存屏障可以确保指令的执行具有原子性、可见性和顺序性。在JVM中,内存屏障通常通过插入一段特殊的指令…...
深入理解JVM 类加载机制
深入理解JVM 类加载机制 虚拟机如何加载Class文件? Class文件中的信息进入到虚拟机后会发生什么变化? 类加载机制就是Java虚拟机把描述类的数据从Class文件加载到内存,并对数据进行校验、转换解析和初始化,最终形成可以被虚拟机…...
SpringCloud微服务 【实用篇】| Eureka注册中心、Ribbon负载均衡
目录 一:Eureka注册中心 1. Eureka原理 2. 动手实践 ①搭建EurekaServer ②服务注册 ③服务发现 二:Ribbon负载均衡 1. 负载均衡原理 2. 负载均衡策略 3. 懒加载 tips:前些天突然发现了一个巨牛的人工智能学习网站,通俗…...
SpringSecurity+JWT权限认证
SpringSecurity默认的是采用Session来判断请求的用户是否登录的,但是不方便分布式的扩展 虽然SpringSecurity也支持采用SpringSession来管理分布式下的用户状态,不过现在分布式的还是无状态的Jwt比较主流 一、创建SpringBoot的项目 spring-boot-starte…...
Tomcat实现WebSocket即时通讯 Java实现WebSocket的两种方式
HTTP协议是“请求-响应”模式,浏览器必须先发请求给服务器,服务器才会响应该请求。即服务器不会主动发送数据给浏览器。 实时性要求高的应用,如在线游戏、股票实时报价和在线协同编辑等,浏览器需实时显示服务器的最新数据&#x…...
安全框架springSecurity+Jwt+Vue-2(后端开发)
一、创建项目及配置 ①:创建新的项目及常用包 ②:引入依赖和配置 devtools:项目的热加载重启插件 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId&…...
6.1.webrc媒体协商
那今天呢?我们来看一下y8 rtc的媒体协商,那实际上在我们之前的课程中呢?我已经向你介绍过y8 rtc的媒体协商了。只不过呢,角度是不一样的,在之前介绍外边tc媒体协商的时候呢,我们是从应用的角度来看。那web …...
Android WebView中打开外部超链接无反应
什么是外部超链接? 相当于是跳转到一个新的网址页面 解决方案选择: 1.在WebView内部中打开外部超链接 设置setSupportMultipleWindows为false即可 webView.settings.setSupportMultipleWindows(false)2.打开系统浏览器打开新页面 设置setSupportMul…...
JMeter集结点的使用场景以及如何使用?
JMeter是一个开源的负载测试工具,它被广泛用于测试应用程序、Web服务和网络协议等的性能。在JMeter中,集结点(JMeter Cluster)是一种分布式测试环境,它允许多个JMeter实例同时工作来模拟高并发负载。 使用集结点的场景…...
2023最新面试题
第一家 自我介绍介绍一下最近一个(最熟悉的一个)项目 项目几个人在负责 项目实际在用了吗,哪个平台在用啊(在哪里上线) 你认为你自己做的项目里面哪个比较难做呢,项目里面有什么难点?常用的是V…...
shell 脚本的函数和数组
函数 —— 封装的一个公式:sin、cos、tan —— 函数为脚本的别名 —— 函数就是一个功能模块,在函数中写执行的命令即可;使用函数可以避免代码重复,增加可读性,简化脚本,使用函数可以将大的工程分割为若…...
【RocketMq系列-02】RocketMq的架构解析和高性能设计
RocketMq系列整体栏目 内容链接地址【一】RocketMq安装和基本概念https://zhenghuisheng.blog.csdn.net/article/details/134486709【二】RocketMq的架构解析和高性能设计/font>https://zhenghuisheng.blog.csdn.net/article/details/134559514 RocketMq的架构解析和高性能设…...
【数据结构/C++】线性表_单链表的基本操作
#include <iostream> using namespace std; // 2. 单链表 // ElemType 的定义 typedef int ElemType; typedef struct LNode {ElemType data;struct LNode *next; } LNode, *LinkList; // 初始化单链表 bool InitList(LinkList &L) {L (LNode *)malloc(sizeof(LNode…...
flink1.13.6版本的应用程序(maven版)
问题 想要一个指定flink版本的java计算任务hello world最简工程。 解决 mvn archetype:generate \-DarchetypeGroupIdorg.apache.flink \-DarchetypeArtifactIdflink-quickstart-java \-DarchetypeVersion1.13.6这里直接使用官方mave模版工程,指…...
深度学习之四(循环神经网络Recurrent Neural Networks,RNNs)
概念 循环神经网络(Recurrent Neural Networks,RNNs)是一类专门用于处理序列数据的神经网络,它在处理时考虑了序列数据的顺序和上下文信息。RNNs 在自然语言处理、时间序列分析、语音识别等领域得到广泛应用。 1. 基本结构: RNN 的基本结构包含一个或多个循环单元,每个…...
【论文精读】HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face 前言Abstract1 Introduction2 Related Works3 HuggingGPT3.1 Task PlanningSpecification-based InstructionDemonstration-based Parsing 3.2 Model SelectionIn-context Task-model Assignment 3…...
安装gitlab
安装gitlab 环境 关闭防火墙以及selinux,起码4核8G 内存至少 3G 不然启动不了 下载环境 gitlab官网:GitLab下载安装_GitLab最新中文基础版下载安装-极狐GitLab rpm包下载地址: [Yum - Nexus Repository Manager (gitlab.cn)](https://pack…...
Nginx模块开发之http handler实现流量统计(1)
文章目录 一、handler简介二、Nginx handler模块开发2.1、示例代码2.2、编写config文件2.3、编译模块到Nginx源码中2.4、修改conf文件2.5、执行效果 三、Nginx的热更新总结 一、handler简介 Handler模块就是接受来自客户端的请求并产生输出的模块。 配置文件中使用location指令…...
JSP编写自己的第一个WebServlet实现客户端与服务端交互
我们在项目中找到java目录 下面有一个包路径 然后 我们在下面创建一个类 我这里叫 TransmissionTest 当然 名字是顺便取的 参考代码如下 package com.example.dom;import javax.servlet.ServletException; import javax.servlet.annotation.WebServlet; import javax.servlet…...
BongoCat终极指南:如何让你的桌面猫咪活起来
BongoCat终极指南:如何让你的桌面猫咪活起来 【免费下载链接】BongoCat 🐱 跨平台互动桌宠 BongoCat,为桌面增添乐趣! 项目地址: https://gitcode.com/gh_mirrors/bong/BongoCat 想象一下,当你敲击键盘时&#…...
JAX向量化超简单
💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 JAX向量化:解锁高效计算的极简之道目录JAX向量化:解锁高效计算的极简之道 引言:为什么向量化…...
量子中继器技术:原理、实现与应用
1. 量子纠缠与量子网络基础量子纠缠是量子力学最神奇的现象之一。当两个或多个量子系统处于纠缠态时,无论它们相距多远,对一个系统的测量会瞬间影响其他系统的状态。这种非局域特性最早由爱因斯坦称为"鬼魅般的超距作用",如今却成为…...
SpringBoot项目从Nacos 1.x升级到2.x,客户端报9848端口错误?这份平滑升级指南请收好
SpringBoot项目Nacos 1.x到2.x升级实战:彻底解决9848端口报错问题 微服务架构的演进过程中,配置中心作为基础设施的核心组件,其稳定性直接影响整个系统的可靠性。Nacos从1.x到2.x的版本升级引入了gRPC通信机制,这一架构优化在提升…...
PowerShell ImportExcel模块:无需Excel的完整数据处理终极指南
PowerShell ImportExcel模块:无需Excel的完整数据处理终极指南 【免费下载链接】ImportExcel PowerShell module to import/export Excel spreadsheets, without Excel 项目地址: https://gitcode.com/gh_mirrors/im/ImportExcel 你是否曾为Excel数据处理而烦…...
Flux2 Klein动漫转写实:亚裔人像生成技巧,附核心提示词与案例
Flux2 Klein动漫转写实:亚裔人像生成技巧,附核心提示词与案例 1. 为什么需要动漫转写实技术? 在数字内容创作领域,将动漫形象转化为写实风格一直是个技术难点。传统方法需要美术师手动重绘,耗时耗力且难以保持角色特…...
保姆级教程:用Traefik CRD(IngressRoute)在K8s里优雅地管理微服务路由,告别传统Ingress
云原生网关进阶:Traefik CRD在Kubernetes中的高阶路由实践 当微服务架构遇上Kubernetes,服务路由管理便成为每个开发者必须面对的挑战。传统Ingress资源虽然简单易用,但在复杂路由场景下往往力不从心。这正是Traefik CRD大显身手的时刻——它…...
如何快速获取金融数据:Python量化交易的终极解决方案
如何快速获取金融数据:Python量化交易的终极解决方案 【免费下载链接】efinance efinance 是一个可以快速获取基金、股票、债券、期货数据的 Python 库,回测以及量化交易的好帮手!🚀🚀🚀 项目地址: https…...
别再手动拖参考线了!用这个InDesign JS脚本,5分钟搞定批量对齐(附完整源码)
InDesign高效排版神器:5分钟批量对齐参考线脚本全解析 每次面对画册内页的几十张产品图对齐时,你是否还在重复"拉参考线-微调-再拉参考线"的机械操作?我曾为某品牌年度产品目录排版时,整整两天时间都耗费在参考线的拖拽…...
如何掌握Flux Standard Action:isFSA和isError工具函数的终极指南
如何掌握Flux Standard Action:isFSA和isError工具函数的终极指南 【免费下载链接】flux-standard-action A human-friendly standard for Flux action objects. 项目地址: https://gitcode.com/gh_mirrors/fl/flux-standard-action Flux Standard Action&am…...
