当前位置: 首页 > news >正文

NLP中的对话机器人——模型的评估

引言

本文是七月在线《NLP中的对话机器人》的视频笔记,主要介绍FAQ问答型聊天机器人的实现。

模型的评估

我们如何评估模型的好坏?由于我们的数据集没有提供测试数据,所以我们很难评估模型的好
坏。如果我们要做非常严谨的评估,最好是能够制作一个验证数据集,包括训练数据中不存在的
新问题,与该问题最相近的已知问题,以及问题的答案。

虽然我们实现的是FAQ问答机器人,但实际上解决的是搜索问题,比如给定问题查找最相似问题的答案。

MRR

评估指标可以采用Mean Reciprocal Rank(MRR), 这是一个推荐系统的评价指标,也就是正确答案在推荐答案中的排名的倒数平均。

MRR的原理如下:
MRR=1∣Q∣∑i=1∣Q∣1ranki\text{MRR} = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{\text{rank}_i} MRR=Q1i=1Qranki1

假设给定一个问题,你知道它的正确答案是什么。模型会在整个数据集上进行搜索,它会给数据集中的每个问题打一个分数,我们就知道正确答案被模型排到哪个位置。
正确答案排名越高表示系统越好,MRR表示的是最佳答案排名的倒数。最佳答案排名是1到样本总数n,那么倒数是就是0到1之间的数值。然后对所有问题样本计算的该数值求平均,得到的还是0到1之间的数值。分数越接近1表示模型越好。

其代码实现如下:


def mean_reciprocal_rank(rs):"""Score is reciprocal of the rank of the first relevant itemFirst element is 'rank 1'.  Relevance is binary (nonzero is relevant).Example from http://en.wikipedia.org/wiki/Mean_reciprocal_rank>>> rs = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]>>> mean_reciprocal_rank(rs)0.61111111111111105>>> rs = np.array([[0, 0, 0], [0, 1, 0], [1, 0, 0]])>>> mean_reciprocal_rank(rs)0.5>>> rs = [[0, 0, 0, 1], [1, 0, 0], [1, 0, 0]]>>> mean_reciprocal_rank(rs)0.75Args:rs: Iterator of relevance scores (list or numpy) in rank order(first element is the first item)Returns:Mean reciprocal rank"""rs = [np.asarray(r).nonzero()[0] for r in rs]return np.mean([1. / (r[0] + 1) if r.size else 0. for r in rs])

从注释中可知,rs = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]表示正确答案的位置,比如第一个问题正确答案在位置3;第二个问题正确答案在位置2;第三个问题正确答案在位置1。

np.nonzero()返回非零元素的位置,可能有多个,因此返回的是数组。但这里实际上只有一个,nonzero()[0]得到它的位置。

rs = [[0, 0, 1], [0, 1, 0], [1, 0, 0]]
rs = [np.asarray(r).nonzero()[0] for r in rs]
rs
[array([2]), array([1]), array([0])]

这里表示我们只关注模型返回的前3个最相似问题,其中正确答案分别在位置3,位置2,和位置1。

np.mean([1. / (r[0] + 1) if r.size else 0. for r in rs])
0.611111111111111

如果某个结果中一个正确答案都没有,那么它的大小(size)就是0,得分就是0。否则得分为位置的倒数(索引才0开始,加1变成了位置)。

参考

  1. https://gist.github.com/bwhite/3726239

相关文章:

NLP中的对话机器人——模型的评估

引言 本文是七月在线《NLP中的对话机器人》的视频笔记,主要介绍FAQ问答型聊天机器人的实现。 模型的评估 我们如何评估模型的好坏?由于我们的数据集没有提供测试数据,所以我们很难评估模型的好 坏。如果我们要做非常严谨的评估&#xff0c…...

数据挖掘知识规整与心得体会

一.大数据的特点: 数据多,类型多,更新快,更新内容多。 二.分类(classification)与混淆矩阵(confusion matrix) 这里的分类说的是二分类问题,比如说把人分为好人和坏人&a…...

修正一些formdesigner的一些bug与操作

之前集成了formdesigner表单设计器,但还是有些问题,所以进行一些bug修复与功能修正 一、之前组件布局的图标不见了 在main.js里增加下面一行 import /components/formdesigner/assets/iconfont/iconfont.js 效果如下: 二、选择列表没有数…...

前端网络安全

什么是同源策略同源指的是:协议、端口号、域名必须一致。他是浏览器的一个用于隔离潜在恶意文件的重要安全机制。限制了从同一个源加载的文档或脚本,与另一个源的资源进行交互。同源策略主要限制了三个方面:当前域下的js脚本不能够访问其他域…...

docker内存统计

在docker里top和在docker外top看内存都是没有变化的,但是用docker stats看mem uasge就一直在涨top命令和docker stats命令采集内存使用的方式不同所致。top命令采集的是当前进程的内存使用情况,而docker stats命令采集的是整个Docker容器的内存使用情况。…...

【IDEA】IDEA使用有道翻译引擎—详细配置步骤

目录 前言 步骤一:下载翻译工具Translate 步骤二:注册登录有道云平台 步骤三:配置有道翻译 前言 2022年10月 谷歌翻译已经不在中国了,所以IDEA配置谷歌翻译会出错。 步骤一:下载翻译工具Translate 打开idea设置set…...

js求解《初级算法》56.最长公共前缀

一、题目描述 编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀,返回空字符串 ""。 输入:strs ["flower","flow","flight"] 输出:"fl" 输入:strs ["…...

嵌入式Linux(二十四)系统烧写

将uboot,linux kernel,.dtb,rootfs烧写到板子上的EMMC上,避免断网导致不能运行。 1. MfgTool工具介绍 一路解压之后,得到以下两项: ①Profiles文件夹:后续烧写文件放到这个文件夹。  其中关注…...

【ECNU】3496. 贪吃的 xjj 和贪心的 oxx(C++)

目录 题目 输入格式 输出格式 样例 提示 思路 代码 题目 单点时限: 2.0 sec 内存限制: 256 MB oxx 与 xjj 终于到了 Xiamen,他们第一件事就是去吃当地著名的特产椰子饼。 他们共买了 n 盒礼盒,第 i 盒含 ai 块椰子饼。oxx 与 xjj 约定让 oxx …...

【iOS】设置背景渐变色

drawRect函数 主要负责iOS的绘图操作,程序会自动调用此方法进行绘图。我在这个函数中绘制渐变背景色。 方法定义: -(void)drawRect:(CGRect)rect; 重写此方法,执行重绘任务-(void)setNeedsDisplay; 标记为需要重绘,异步调用dra…...

Scrapy框架(高效爬虫)

文章目录一、环境配置二、创建项目三、scrapy数据解析四、基于终端指令的持久化存储1、基于终端指令2、基于管道3、数据同时保存至本地及数据库4、基于spider爬取某网站各页面数据5、爬取本页和详情页信息(请求传参)6、图片数据爬取ImagesPipeline五、中…...

程序设计语言-软件设计(二十一)

数据结构与算法(二十)快速排序、堆排序(四)https://blog.csdn.net/ke1ying/article/details/129269655 这篇主要讲的是 编译与解释、文法、正规式、有限自动机、表达式、传值与传址、多种程序语言特点。 编译的过程 解释型 和 编译型 编译型过程&#…...

【小破站下载工具】Python tkinter 实现网站下载工具,所有数据一键获取

目录前言开发环境本次项目案例步骤先展示下完成品的效果界面导入模块先创建个窗口功能按键主要功能代码编写功能一功能二功能三前言 最近很多同学想问我,怎么把几个代码的功能集合到一起? 很简单,写一个界面就行了,想要哪个代码…...

C51---IO口状态翻转

1.example #include "reg52.h" #include "intrins.h" //main.c(11): error C264: intrinsic _nop_: declaration/activation error,?????????? sbit led1 P3^7;//????,??????? sbit key1 P2^1; sbit key2 P2^0; void Delay50ms()…...

2023年春【移动计算技术】文献精读(一)-1 ||| 附:【Markdow语法】向上取整 向下取整。

沉默着走了有 // 多遥远 // 抬起头 // 蓦然间 // 才发现 // 一直倒退 // 倒退到原点 // 倔强坚持 // 对抗时间 “在光芒万丈之前,我们都要欣然接受眼下的难堪和不易,接受一个人的孤独和偶然无助,认真做好眼前的每件事,你想要的都会有。”——毕淑敏 🎯作者主页:追光者♂…...

Java 包装类的二进制操作

Integer 位翻转 位翻转就是将二进制左边的位与右边的位进行互换,reverse 是按位进行互换, reverseBytes 是按 byte 进行互换。 public static int reverse(int i)public static int reverseBytes(int i)来看个例子: int a 0x12345678; S…...

CSS居中之 { left:50%; top:50%; transform:translate(-50%,-50%); }

CSS居中之 { left:50%; top:50%; transform:translate(-50%,-50%); } left:50%; top:50%; transform:translate(-50%,-50%); left:50%; top:50%; transform:translate(-50%,-50%);也可以写成: left:50%; top:50%; translate: -50% -50%; left:50%; top:50%; translate: -50%…...

AcWing 4868. 数字替换(DFS + 剪枝优化)

AcWing 4868. 数字替换(DFS 剪枝优化)一、问题二、思路三、代码一、问题 二、思路 题目中要求变换次数最小,其实第一印象应该是贪心,即我们每一次都去成各位中最大的那个数字。但是这个想法很容易推翻。因为你这次乘了一个最大的…...

【教学典型案例】01.redis只管存不管删除让失效时间删除的问题

目录一:背景介绍二:redis1)redis数据类型①String(字符串)②Hash(哈希)③List(列表)④Set(集合)2)缓存同步①设置有效期②同步双写③异步通知3&am…...

电话号码管理

电话号码管理 文章目录 电话号码管理综述链表结构initcreatedeleteallfreeANSI颜色转义颜色列表如下:字背景颜色范围:40--49 字颜色: 30--39输出特效格式控制:光标位置等的格式控制:Makefile顶层Makefilescripts Makefilesearch main init include display delete create all…...

QQ音乐加密文件自由播放全攻略:qmcdump工具深度应用指南

QQ音乐加密文件自由播放全攻略:qmcdump工具深度应用指南 【免费下载链接】qmcdump 一个简单的QQ音乐解码(qmcflac/qmc0/qmc3 转 flac/mp3),仅为个人学习参考用。 项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 一、…...

3天从零到精通:录播姬全方位实战指南

3天从零到精通:录播姬全方位实战指南 【免费下载链接】BililiveRecorder 录播姬 | mikufans 生放送录制 项目地址: https://gitcode.com/gh_mirrors/bi/BililiveRecorder 你是否曾经因为错过心爱主播的直播而感到遗憾?是否在录制直播时遇到各种技…...

手把手教你用华为昇腾A2-910b显卡,一键部署中文Embedding和Rerank模型

华为昇腾A2-910b实战:中文Embedding与Rerank模型高效部署指南 当你在深夜的办公室里盯着昇腾显卡的报错日志时,可能正经历着每个AI工程师都熟悉的"部署地狱"。别担心,这份指南将带你绕过所有坑点,用最直接的方式在华为A…...

牛批了,大佬汉化版,非常实用

今天给大家推荐一款U盘容量检测工具,一款是注册表修复工具,有需要的小伙伴可以下载收藏。 第一款:validrive 市面上的U盘很多是假冒伪劣产品,有的U盘标着1T或者2T的存储空间,但实际上可能只有32G或者64G。 想要知道到底…...

基于STM32CubeMX HAL库的RS485半双工通信实战指南

1. RS485通信基础与STM32开发环境搭建 第一次接触RS485通信时,我被它独特的半双工特性深深吸引。想象一下双向单车道的马路,车辆只能单向交替通行,这就是半双工的精髓。相比全双工需要两根数据线的设计,RS485仅用一对双绞线就能实…...

虚拟电厂之后,最先不够用的为什么是老一套功率预测和经营逻辑?

2026年开年,新能源圈最火的话题是什么?不是组件价格,不是储能成本,而是——虚拟电厂。1月初,江苏省发改委正式印发《关于促进我省虚拟电厂高质量发展的通知》,同步公布全省首批100个虚拟电厂建设项目清单。…...

Phi-3-vision-128k-instruct Ollama国内镜像源加速部署与多模型管理

Phi-3-vision-128k-instruct Ollama国内镜像源加速部署与多模型管理 1. 为什么需要国内镜像源 如果你在国内尝试使用Ollama拉取Phi-3-vision这样的大型模型,可能会遇到下载速度慢甚至失败的问题。这是因为默认的模型仓库位于海外服务器,网络连接不稳定…...

Kandinsky-5.0-I2V-Lite-5s效果展示:手绘草图→线条流动+色彩渐变动态视频

Kandinsky-5.0-I2V-Lite-5s效果展示:手绘草图→线条流动色彩渐变动态视频 1. 模型简介 Kandinsky-5.0-I2V-Lite-5s是一款轻量级图生视频模型,它能将静态图片转化为约5秒、24fps的短视频。你只需要上传一张首帧图片,再补充一句运动或镜头描述…...

避开PLC烧毁陷阱:FX3S晶体管输出必须知道的7个细节(含虚设电阻计算)

避开PLC烧毁陷阱:FX3S晶体管输出必须知道的7个细节(含虚设电阻计算) 在工业自动化现场,FX3S系列PLC的晶体管输出模块烧毁问题堪称"隐形杀手"。去年某汽车生产线因一个0.5A保险丝选型错误导致全线停产8小时,损…...

ES6到ES10实战指南:这些JavaScript新特性你真的用对了吗?

ES6到ES10实战指南:这些JavaScript新特性你真的用对了吗? 1. 从语法糖到编程范式:重新理解ES6核心特性 2015年发布的ES6堪称JavaScript历史上最具革命性的更新。但五年过去了,很多开发者对这些特性的理解仍停留在表面。让我们深入…...