COMP 6714-Info Retrieval and Web Search笔记week1
哭了哭了,这周唯一能听懂的就这门
目录
- IR(Information Retrieval)是什么?
- IR的基本假设
- Unstructured (text) vs. structured
- Documents vs. Database Records
- 比较文本(Comparing Text)
- IR的范围(Dimensions of IR)
- IR的任务(IR Task)
- IR的大问题(Big Issues in IR)
- 相关性(relevance)
- 评估(Evaluation)
- Unranked retrieval evaluation:
IR(Information Retrieval)是什么?
不等同于search,不是做数据查询(database query)
The field of computer science that is most involved with R&D(research and development) for search is information retrieval (IR)
- 找 finding material(doctuments)
- 无结构 unstructured nature
- 大集合 an information need within large collection
IR的基本假设
- 集合(Collection) :一组文档,静态的(a static collection for the moment)
- 目标(Goal) :检索与用户需要的信息相关的文档(retrieve documents with information that is relevant to the user’s information
need and helps the user complete a task)
Unstructured (text) vs. structured
market cap 市场总值
90年代中期,大部分数据是非结构化的,而在行业里,大部分的钱都在结构化数据库上。如oracle、Microsoft SQL Server、IBM database、DB2

而到了2019年的时候,非结构数据更多了,在非结构化数据上花的钱也比结构化数据更多了(如chatgpt)
这让信息检索比以前更重要了
Documents vs. Database Records
数据库记录(或关系数据库中的元组tuple)通常由定义良好的字段field(或属性attribute)组成。数据库( fields with well-defined semantics)查询很容易,文本(text or documents)较难。
比较文本(Comparing Text)
将查询文本(query text)与文档文本(document text)进行比较,确定什么是好的匹配,是信息检索的核心问题(core issue)。
IR的范围(Dimensions of IR)
IR不仅仅是文本和网络搜索(虽然在这门课上是核心)

IR的任务(IR Task)
- 动态查询(Ad-hoc search):查找任意文本(arbitrary text)查询的相关文档
- 筛选(Filtering):又名信息传播(aka information dissemination),为新文档识别相关用户的profile(比如你告诉你的社交媒体你喜欢动漫,它可能以后会给你推这方面的)
- 分类(Classification):识别文档相关的标签
- 问题回答(Question answering):对问题给出一个具体的答案
IR的大问题(Big Issues in IR)
相关性(relevance)
- 话题相关(Topical relevance):same topic,不用管用户
- 用户相关(User relevance):用户说相关它就相关
所以话题相关更容易满足 - 检索模型(Retrieval model): 定义相关性的形式(define a view of relevance),比如boolean retrieval是binary的,要么对要么不对
- 排序算法(Ranking algorithms ):基于检索模型,如矢量模型(vector model)、概率模型(probability model)
- 大部分模型描述文本的统计属性(statistical properties)而不是语言属性(linguistic properties)
评估(Evaluation)
- 比较系统输出(system output)与用户期望(user expectations)的实验程序和措施
- 召回率(Recall)和准确率(precision) 是有效度量的两个例子
Unranked retrieval evaluation:
accuracy不是信息检索的词,accuracy很误导,我们不用accuracy来衡量信息检索而是Precision和Recall
- Precision:fraction of retrieved docs that are relevant = P (relevant|retrieved)
你搜索到的有多少是正确的样本? - Recall:fraction of relevant docs that are retrieved = P (retrieved|relevant)
在正确的样本中有多少正确的样本被搜索到了?
所以一个是关于retrieve,另一个是关于collection
- tp:true positive(相关,并且搜索到了)
- fp:false positive
- fn:false negative
- tn:true negative(不相关,并且没搜索到)
all the true are good stuff, all the false you don’t like
相关文章:
COMP 6714-Info Retrieval and Web Search笔记week1
哭了哭了,这周唯一能听懂的就这门 目录 IR(Information Retrieval)是什么?IR的基本假设Unstructured (text) vs. structuredDocuments vs. Database Records比较文本(Comparing Text)IR的范围(Dimensions of IR)IR的任…...
C++在Linux实现多线程和多进程的TCP服务器和客户端通信
多进程版本 服务器 #include <arpa/inet.h> #include <stdlib.h> #include <stdio.h> #include <string.h> #include <unistd.h> #include <sys/socket.h> #include <sys/wait.h> #include <signal.h> #include <string&…...
音视频开发常见的开源项目汇总
FFmpeg 地址:https://ffmpeg.org/介绍:FFmpeg 是一个非常强大的开源多媒体框架,它可以用来处理视频和音频文件。它支持多种格式的转换、编码、解码、转码、流处理等。FFmpeg 包括了 libavformat、libavcodec、libavutil、libswscale、libpos…...
Java操控Redis (面经之 使用Redis)
操控Redis的工具 ReactiveRedisTemplate 和 RedisTemplate : RedisTemplate: 它是一个通用的模板类,可以使用任何序列化策略来序列化和反序列化键和值。默认情况下,它使用 JdkSerializationRedisSerializer 序列化值,并使用 Strin…...
【计网】从零开始使用UDP进行socket编程 --- 服务端业务实现
在我们每个人都曾经历过“沮丧”时刻里, 如果我们不能对别人说有益的好话, 那我们最好还是什么也别说。 --- 卡耐基 《人性的弱点》--- 从零开始使用UDP进行socket编程 1 前情提要2 单词翻译2.1 业务需求2.2 设计字典类2.3 服务端与客户端逻辑2.4 运…...
正式发售!《黑神话:悟空》背后的技术力量——UE5与实时云渲染
千呼万唤始出来,《黑神话:悟空》终于在今年8月发售了,相信大家都已经玩起来了! 作为国产游戏的画质巅峰之作,《黑神话:悟空》凭借其令人叹为观止的画面质量和游戏体验,赢得了广泛的好评。这一切…...
qt-creator-10.0.2之后版本的jom.exe编译速度慢下来了
1、Qt的IDE一直在升级,qt-creator的新版本下载地址 https://download.qt.io/official_releases/qtcreator/ 2、本人一直用的是qt-creator-10.0.2版本,官网历史仓库可以下载安装包qt-creator-opensource-windows-x86_64-10.0.2.exe https://download.qt…...
2024CSP-J初赛全真模拟卷选择题篇(原创,难度偏简单)
注意,本卷由再临TSC原创,禁止转载! 本卷难度偏简单,若想要通过初赛本卷应拿80分左右 查看答案的方法: if(设备"PC") { 把光标移到答案上面,选中答案,就会显示(); } …...
【Android 13源码分析】WindowContainer窗口层级-4-Layer树
在安卓源码的设计中,将将屏幕分为了37层,不同的窗口将在不同的层级中显示。 对这一块的概念以及相关源码做了详细分析,整理出以下几篇。 【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树 【Android 13源码分析】WindowCon…...
C# 开发教程-中级教程
1.C# 多线程/异步 C# 异步编程Task整理(一) C# 异步编程Task整理(二)异常捕捉 C# 异步编程Task(三) async、await C#中创建线程,创建带参数的线程 C# 线程同步之排它锁/Monitor监视器类 C# lock关键词/lock语句块…...
【C++】c++的继承
目录 思维导图大纲: 1.基类和派生类 1.1 定义格式 1.2 继承方式 1.3 基类和派生类的转换 2. 继承中的作用域(隐藏关系) 2.1 考察继承作⽤域相关选择题 3. 派生类的默认成员函数 4. 继承类模板 5. 一个不能被继承的类 编辑 6.继承与友元 编辑 7. 继…...
【ShuQiHere】 进制转换的世界:从十进制到二进制、十六进制的转换技巧
【ShuQiHere】 在计算机科学中,进制转换(Radix Conversion) 是一个基础且非常重要的技能。无论是理解计算机的存储、数据表示,还是在编程中处理不同的进制数据,进制转换都是不可或缺的。本文将详细讲解 十进制&#x…...
《化工管理》
《化工管理》征稿简则 《化工管理》杂志是由中国石油和化学工业联合会主管、中国化工企业管理协会主办,1986年创刊,在国内外公开发行,国内统一连续出版物号:CN 11—3991/F,中国标准连续出版物号:ISSN 1008—…...
LeetCode70:爬楼梯
class Solution { public:int climbStairs(int n) {if(n 1) return 1;if(n 2) return 2;vector<int> dp(n 1, 0);dp[1] 1;dp[2] 2;for(int i 3; i < n 1; i){dp[i] dp[i - 1] dp[i - 2];}return dp[n];} }; 这个题目也就是最简单的动态规划,题目…...
[程序员] 前人留下的苦难源,我们是否有勇气改正?
最近遇到一个客户现场发现的,表象是网络有问题,分析一圈下来发现是程序进入了某种死循环状态,耗尽CPU。 产品里的很多线程/进程的优先级设置的很高,甚至高过了内核运行程序的优先级,高过了产品内警告处理程序的运行&a…...
聚类_K均值
import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs1.数据预处理 #创建基于高斯分布的样本点, x是点的坐标,y是所属聚类值 x, y make_blobs(n_samples100, centers6, random_state100, cluster_std0.6) # 设置图形尺寸…...
Mac电脑剪切板在哪里找 苹果电脑剪切板打开教程【详解】
Windows 和 Mac 电脑在使用方式上存在一些差异,许多习惯了 Windows 系统的用户初次接触 Mac 时可能会对某些操作感到困惑。比如,很多人会问:Mac 上的剪贴板在哪里?如果你也有这样的疑问,不妨看看下面这篇关于如何在 Ma…...
Python编程 - 三器一包
目录 前言 一、迭代器 (一)基本概念 (二)迭代器和可迭代对象 (三)创建迭代器 (四)内置迭代器函数 (五)优点和局限性 二、生成器 (一&…...
InternVL 多模态模型部署微调实践
友情链接 该文档参考InternVL垂直领域场景微调实践而写成,感谢社区同学法律人的文档。 写在前面(什么是InternVL) InternVL 是一种用于多模态任务的深度学习模型,旨在处理和理解多种类型的数据输入,如图像和文本。它…...
Ruby Dir 类和方法
Ruby Dir 类和方法 Ruby 中的 Dir 类提供了用于处理目录的各种方法。这些方法允许您列出目录内容、更改当前工作目录、创建和删除目录等。本文将详细介绍 Dir 类的常用方法,并通过示例展示如何使用它们。 目录 Dir 类的简介常用方法 Dir.chdirDir.childrenDir.de…...
如何用abcjs在浏览器中快速生成专业五线谱:完整免费教程
如何用abcjs在浏览器中快速生成专业五线谱:完整免费教程 【免费下载链接】abcjs javascript for rendering abc music notation 项目地址: https://gitcode.com/gh_mirrors/ab/abcjs 在数字化音乐创作与分享的时代,abcjs作为一个强大的JavaScript…...
智能实时屏幕翻译:突破语言壁垒的沉浸式体验方案
智能实时屏幕翻译:突破语言壁垒的沉浸式体验方案 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 📌…...
GPU与CPU差异分析
在人工智能、高性能计算和图形渲染等领域的快速发展推动下,GPU与CPU这两种处理器架构正经历前所未有的变革与融合。本文将从基本概念、架构差异、应用场景及未来发展趋势等维度,系统分析GPU与CPU的协同关系与各自优势,为读者提供全面的技术洞察。 一、基本概念与历史演进 …...
猫抓浏览器扩展:轻松获取网页媒体资源的终极指南
猫抓浏览器扩展:轻松获取网页媒体资源的终极指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 还在为无法下载网页视频而烦恼吗&…...
协程生命周期调试困局破解(含Clang 18.1.0调试信息补丁实测数据)
第一章:协程生命周期调试困局的本质剖析协程的轻量性与异步调度能力在提升并发性能的同时,也悄然瓦解了传统线程调试范式的基础——确定的执行栈、可预测的挂起/恢复点、以及与操作系统线程强绑定的上下文。当开发者试图用 pprof 查看 goroutine 堆栈或在…...
Qwen2.5-VL图文对话模型5分钟快速部署:零基础搭建智能识图助手
Qwen2.5-VL图文对话模型5分钟快速部署:零基础搭建智能识图助手 1. 准备工作 1.1 了解Qwen2.5-VL模型 Qwen2.5-VL-7B-Instruct-GPTQ是一款强大的多模态图文对话模型,基于Qwen2.5-VL-7B-Instruct模型经过AngelSlim压缩优化而来。这个模型能够࿱…...
微前端路由与导航:在micro-frontends中实现页面跳转的终极指南
微前端路由与导航:在micro-frontends中实现页面跳转的终极指南 【免费下载链接】micro-frontends extending the microservice paradigms to web development 项目地址: https://gitcode.com/gh_mirrors/mi/micro-frontends 微前端(micro-fronten…...
从零到一:Python环境搭建与依赖管理的完整实践指南
1. Python环境搭建:从下载到验证 刚接触Python开发时,环境搭建就像学做菜前要先准备厨具。我见过不少新手在这个阶段卡壳,要么版本装错,要么环境变量没配好。下面我会用最直白的方式,带你走通Windows和Linux两条路线。…...
马尔可夫过程图解指南:为什么强化学习必须掌握这个数学概念?
马尔可夫过程图解指南:为什么强化学习必须掌握这个数学概念? 想象你正在规划一次周末出行:如果今天是晴天,明天有70%概率继续放晴;如果今天下雨,明天转晴的概率只有30%。这种"未来只依赖现在"的思…...
模块化多电平变换器MMC的NLM与CPS-PWM调制策略仿真实现:交流3000V-直流5000...
模块化多电平变换器MMC两种调制策略实现(交流3000V-直流5000V整流)仿真,单桥臂二十子模块,分别采用最近电平逼近NLM与载波移相调制CPS-PWM实现,仿真中使用环流抑制,NLM中采用快速排序,两个仿真动…...
