当前位置: 首页 > news >正文

TF和TF-IDF区别和联系

TF(Term Frequency)和TF-IDF(Term Frequency-Inverse Document Frequency)都是用于文本挖掘和信息检索的统计方法,用于评估一个词在文档或文档集合中的重要性。

一.TF(Term Frequency)

1.定义

  • 词频(Term Frequency,TF):衡量一个词在一个文档中出现的频率。通常,TF值越高,表示该词在文档中越重要。

2.计算公式

TF ( t , d ) = 词t在文档d中出现的次数 文档d中所有词的总数 \text{TF}(t, d) = \frac{\text{词t在文档d中出现的次数}}{\text{文档d中所有词的总数}} TF(t,d)=文档d中所有词的总数t在文档d中出现的次数

3.特点

  • 局部性:TF只考虑单个文档,不考虑该词在整个文档集合中的分布情况。

  • 简单性:TF计算简单,只需统计词在文档中的出现次数。

二.TF-IDF(Term Frequency-Inverse Document Frequency)

1.定义

  • 词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF):是一种衡量词重要性的方法,综合考虑了词在单个文档中的频率和词在整个文档集合中的稀有程度。

2.计算公式

TF-IDF ( t , d , D ) = TF ( t , d ) × IDF ( t , D ) \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D) TF-IDF(t,d,D)=TF(t,d)×IDF(t,D)

其中,

IDF ( t , D ) = log ⁡ ( 1 + N 1 + 包含词t的文档数 ) \text{IDF}(t, D) = \log \left( \frac{1+N}{1 + \text{包含词t的文档数}} \right) IDF(t,D)=log(1+包含词t的文档数1+N)

  • N N N是文档集合中的文档总数。

  • 包含词t的文档数 \text{包含词t的文档数} 包含词t的文档数是词 t \text{t} t在文档集合 D D D中出现的文档数。

3.特点

  • 全局性:TF-IDF考虑了词在整个文档集合中的分布情况,通过IDF降低那些在很多文档中都出现的常见词的重要性。

  • 准确性:TF-IDF在衡量词的权重时更为准确,因为它既考虑了词在单个文档中的频率(TF),也考虑了词在整个文档集合中的稀有程度(IDF)。

三.异同点

1.相同点

  • 目的:两者都用于衡量词在文档中的重要性。

  • 应用场景:广泛应用于信息检索、文本挖掘、文本分类等领域。

2.不同点

  • 计算方式

    • TF:只计算词在单个文档中的频率。

    • TF-IDF:计算词在单个文档中的频率并结合整个文档集合中的稀有程度。

  • 结果影响

    • TF:高频词会有较高的权重,但无法区分常见词和重要词。

    • TF-IDF:通过IDF调整,高频但常见的词(如的、是)会被赋予较低的权重,而那些在少数文档中出现的词会有较高的权重。

四.例子说明

1.文档集合例子

  • 文档1:这是一篇关于自然语言处理的文章。

  • 文档2:自然语言处理是人工智能的一个分支。

  • 文档3:机器学习也是人工智能的一个重要领域。

2.TF的计算过程

  • 文档1中出现1次,文档总词数为7,故TF(自然, 文档1) = 1 7 ≈ 0.14 \frac{1}{7} \approx 0.14 710.14

  • 文档2中出现1次,文档总词数为8,故TF(自然, 文档2) = 1 8 = 0.125 \frac{1}{8} = 0.125 81=0.125

  • 文档3中未出现,故TF(自然, 文档3) = 0

3.IDF的计算过程

包含词"自然"的文档数为2,总文档数为3。使用平滑IDF公式:

IDF ( 自然 , { 文档 1 , 文档 2 , 文档 3 } ) = log ⁡ ( 3 + 1 2 + 1 ) = log ⁡ ( 4 3 ) ≈ 0.124 \text{IDF}(自然, \{文档1, 文档2, 文档3\}) = \log \left( \frac{3 + 1}{2 + 1} \right) = \log \left( \frac{4}{3} \right) \approx 0.124 IDF(自然,{文档1,文档2,文档3})=log(2+13+1)=log(34)0.124

4.TF-IDF的计算过程

  • 对于文档1,TF-IDF(自然, 文档1, {文档1, 文档2, 文档3}) = 0.14 * 0.124 ≈ 0.017

  • 对于文档2,TF-IDF(自然, 文档2, {文档1, 文档2, 文档3}) = 0.125 * 0.124 ≈ 0.016

  • 对于文档3,TF-IDF(自然, 文档3, {文档1, 文档2, 文档3}) = 0 * 0.124 = 0

TF和TF-IDF在衡量词在文档中的重要性时,TF简单直观,但未考虑词在整个文档集合中的分布;TF-IDF则综合考虑了词在单个文档中的频率和整个文档集合中的稀有程度,因而更为准确和有效。

相关文章:

TF和TF-IDF区别和联系

TF(Term Frequency)和TF-IDF(Term Frequency-Inverse Document Frequency)都是用于文本挖掘和信息检索的统计方法,用于评估一个词在文档或文档集合中的重要性。 一.TF(Term Frequency) 1.定义…...

02线性表 - 链表

这里是只讲干货不讲废话的炽念,这个系列的文章是为了我自己以后复习数据结构而写,所以可能会用一种我自己能够听懂的方式来描述,不会像书本上那么枯燥和无聊,且全系列的代码均是可运行的代码,关键地方会给出注释^_^ 全…...

高性能、安全、低碳绿色的趋势下,锐捷网络发布三擎云办公解决方案 3.0

桌面虚拟化作为云时代的主流和热门技术,已经取得了广泛应用。随着生成式 AI 爆炸式发展,CSDN 看到,人工智能正在引发计算、开发、交互三大范式的全面升级,技术开发或将迎来一次全新的科技变革周期,因此 VDI 云桌面随之…...

python3 shutil排除特定或者模糊匹配文件或目录

import shutil import fnmatchdef ignore_files(dir, files):# 定义要忽略的模式ignore_patterns = [file2.txt, dir2, *复制*.py]ignore_list = []<...

Spire.PDF for .NET【文档操作】演示:如何在 C# 中切换 PDF 层的可见性

我们已经演示了如何使用 Spire.PDF在 C# 中向 PDF 文件添加多个图层以及在 PDF 中删除图层。我们还可以在 Spire.PDF 的帮助下在创建新页面图层时切换 PDF 图层的可见性。在本节中&#xff0c;我们将演示如何在 C# 中切换新 PDF 文档中图层的可见性。 Spire.PDF for .NET 是一…...

新文件覆盖旧文件还能复原吗?八大excel文档修复软件免费

新文件覆盖旧文件还能复原吗&#xff1f;文件操作失误&#xff0c;尤其是新文件意外覆盖旧文件的情况时有发生&#xff0c;面对文件被覆盖的情况&#xff0c;我们不仅需要冷静应对&#xff0c;更需要掌握一系列有效的恢复策略。本文将深入探讨八种免费方法&#xff0c;旨在帮助…...

Android 10.0 Launcher3拖拽图标进入hotseat自适应布局功能实现一

1.前言 在10.0的系统rom定制化开发中&#xff0c;在对于launcher3的一些开发定制中&#xff0c;在对hotseat的一些开发中&#xff0c;需要实现动态hotseat居中 的功能&#xff0c;就是在拖拽图标进入和拖出hotseat&#xff0c;都可以保持hotseat居中的功能&#xff0c;接下来分…...

彻底解决idea的编解码问题

一、打开idea&#xff0c;找到Setting,点击File Encoding编解码设置&#xff0c;将以下标红的三个部分全部设置为UTF-8.同理如果你的项目使用的是GBK或者其他编码格式&#xff0c;那么也设置为统一。 二、点击Java Compiler设置补齐-encoding utf-8参数 三、如果你的项目使用到…...

仅两家!云原生向量数据库 PieCloudVector 全项通过信通院「可信数据库」评测

7月16日&#xff0c;2024 可信数据库发展大会在北京隆重举行。大会以“自主、创新、引领”为主题&#xff0c;近百位数据库领域的专家、学者齐聚一堂&#xff0c;带来高质量的数据库技术洞察与实战经验。 本次可信数据库发展大会中&#xff0c;中国信通院正式公布 2024 年上半年…...

vue使用x6画流程图,简单使用

官网 https://x6.antv.antgroup.com/tutorial/getting-started 安装 npm install antv/x6 --save 使用 <template><div>3333<div id"container" style"width: 800px;height: 800px;"></div></div> </template> <…...

低代码中间件学习体验分享:业务系统的创新引擎

前言 星云低代码平台介绍 星云低代码中间件主要面向企业IT部门、软件实施部门的低代码开发平台&#xff0c;无需学习开发语言/技术框架&#xff0c;可视化开发PC网页/PC项目/小程序/安卓/IOS原生移动应用&#xff0c;低门槛&#xff0c;高效率。针对企业研发部门人员少&#…...

阿里云ACP云计算高级攻城狮通用知识

&#x1f525;概述 阿里云云计算高级工程师ACP认证是面向使用阿里云云计算产品的架构、开发、运维类人员的专业技术认证&#xff0c;主要考核考生利用阿里云云计算技术服务体系设计稳定、安全、高性能、易扩展、低成本的企业云计算架构的能力。 前提&#xff1a;在写适用人群…...

log4js node日志插件

最近不是特别忙在用express搭建后台项目&#xff0c;在开发过程中遇到了需要输入日志的问 本来想直接用node自带的console来实现&#xff0c;后来发现console输出的日志达不到自己希望的 日志格式&#xff0c;后来各种百度发现了log4js插件&#xff0c;本文来记录log4js插件使用…...

【MQTT(3)】开发一个客户端,QT-Android安卓手机版本

手机版本更加方便 生成安卓库 参考了这个代码 在编译Mosquitto以支持安卓平台时&#xff0c;主要涉及到使用Android NDK&#xff08;Native Development Kit&#xff09;进行交叉编译。环境的准备参考之前的博客【QT开发&#xff08;17&#xff09;】2023-QT 5.14.2实现Andr…...

大数据之数据抽取架构演变过程

架构演变之Flink架构的演变过程 一、 起初搭建整个大数据平台是基于CDH这一套资源管理和整合的CM资源管理器搭建的 整个平台包括了&#xff1a; HDFS&#xff0c;YARN&#xff0c;HIVE&#xff0c;zoozie,FLINK,Spark,Zookeeper等组件搭建而成&#xff0c; 刚开始搭建的时候&am…...

[web]-反序列化-绕过__wakeup(转)

BUUCTF-[极客大挑战 2019]PHP1_[极客大挑战 2019]php 1-CSDN博客 <?php include flag.php;error_reporting(0);class Name{private $username nonono;private $password yesyes;public function __construct($username,$password){$this->username $username;$this-…...

B树与B+树的区别

B树和B树都是用于数据库和文件系统的平衡树数据结构&#xff0c;但它们有一些显著的区别&#xff1a; 节点结构&#xff1a; B树&#xff1a;每个节点存储数据和指向子节点的指针。叶子节点也包含数据。 B树&#xff1a;内部节点只存储索引值&#xff0c;不存储实际数据。所有…...

机器人开源调度系统OpenTCS-6最新版本地源码运行

OpenTCS 项目使用 Gradle 而不是 Maven&#xff0c;那么需要使用 Gradle 来导入和构建项目。在 IntelliJ IDEA 中导入和运行使用 Gradle 的项目&#xff0c;可以按照以下步骤进行操作&#xff1a; 克隆 OpenTCS 源码 首先&#xff0c;克隆 OpenTCS 的源码到本地。您可以使用以…...

云监控(华为) | 实训学习day3(10)

实现数据的增删改查 SpringBoot框架模式 向送外卖一样理解 写程序 1、准备食材(java bean) 2、菜谱(pojo接口->预制->sql 语句) 3、service处理 4、controller 派送 5、用户请求->页面 一、Spring Boot实现增加 第一步&#xff1a;食材(表),用户增加,这里还是用户…...

springMVC前后端请求参数绑定和传递

目录 请求参数的绑定 当绑定参数是基本数据类型和字符串类型时,要注意: 当绑定参数是实体类型&#xff08;JavaBean&#xff09;要注意: 给集合属性数据封装&#xff0c;要注意: 绑定参数是日期类型&#xff0c;如何封装&#xff1a; 代码实例&#xff1a; 实体类1&#…...

InjectFix实战解析:在Unity IL2CPP环境下实现C#热修复的权衡与策略

1. InjectFix在IL2CPP环境下的核心价值 当你的Unity手游在应用商店上线后突然出现致命Bug&#xff0c;传统解决方案往往需要重新打包、提交审核、等待上架&#xff0c;这个过程可能耗时数天。而InjectFix提供的C#热修复能力&#xff0c;可以在不更新客户端的情况下快速修复线上…...

Cursor-Learner:基于编辑器历史数据,自动生成个性化AI编程助手Prompt

1. 项目概述&#xff1a;一个帮你“诊断”编程习惯的智能助手 如果你和我一样&#xff0c;每天都在和 Cursor 或 WindSurf 这类 AI 驱动的代码编辑器打交道&#xff0c;那你肯定也遇到过这样的困惑&#xff1a;为什么有时候 AI 助手能精准地理解你的意图&#xff0c;写出漂亮的…...

逻辑表达式与真值表转换

逻辑表达式与真值表转换 真值表与逻辑表达式是数字电路设计的两种等价表示&#xff0c;掌握它们之间的转换是基本功。 &#x1f3af; 本章学习要点 理解真值表的结构和表示方法掌握从真值表写出逻辑表达式&#xff08;最小项之和&#xff09;掌握从逻辑表达式列出真值表了解最…...

[已解决]Vscode插件Keil Assistant连接Keil后出现的头文件路径无法寻找问题

问题详情 按照网络上的教程按照并且配置好vscode的Keil Assistant插件后&#xff0c;成功打开了Keil工程并且编译成功。但是头文件无法跳转&#xff0c;以及出现红色波浪线报错。 解决方法 在.vscode\c_cpp_properties.json中添加以下两行路径&#xff1a; "includePath&q…...

联想刃7000k BIOS解锁终极指南:安全释放隐藏性能的3种方法

联想刃7000k BIOS解锁终极指南&#xff1a;安全释放隐藏性能的3种方法 【免费下载链接】Lenovo-7000k-Unlock-BIOS Lenovo联想刃7000k2021-3060版解锁BIOS隐藏选项并提升为Admin权限 项目地址: https://gitcode.com/gh_mirrors/le/Lenovo-7000k-Unlock-BIOS 对于联想刃7…...

别再死记公式了!用“信号与系统”的视角,5分钟看懂卡尔曼滤波与互补滤波的本质区别

从频域视角解析卡尔曼滤波与互补滤波的本质差异 在机器人控制和姿态估计领域&#xff0c;数据融合算法始终是工程师们关注的焦点。当我们面对陀螺仪和加速度计这两种各具特色的传感器数据时&#xff0c;如何有效融合它们的长处&#xff0c;同时规避各自的短板&#xff0c;成为构…...

一键解决!VisualCppRedist AIO彻底告别Windows DLL错误困扰

一键解决&#xff01;VisualCppRedist AIO彻底告别Windows DLL错误困扰 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 还记得那个令人抓狂的时刻吗&#xff1f;…...

终极网络性能测试指南:iperf3 Windows版完全教程

终极网络性能测试指南&#xff1a;iperf3 Windows版完全教程 【免费下载链接】iperf3-win-builds iperf3 binaries for Windows. Benchmark your network limits. 项目地址: https://gitcode.com/gh_mirrors/ip/iperf3-win-builds 还在为网络速度慢而烦恼吗&#xff1f;…...

终极风扇控制指南:如何用开源工具FanControl精准调节你的电脑散热系统

终极风扇控制指南&#xff1a;如何用开源工具FanControl精准调节你的电脑散热系统 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/Git…...

企业级无人机安全测试平台:构建可扩展的GPS欺骗与Wi-Fi渗透架构

企业级无人机安全测试平台&#xff1a;构建可扩展的GPS欺骗与Wi-Fi渗透架构 【免费下载链接】Drone-Hacking-Tool Drone Hacking Tool is a GUI tool that works with a USB Wifi adapter and HackRF One for hacking drones. 项目地址: https://gitcode.com/gh_mirrors/dr/D…...