机器学习之词袋模型
目录
1 词袋模型基本概念
2 词袋模型的表示方法
2.1 三大方法
1 独热表示法(One-Hot)
2 词频表示法(Term Frequency, TF)
3 词频-逆文档频率表示法(TF-IDF)
2.2 例子
1 词袋模型基本概念
词袋模型(Bow,Bag of Words)不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重(与词在文本中出现的频率有关),类似于将所有词语装进一个袋子里,其中每个词的出现都是独立的,不依赖于其他词是否出现。这种模型的主要目的是将文本转换为一个向量,其中向量的每个维度代表一个词,而该维度的值则表示该词在文本中出现的频率。
词袋模型的主要特征是:每个词的出现都是独立的,相当于每次随机试验为随机从词表中抽取一个单词,进行n次独立重复试验,因此适合使用多项式朴素贝叶斯
2 词袋模型的表示方法
2.1 三大方法
1 独热表示法(One-Hot)
One-Hot表示法的数值计算规则为:词语序列中出现的词语的数值为1,词语序列中未出现的词语的数值为0。其数学表达式为:

2 词频表示法(Term Frequency, TF)
TF表示法的数值计算规则为:词语序列中出现的词语的数值为该词语在所在文本中的频次,词语序列中未出现的词语的数值为0。其数学表达式为:

其中,表示词语
,
表示词语
在所在文本出现的次数。
3 词频-逆文档频率表示法(TF-IDF)
TF-IDF的核心思想是:
- 如果某个词语在文本中频繁出现,则认为该词语很重要
- 如果某个词语在文本中频繁出现,但该词语在每篇文档都出现,则认为该词语不是特别重要,比如“的”字每篇文章都出现,但是重要性不大
TF-IDF表示法的数值计算规则为:词语序列中出现的词语的数值为词语在所在文本中的频次乘以词语的逆文档频率,词语序列中未出现的词语的数值为0。其数学表达式为:

其中,表示词语
,
表示词语
在所在文本出现的次数。
的计算公式为:

当分母越大,越小,则说明其越不重要,为了防止分母为0,对
进行改进,如下:

2.2 例子
已知有下边的几篇英文文本,请分别用词袋模型的三种方法来向量化表示每篇文本。
| 文档ID | 文档词列表 |
|---|---|
| 1 | Chinese Beijing Chinese |
| 2 | Chinese Chinese Shanghai |
| 3 | Chinese Macao |
| 4 | Tokyo Japan Chinese |
第一步:构建词袋
第二步:对于每一篇文本,计算词袋中各词语的数值,得到该篇文本的向量
One-Hot表示法

根据上述公式可得:
| Beijing | Chinese | Japan | Macao | Shanghai | Tokyo | |
|---|---|---|---|---|---|---|
| Chinese Beijing Chinese | 1 | 1 | 0 | 0 | 0 | 0 |
| Chinese Chinese Shanghai | 0 | 1 | 0 | 0 | 1 | 0 |
| Chinese Macao | 0 | 1 | 0 | 1 | 0 | 0 |
| Tokyo Japan Chinese | 0 | 1 | 1 | 0 | 0 | 1 |
词频表示法

根据上述公式可得:
| Beijing | Chinese | Japan | Macao | Shanghai | Tokyo | |
|---|---|---|---|---|---|---|
| Chinese Beijing Chinese | 1 | 2 | 0 | 0 | 0 | 0 |
| Chinese Chinese Shanghai | 0 | 2 | 0 | 0 | 1 | 0 |
| Chinese Macao | 0 | 1 | 0 | 1 | 0 | 0 |
| Tokyo Japan Chinese | 0 | 1 | 1 | 0 | 0 | 1 |
TF-IDF表示法

使用改进后的,如下:

计算过程如下:
因此有:
| Beijing | Chinese | Japan | Macao | Shanghai | Tokyo | |
|---|---|---|---|---|---|---|
| Chinese Beijing Chinese | 1*1.916=1.916 | 2*1=2 | 0 | 0 | 0 | 0 |
| Chinese Chinese Shanghai | 0 | 2*1=2 | 0 | 0 | 1*1.916=1.916 | 0 |
| Chinese Macao | 0 | 1*1=1 | 0 | 1*1.916=1.916 | 0 | 0 |
| Tokyo Japan Chinese | 0 | 1*1=1 | 1*1.916=1.916 | 0 | 0 | 1*1.916=1.916 |
相关文章:
机器学习之词袋模型
目录 1 词袋模型基本概念 2 词袋模型的表示方法 2.1 三大方法 1 独热表示法(One-Hot) 2 词频表示法(Term Frequency, TF) 3 词频-逆文档频率表示法(TF-IDF) 2.2 例子 1 词袋模型基本概念 词袋模型&a…...
【C++/STL】vector(常见接口、模拟实现、迭代器失效)
🌈个人主页:秦jh_-CSDN博客🔥 系列专栏: https://blog.csdn.net/qinjh_/category_12575764.html?spm1001.2014.3001.5482 目录 简单使用 常见接口 find insert vector模板 模拟实现 尾插 构造 迭代器失效 使用memcpy拷贝问…...
Spring Boot Web 开发:MyBatis、数据库连接池、环境配置与 Lombok 全面解析
推荐一个AI网站,免费使用豆包AI模型,快去白嫖👉海鲸AI 1.0 MyBatis 概述 MyBatis 是一个优秀的持久层框架,它支持自定义 SQL、存储过程以及高级映射。MyBatis 可以帮助我们将数据库操作抽象出来,使得我们的代码更加简洁…...
【UE5.1 多线程 异步】“Async Blueprints Extension”插件使用记录
目录 一、异步生成Actor示例 二、异步计算示例 参考视频 首先需要在商城中下载“Async Blueprints Extension”插件 一、异步生成Actor示例 2. 创建一个线程类,这里要指定父类为“LongAsyncTask”、“InfiniteAsyncTask”、“ShortAsyncTask”中的一个 在线程类…...
【已解决】在jupyter里运行torch.cuda.is_available(),显示True,在pycharm中运行却显示false。
文章目录 问题概述1、在Jupyter中GPU运行true2、在pycharm中GPU运行false3、个人解决方案仅供参考 问题概述 在jupyter里运行torch.cuda.is_available(),显示True,在pycharm中运行却显示false。原因在于jupyter 运行环境和pycharm 运行环境不同…...
Flutter 中的 Scrollbar 小部件:全面指南
Flutter 中的 Scrollbar 小部件:全面指南 在Flutter中,滚动条(Scrollbar)是一种常见的UI组件,用于提供对滚动内容的快速访问和控制。Scrollbar 小部件可以附加到任何可滚动的widget上,如ListView、GridVie…...
【华为】将eNSP导入CRT,并解决不能敲Tab问题
华为】将eNSP导入CRT,并解决不能敲Tab问题 eNSP导入CRT打开eNSP,新建一个拓扑右键启动查看串口号关联CRT成功界面 SecureCRT连接华为模拟器ensp,Tab键不能补全问题选择Options(选项)-- Global Options (全局选项&#…...
实验二 电子传输系统安全-进展2
上周任务完成情况(代码链接,所写文档等) 重新调通电子公文传输系统部署gmssl学习生成SM2证书学习gmssl中的CTLS实现将数据库从SqlServer迁移到Mysql调试Mysql驱动学习Bouncy Castle 代码链接 Mysql表设计 /* Navicat MySQL Data Transfer…...
JavaScript 获取 HTML 中特定父元素下的子元素
JavaScript 获取 HTML 中特定父元素下的子元素 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <title>查找子元素示例</title> </head> <body><div id"parent"><p&…...
等保服务是一次性服务吗?为什么?怎么理解?
我国等保政策已经严格落地执行,但还有不少企业对于等保服务不是很了解。例如有人问,等保服务是一次性服务吗?为什么?怎么理解?今天我们就来简单回答一下,仅供参考哈! 等保服务是一次性服务吗&…...
全网首发UNIAPP功能多的iapp后台源码
全网首发UNIAPP功能多的iapp后台源码,众所周知UN Dev Assist 后台是一款既不免费又不好用的后台今天直接分享。 搭建教程在里面了,自己查看。 源码下载:https://download.csdn.net/download/m0_66047725/89291994 更多资源下载:…...
【搜索方法推荐】高效信息检索方法和实用网站推荐
博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…...
面试被问到不懂的东西,是直接说不懂还是坚持狡辩一下?
大家好,我是瑶琴呀。 面试被问到不懂的东西,是直接说不懂还是坚持狡辩一下?这个问题可以转变一下,如果你顺利拿到 offer,公司安排的工作跟你之前的技术和经验不匹配,你还愿意干下去吗? 转变一…...
Flutter 中的 StatefulBuilder 小部件:全面指南
Flutter 中的 StatefulBuilder 小部件:全面指南 在Flutter中,StatefulBuilder是一个高效的小部件,它根据给定的构建函数来构建widget,并在组件树中只对需要重新构建的部分进行更新。这使得它在性能优化方面非常有用,特…...
mail发送接口API如何使用?怎么调用接口?
mail发送接口API的性能怎么样?邮件接口发信的技巧? 为了自动化和集成电子邮件功能到应用程序或系统中,开发人员可以使用各种邮件发送接口API。AokSend将介绍如何使用这些API来发送电子邮件,提高效率和灵活性。 mail发送接口API&…...
DOS学习-目录与文件应用操作经典案例-attrib
新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一.前言 二.使用 三.案例 一.前言 DOS系统中的attrib命令是一个用于显示或更改文件&#…...
STP简介
一、STP介绍 STP 即生成树协议(Spanning Tree Protocol)一种网络协议 STP 主要用于解决以太网中的环路问题。在具有冗余链路的网络环境中,环路可能导致广播风暴、重复帧等不良后果,严重影响网络性能和稳定性。STP 通过在交换机之…...
java调用科大讯飞在线语音合成API --内附完整项目
科大讯飞语音开放平台基础环境搭建 1.用户注册 注册科大讯飞开放平台账号 2.注册好后先创建一个自己的应用 创建完成后进入应用可以看到我们开发需要的三个参数:APPID,APISecret,APIKey 3.因为平台提供的SDK中只支持了简单的中英两种语言语音…...
Vuex 页面刷新数据丢失怎么解决
当Vuex中的数据在页面刷新后丢失时,这通常是因为Vuex的状态数据是保存在运行内存中的,页面刷新会导致Vue实例重新加载,进而Vuex中的数据被重置为初始状态。为了解决这个问题,可以采取以下几种方法: 1. 使用浏览器的本…...
如何使用Cloudways搭建WordPress网站
如今,搭建网站已经变得非常简单,这主要得益于开源的CMS建站系统的兴起。即使是不懂编程的人也能轻松搭建自己的网站,这些CMS系统提供了丰富的主题模板和插件,使用户可以通过简单的拖放和配置操作来建立自己的网站。 WordPress是目…...
Ubuntu 22.04上从零安装UCSF DOCK 6.11:手把手解决依赖与编译的那些坑
Ubuntu 22.04实战:UCSF DOCK 6.11完整安装指南与避坑手册在计算化学和药物发现领域,UCSF DOCK一直是分子对接和虚拟筛选的重要工具。最新发布的6.11版本集成了RDKit功能,为药物描述符计算和分子设计带来了全新可能。本文将带你在Ubuntu 22.04…...
英雄联盟智能助手终极指南:如何用Seraphine实现游戏决策自动化,轻松提升排位胜率?
英雄联盟智能助手终极指南:如何用Seraphine实现游戏决策自动化,轻松提升排位胜率? 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 还在为排位赛中的手忙脚乱而烦恼吗&#…...
BetterGI原神自动化工具:5分钟轻松上手指南,彻底解放你的游戏时间!
BetterGI原神自动化工具:5分钟轻松上手指南,彻底解放你的游戏时间! 【免费下载链接】better-genshin-impact 📦BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动刷本 | 自动采集…...
知识图谱与语义网技术栈:从RDF/SPARQL到图神经网络与LLM融合实战
1. 项目概述:从数据孤岛到智能互联的桥梁在数据爆炸的时代,我们每天都被海量的信息包围。然而,这些信息往往像一座座孤岛,彼此隔绝,难以形成有效的知识网络。你是否曾想过,如果能让机器像人一样,…...
保险精算AutoML实战:超参数优化与集成学习提升模型效率
1. 项目概述:当AutoML遇上保险精算在保险行业干了十几年,我亲眼见证了精算师们从抱着厚重的费率手册和GLM(广义线性模型)公式,到如今开始尝试用Python脚本跑几个机器学习模型。但一个普遍的现象是:很多精算…...
【独家首发】基于237份真实Claude集成工单分析:文档缺失导致的故障占比达64.3%,附可落地的文档健康度评估矩阵
更多请点击: https://kaifayun.com 第一章:Claude API文档编写的核心价值与现状洞察 高质量的API文档是Claude集成生态中不可替代的基础设施。它不仅降低开发者接入门槛,更直接影响模型能力的释放效率、错误率控制水平及企业级部署的可维护性…...
从零到一:用 LangChain 搭建你的第一个 AI Agent,让 LLM 自己干活!
导读:,2024年最火的不是大模型本身,而是基于大模型的 AI Agent。它能自主思考、调用工具、执行任务——不再是"你说一句我回一句"的聊天机器人,而是真正能帮你干活的数字员工。本文从零带你搭建一个完整的 AI Agent&…...
别再只盯着MSE了!用Python实战对比5大回归评估指标(附避坑指南)
别再只盯着MSE了!用Python实战对比5大回归评估指标(附避坑指南)当你的回归模型在测试集上表现不佳时,第一个浮现在脑海的问题往往是:"该用哪个指标来评估才最合理?"这个问题远比想象中复杂——我…...
《离别的最后》的内容入口:收尾场景如何被记住
从内容传播角度看,《离别的最后》的入口在“最后”这个收束动作。它不是笼统告别,而是写到一段关系、一个阶段或一次转身即将落下尾音的时刻。这首歌不适合被写成普通伤感推荐。更准确的角度,是把它放在收尾场景里:删掉草稿、收起…...
【AI Daily】Arxiv论文研读Top5 | 2026-05-23
📚 每日学习汇总 | 2026-05-23(周6) 📊 今日概览 今日:周6,午读检索分类:cs.AI / q-bio.NC / cs.HC关键词:cognitive science behavioral AI alignment🔥 五篇精读速报 ①…...
