当前位置：首页 > article >正文

自然语言处理NLP 02统计语言模型

article 2026/4/14 17:01:20

jieba中文分词

TF-IDF

TF（词频，Term Frequency）

IDF（逆文档频率，Inverse Document Frequency）

总结

案例：从文本数据中提取并分析关键词的重要性

jieba中文分词

jieba 是一个强大的中文分词工具，支持自定义词汇和多种分词模式。通过 jieba.add_word() 或 jieba.load_userdict() 可以灵活地处理新词汇。

举例：对"饺子导演的作品哪吒2要冲到全球动画票房榜首啦"这句话进行分词

import jieba

# 输入文本
str = '饺子导演的作品哪吒2要冲到全球动画票房榜首啦'

# 添加自定义词汇
jieba.add_word('全球动画票房')
jieba.add_word('哪吒2')

# 对文本进行分词
a = jieba.lcut(sentence=str)

# 输出分词结果
print(a)

运行结果：

未导入分词库的效果

import jieba
str='饺子导演的作品哪吒2要冲到全球动画票房榜首啦'
a=jieba.lcut(sentence=str)
print(a)

运行结果：

TF-IDF

TF-IDF 是自然语言处理（NLP）和信息检索中常用的统计方法，用于衡量一个词在文档中的重要性，广泛应用于文本分析和信息检索任务中。以下是它们的详细介绍：

TF（词频，Term Frequency）

定义：词频是指一个词在文档中出现的频率。
计算公式：
作用：衡量一个词在文档中的重要性。词频越高，说明该词在文档中越重要。
局限性：一些常见词（如“的”、“是”）在所有文档中出现的频率都很高，但它们并不一定具有实际意义。

IDF（逆文档频率，Inverse Document Frequency）

定义：逆文档频率衡量一个词在整个语料库中的普遍性。如果一个词在很多文档中都出现，它的 IDF 值会较低；反之，如果它只在少数文档中出现，它的 IDF 值会较高。
计算公式
- 其中，D 是语料库，t 是词。
作用：降低常见词的重要性，提高罕见词的重要性。
局限性：如果一个词在语料库中从未出现过，IDF 值会变得非常大，因此通常会对分母加 1 进行平滑处理。

TF-IDF（词频-逆文档频率）

定义：TF-IDF 是 TF 和 IDF 的结合，用于衡量一个词在文档中的重要性。它既考虑了词在文档中的频率，也考虑了词在整个语料库中的普遍性。
计算公式：

作用
- 如果一个词在文档中出现的频率高（TF 值高），但在整个语料库中出现的频率低（IDF 值高），那么它的 TF-IDF 值会很高，说明这个词在文档中非常重要。
- 如果一个词在文档中出现的频率高，但在整个语料库中出现的频率也很高（如“的”、“是”），那么它的 TF-IDF 值会较低，说明这个词并不重要。
应用场景
- 文本分类
- 信息检索
- 关键词提取
- 文档相似度计算

总结

TF：衡量词在文档中的频率。
IDF：衡量词在整个语料库中的普遍性。
TF-IDF：结合 TF 和 IDF，衡量词在文档中的重要性。

案例：从文本数据中提取并分析关键词的重要性

具体来说，它通过计算 TF-IDF（词频-逆文档频率） 来评估每个词在文档中的重要性，并找出最相关的关键词。

从文本数据task.txt中提取并分析关键词的重要性，具体要求如下

读取文本数据

代码从 task.txt 文件中读取文本内容，并将其存储为 corpus（语料库）。
目的：准备待分析的文本数据。

计算 TF-IDF

使用 TfidfVectorizer 将文本数据转换为 TF-IDF 矩阵并打印出来。
目的：量化每个词在文档中的重要性。

提取特征词

通过 get_feature_names() 方法获取所有特征词（即词汇表中的单词）并打印出来。
目的：获取所有被分析的词。

转换为 DataFrame

将 TF-IDF 矩阵转换为 DataFrame，行索引为特征词，列索引为文档，并打印出来。
目的：方便后续对 TF-IDF 值进行操作和分析。

提取特定文档的特征值

提取第 6 列（索引为 5）的特征值，并转换为列表。
目的：分析某一特定文档中每个词的重要性。

创建字典并排序

将特征词与对应的 TF-IDF 值存入字典，并按 TF-IDF 值进行降序排序。
目的：找出该文档中最重要的关键词。

测试输出

打印排序后的第 3 个元素（即第 3 个最重要的关键词及其 TF-IDF 值）。
目的：展示该文档中第 3 个最相关的关键词。

# 导入所需的库
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# 打开文件并读取内容
inFile = open(r'.\task.txt')  # 打开文件
corpus = inFile.readlines()  # 读取文件中的所有行，存储在列表中

# 初始化TF-IDF向量化器
vectorizer = TfidfVectorizer()

# 对语料库进行TF-IDF向量化
tfidf = vectorizer.fit_transform(corpus)  # 将文本数据转换为TF-IDF矩阵
print('*'*20+'打印TF-IDF矩阵'+'*'*20)
print(tfidf)  # 打印TF-IDF矩阵

# 获取特征词列表
wordlist = vectorizer.get_feature_names()  # 获取所有特征词（即词汇表中的单词）
print('*'*20+'打印特征词列表'+'*'*20)
print(wordlist)  # 打印特征词列表

# 将TF-IDF矩阵转换为DataFrame
df = pd.DataFrame(tfidf.T.todense(), index=wordlist)  # 将TF-IDF矩阵转置并转换为DataFrame，行索引为特征词
print('*'*20+'打印DataFrame'+'*'*20)
print(df)  # 打印DataFrame

# 获取第6列（索引为5）的特征值列表
featurelist = df.iloc[:, 5].to_list()  # 获取第6列的特征值，并转换为列表

# 创建一个字典，将特征词与对应的特征值关联起来
resdict = {}
for i in range(0, len(wordlist)):resdict[wordlist[i]] = featurelist[i]  # 将特征词与对应的特征值存入字典

# 对字典按特征值进行降序排序
resdict = sorted(resdict.items(), key=lambda x: x[1], reverse=True)  # 按特征值从大到小排序

# 打印排序后的第3个元素（索引为2）
print('*'*20+'打印排序后的第3个元素'+'*'*20)
print(resdict[2])  # 打印排序后的第3个元素（即第3个最重要的特征词及其TF-IDF值）

运行结果：

自然语言处理NLP 02统计语言模型

目录 jieba中文分词 TF-IDF TF（词频，Term Frequency） IDF（逆文档频率，Inverse Document Frequency） 总结案例：从文本数据中提取并分析关键词的重要性 jieba中文分词 jieba 是一个强大的…...

编程日记 2026/4/14 17:01:20

【环降噪实验】详细介绍

环降噪实验（Circumferential Noise Cancellation Experiment）通常指在工程领域中，特别是在噪声控制领域，通过模拟或实际环形噪声传播的环境来验证和测试不同噪声消除技术的效果。其主要目标是在特定区域或环境中，利用主…...

编程日记 2026/4/10 7:41:45

目录 1. 控件概述和发展 2. QWidget 核心属性 2.1 核心属性概览 2.2 enabled 是否可用 2.3 geometry 位置尺寸 2.4 windowTitle 标题 2.5 windowIcon 图标 2.6 windowOpacity 不透明度 2.7 cursor 光标 2.8 font 字体 2.9 toolTip 鼠标悬停提示 2.10 focusPolicy 焦…...

编程日记 2026/4/9 5:37:14

FreeSwitch之mod_cidlookup 和 mod_blacklist和mod_curl的抉择

FreeSWITCH 的 mod_curl 模块是一个用于通过 HTTP/HTTPS 协议与外部服务进行交互的核心模块。它允许 FreeSWITCH 在呼叫处理过程中发起 HTTP 请求（如 GET、POST 等），并将响应结果集成到呼叫流程中。以下是关于 mod_curl 的详细介绍&#xff1…...

编程日记 2026/3/9 21:44:14

强化学习-价值学习算法

Sarsa 理论解释 Sarsa是基于时序差分算法的，它的公式非常简单且易理解，不像策略梯度算法那样需要复杂的推导过程。 Sarsa的核心函数是 Q ( s , a ) Q(s, a) Q(s,a)，它的含义是在状态 s s s下执行 a a a，在后续轨迹中获取的期望…...

编程日记 2026/3/2 8:42:02

Apache Struts RCE (CVE-2024-53677)

前言对目前的Apache Struts RCE (CVE-2024-53677)的poc进行总结，由于只能单个ip验证，所以自己更改一下代码，实现：多线程读取url验证并保存，更改为中文解释免责声明请勿利用文章内的相关技术从事非法测试&#xf…...

编程日记 2026/4/12 18:18:57

23. AI-大语言模型-DeepSeek

文章目录前言一、DeepSeek是什么1. 简介2. 产品版本3. 特征4. 地址链接5. 三种访问方式1. 网页端和APP2. DeepSeek API 二、DeepSeek可以做什么1. 应用场景2. 文本生成1. 文本创作2. 摘要与改写3. 结构化生成 3. 自然语言理解与分析1. 语义分析2. 文本分类3. 知识推理 4. 编程…...

编程日记 2026/4/13 21:42:42

verilog基础知识

一，Verilog和VHDL区别全世界高层次数字系统设计领域中，应用Verilog和VHDL的比率是80％和20％；这两种语言都是用于数字电路系统设计的硬件描述语言，而且都已经是 IEEE 的标准。 VHDL 是美国军方组织开发的，VHDL1987年成为标准；Verilog 是由一个公司的私有财产转化而来，…...

编程日记 2026/3/6 15:28:57

负载测试工具有哪些？

Apache JMeter Apache JMeter 是一款开源的性能测试工具，主要用于对 Web 应用程序进行功能、负载和压力测试。JMeter 支持多种协议和技术，包括 HTTP, HTTPS, FTP 和 WebSocket 等。通过模拟大量并发用户访问来评估应用程序的表现1。 jmeter -n -t testp…...

编程日记 2025/11/10 18:13:55

项目中分库分表的分布式ID如何生成

分库分表与分布式ID生成在Java项目中的应用在大规模的分布式系统中，数据库表和数据量的增大可能会导致单个数据库或单个表的性能瓶颈。为了解决这个问题，我们通常使用分库分表来进行数据的水平切分和垂直切分。同时，在分布式环境中&#xf…...

编程日记 2025/11/12 15:05:53

用xarray解析高程数据时，Python报错:FileNotFoundError: [Errno 2] No such file or directory

问题： 用xarray解析高程数据时，Python报错:FileNotFoundError: [Errno 2] No such file or directory。但是该文件时存在的，用panoply工具也是可以正常打开查看。产生原因： 文件路径中存在中文，导致出现此问题。 …...

编程日记 2026/3/26 0:13:38

标准SαS分布的模拟脉冲噪声

标准SαS分布（Standard SαS Distribution）是一种用于描述脉冲噪声的统计分布，常用于模拟具有重尾特性的脉冲噪声信号。SαS分布是从稳定分布（Stable Distribution）中派生出来的一类分布，具有灵活的形状&am…...

编程日记 2026/4/5 11:36:57

基于STM32设计的自动追光系统（系统资料）

基于STM32设计的自动追光系统摘要：基于STM32设计的自动追光系统主要由光敏采集电路、单片机核心板电路和步进电机控制电路构成。通过光敏电阻采集环境光强信息，经 STM32 单片机处理后，控制步进电机转动，实现对光源的自动追踪。该系统具有响应速度快、追踪精度较高等优点，…...

编程日记 2026/4/2 18:42:43

成人床垫更新关于 SOR/2016-183 和《纺织品贴标和广告法规》的合规

成人床垫更新关于 SOR/2016-183 和《纺织品贴标和广告法规》的合规性声明加拿大站成人床垫法规SOR/2016-183是强制性的。为确保买家安全并遵守相关法规，亚马逊要求所有在加拿大销售的成人床垫必须符合《床垫法规》规定的安全标准，包括SOR/2016-183。此…...

编程日记 2026/4/13 17:42:44

11.编写前端内容|vscode链接Linux|html|css|js(C++)

vscode链接服务器安装VScode插件 Chinese (Simplified) (简体中⽂) Language Pack for Visual Studio CodeOpen in BrowserRemote SSH 在命令行输入 remote-ssh接着输入打开配置文件，已经配置好主机点击远程资源管理器可以找到右键链接输入密码 …...

编程日记 2026/4/8 20:03:42

Unity3D 基于 GPU 动画和 Compute Shader 的大批量动画渲染详解

引言在现代游戏开发中，渲染大量动画角色是一个常见的需求，尤其是在大规模战斗场景、开放世界游戏或 VR/AR 应用中。传统的 CPU 动画计算和渲染方式在面对大批量角色时，往往会遇到性能瓶颈。为了优化性能，开发者可以利用 GPU 的强…...

编程日记 2025/6/18 16:13:27

网工项目实践2.6 广域网需求分析及方案制定

本专栏持续更新，整一个专栏为一个大型复杂网络工程项目。阅读本文章之前务必先看《本专栏必读》。全网拓扑展示一.广域网互联方式 1.专线优点稳定独享。绝对安全。可靠性高，带宽高，完全取决于终端接口。缺点: 费用高。建设时间长。难…...

编程日记 2026/4/13 12:23:50

大模型相关学习

知识科普为什么不直接使用网页版 DeepSeek? 我们的需求：绝对的隐私保护和个性化知识库构建。场景：若希望大模型能根据企业规章制度来回答问题，一般需上传企业规章制度的附件，但仍可能面临问题。数据隐私问题：联网使…...

编程日记 2026/4/6 7:24:37

vue2自定义useVModel函数

父组件： <template> <div>父组件数据名字：<input v-model"person.name">父组件数据年龄：<input v-model"person.age"><son v-model"person"></son> </div> </t…...

编程日记 2025/11/17 2:43:01

基于Java（JSP）+MySQL设计与实现的 MVC 鲜花订购系统

基于MVC的鲜花订购系统的设计与实现摘要摘要：鲜花订购系统与网络相结合，给用户提供更加周到和人性化的服务。网站模式为MVC模式，基于MySql数据库,采用Jsp，Session绘画跟踪、JavaScript等技术,实现了普通用户可以浏览、查看鲜…...

编程日记 2026/4/13 18:56:28

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-dataset.py

dataset.py ultralytics\data\dataset.py 目录 dataset.py 1.所需的库和模块 2.class YOLODataset(BaseDataset): 3.class YOLOMultiModalDataset(YOLODataset): 4.class GroundingDataset(YOLODataset): 5.class YOLOConcatDataset(ConcatDataset): 6.class Sema…...

编程日记 2026/4/13 23:12:59

网络原理-

文章目录协议应用层传输层网络层数据链路层协议在网络通信中,协议是非常重要的概念.协议就是一种约定. 在网络通信过程中,对协议进行了分层接下来就按照顺序向大家介绍每一种核心的协议. 应用层应用层是咱们程序员打交道最多的一层协议.应用层里有很多现成的协议,但…...

编程日记 2026/4/14 8:39:55

解码 NLP：从萌芽到蓬勃的技术蜕变之旅

内容概况： 主要讲述NLP专栏的内容和NLP的发展及其在现代生活中的广泛应用。课程强调实践为主、理论为辅的学习方法，并通过多个生活场景展示了NLP技术的实际应用，如对话机器人、搜索引擎、翻译软件、电商推荐和智能客服等。这边我就不多做自我…...

编程日记 2026/4/7 21:05:02

Word中的文档信息域

Word中的文档信息域 DocProperty包含文档信息的多个属性, 也可以自定义属性. 查看文档预定义的自定义属性【文件】→【信息】→【属性】→【高级属性】参考链接 WORD中文档属性域DocProperty的应用-CSDN博客第06套 Word_哔哩哔哩_bilibili...

编程日记 2026/4/8 22:21:41

.NET周刊【2月第2期 2025-02-09】

国内文章开箱即用的.NET MAUI组件库 V-Control 发布了! https://www.cnblogs.com/jevonsflash/p/18701494 文章介绍了V-Control，一个适用于.NET MAUI的组件库。作者计划将其开源，强调.NET MAUI是生产力强的跨平台移动开发工具。V-Control提供多种组件…...

编程日记 2025/6/12 23:02:37

MySQL六大日志的功能介绍。

前言首先，MySQL的日志应该包括二进制日志（Binary Log）、错误日志（Error Log）、查询日志（General Query Log）、慢查询日志（Slow Query Log）、重做日志（Redo …...

编程日记 2025/11/6 9:44:03

java机器学习计算指标动态阈值

java机器学习计算指标动态阈值最近听到有的人说要做机器学习就一定要学Python，我想他们掌握的知道还不够系统全面。本文作者以动态阈值需求场景给大家介绍几种常用Java实现的机器学习库，包括使用开源库如Weka或Deeplearning4j（DL4J&#xf…...

编程日记 2026/4/6 3:06:17

Note25021902_TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1

TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1 在安装TIA Portal V18时，遇到TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1. 请在此PC上中启用.NET 3.5 SP1； 检索： 电脑上如何启用 .NET 3.5 SP1 参考资料1： https://baijiahao.…...

编程日记 2026/4/7 21:57:20

CHARMM-GUI EnzyDocker: 一个基于网络的用于酶中多个反应状态的蛋白质 - 配体对接的计算平台

❝ "CHARMM-GUI EnzyDocker for Protein−Ligand Docking of Multiple Reactive States along a Reaction Coordinate in Enzymes"介绍了 CHARMM-GUI EnzyDocker，这是一个基于网络的计算平台，旨在简化和加速 EnzyDock 对接模拟的设置过程&…...

编程日记 2026/4/6 2:56:09

阅读论文笔记《Translating Embeddings for Modeling Multi-relational Data》

目录一、模型核心原理剖析二、实验设计与数据集选择三、实验结果深度解读（一）链接预测实验（二）关系分类实验（三）链接预测示例（四）泛化实验四、模型优缺点总结（一&#…...

编程日记 2026/4/10 14:24:39

自然语言处理NLP 02统计语言模型

jieba中文分词

TF-IDF

TF（词频，Term Frequency）

IDF（逆文档频率，Inverse Document Frequency）

总结

案例：从文本数据中提取并分析关键词的重要性

相关文章：

自然语言处理NLP 02统计语言模型

【环降噪实验】详细介绍

Qt开发④Qt常用控件_上_QWdget属性+按钮类控件

FreeSwitch之mod_cidlookup 和 mod_blacklist和mod_curl的抉择

强化学习-价值学习算法

Apache Struts RCE (CVE-2024-53677)

23. AI-大语言模型-DeepSeek

verilog基础知识

负载测试工具有哪些？

项目中分库分表的分布式ID如何生成

用xarray解析高程数据时，Python报错:FileNotFoundError: [Errno 2] No such file or directory

标准SαS分布的模拟脉冲噪声

基于STM32设计的自动追光系统（系统资料）

成人床垫更新关于 SOR/2016-183 和《纺织品贴标和广告法规》的合规

11.编写前端内容|vscode链接Linux|html|css|js(C++)

Unity3D 基于 GPU 动画和 Compute Shader 的大批量动画渲染详解

网工项目实践2.6 广域网需求分析及方案制定

大模型相关学习

vue2自定义useVModel函数

基于Java（JSP）+MySQL设计与实现的 MVC 鲜花订购系统

YOLOv11-ultralytics-8.3.67部分代码阅读笔记-dataset.py

网络原理-

解码 NLP：从萌芽到蓬勃的技术蜕变之旅

Word中的文档信息域

.NET周刊【2月第2期 2025-02-09】

MySQL六大日志的功能介绍。

java机器学习计算指标动态阈值

Note25021902_TIA Portal V18 WinCC BCA Ed 需要.NET 3.5 SP1

CHARMM-GUI EnzyDocker: 一个基于网络的用于酶中多个反应状态的蛋白质 - 配体对接的计算平台

阅读论文笔记《Translating Embeddings for Modeling Multi-relational Data》