当前位置：首页 > news >正文

Python统计中文词频的四种方法

news 2026/5/19 14:30:21

统计中文词频是Python考试中常见的操作，由于考察内容较多，因此比较麻烦，那么有没有好的方法来实现呢？今天，我们总结了四种常见的中文词频统计方法，并列出代码，供大家学习参考。

中文词频统计主要是通过open()打开文本，然后read()方法读取后，采用结巴分词(jieba)模块进行分词，接着用推表推导式、Counter或者是字典的方法来统计词频，也可以采用NLTK的方法，最后格式化打印出来。

题目：统计中文文本文件【词频统计文本.txt】中长度大于1的词的词频，然后打印出词频数最高的10个词。

默认系统里已经安装好了jieba这个模块。如果还没有安装，可以在cmd下通过pip install jieba来安装这个模块。

一、字典法——常用的方法

先读取文本，然后jieba分词，再对分词后的列表进行遍历，然后用字典统计词频。这里排除了单个词，代码如下：

import jieba
txt = open("词频统计文本.txt", "r").read()
words = jieba.lcut(txt)
counts = {}
for word in words:if len(word) == 1: #排除单个字符的分词结果continueelse:counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):word, count = items[i]print("{0:<10}{1:>5}".format(word,count))
print ('已统计数量排前10的词')

二、Counter法——代码简单，速度快

先生成Counter对象，再排序，最后再打印出来。这里我们使用了most_common的方法，代码更为简洁，更好理解一点。代码如下：

import jieba
from collections import Counter
with open("词频统计文本.txt", "r",encoding="utf-8") as f:words = jieba.lcut(f.read())words = [item for item in words if len(item)>1]
counts = Counter(words)
for word,count in counts.most_common(10):print(word,count)
print ('已统计数量排前10的词')

三、NLTK方法——有点儿小麻烦

利用列表推导式筛选列表，利用NLTK中的FreqDist来统计列表中的词步，代码如下。

import jieba,os
from nltk.probability import FreqDist
with open("词频统计文本.txt","r",encoding="utf-8") as f:text = f.read()
words = jieba.lcut(text)
lst = [i for i in words if len(i)>1]
freq = FreqDist(lst)
for item in freq.most_common(10):word,count=itemprint(f"{word:<10}\t{count:<5}")
print ('已统计数量排前10的词')

使用这种方法，得安装nltk包，较为麻烦。

四、列表推导式法

如果不借助其它包，我们可以充分利用Python自带的count方法和列表推导式，实现词频的统计。这其中与前面排序的方法不同的是，我们采用了sorted的方法，完整代码如下：

import jieba,os
with open("词频统计文本.txt","r",encoding="utf-8") as f:text = f.read()
words = jieba.lcut(text)
lst = [(key,words.count(key)) for key in set(words) if len(key)>1]
items = sorted(lst,key=lambda x:x[1],reverse=True)
for i in range(10):word, count = items[i]if len(word) == 1: #排除单个字符的分词结果continueelse:print(f"{word:<10}\t{count:<5}")
print ('已统计数量排前10的词')

五、学后反思

1. 中文词频统计主要考察文本的读取、列表的遍历、jieba分词、词频统计、排序、结果的格式化和打印输出等综合能力。因此，它是Python二级中常考的题目，认真学习，并找出多种词频统计的方法可以更好地理解Python中的相关概念和基础语法知识。

2. 四种方法中最麻烦的是NLTK法和列表推导式化，字典法和Counter方法最为常用，字典法常出现在考试中，而Counter的方法实用性更强，大家可以有选择地使用。

3. 有了词频表，后续可以进行可视化的图表生成，包括词云图和线形图等，以便更直观地观察语篇中词的特点。

Python统计中文词频的四种方法

一、字典法——常用的方法

二、Counter法——代码简单，速度快

三、NLTK方法——有点儿小麻烦

四、列表推导式法

五、学后反思

相关文章：

Python统计中文词频的四种方法

sql server 快速安装

机器学习之损失函数

nacos适配SqlServer、Oracle

力扣：74. 搜索二维矩阵（Python3）

CPU、MCU、MPU、SOC、SOCPC、概念解释之在嵌入式领域常听到的名词含义

每日两题 111二叉树的最小深度 112路径总和（递归）

实训笔记8.24

Linux下的系统编程——系统调用（五）

动物体外受精手术VR模拟仿真培训系统保证学生及标本的安全

微信小程序｜步骤条

如何才能设计出“好的”测试用例？

DirectExchange直连交换机

Shell 编程：探索 Shell 的基本概念与用法

【Git分支操作---讲解二】

vue2+qrcodejs2+clipboard——实现二维码展示+下载+复制到剪切板——基础积累

【PHP】echo 输出数组报Array to string conversion解决办法

Arduino驱动MiCS-4514气体传感器（气体传感器篇）

marked在vue项目中改变超链接跳转方式和图片放大预览

leetcode485. 最大连续 1 的个数

GEO优化实战指南：中小企业如何精准提升本地服务获客效率？

LabVIEW多语言界面开发：基于JKI Simple Localization的控件本地化实战

3步高效解决Krita AI Diffusion插件IP-Adapter缺失问题

猫抓浏览器扩展完全指南：5步掌握网页视频资源嗅探与下载

安装离线版mysql，全网最详细

从零开始：手把手教你用Python解析MMD的PMX模型文件（附完整代码）

前后端分离项目避坑指南：为什么你的网关CORS配置了还是报跨域错误？

别再乱画了！GD32/STM32复位与唤醒按键电路设计，90%新手会踩的坑

NotebookLM具身智能落地实战（从零部署到ROS2集成）：谷歌AI团队内部培训手册泄露版

Ti AWR2243实测：毫米波雷达通道积累，选相干还是非相干？一个实验讲清楚