当前位置: 首页 > news >正文

2023.12.31 Python 词频统计

练习:使用Python中的filter、map、reduce实现词频统计

样例数据:

hello world java python
java java hadoop spark
spark python

需求分析:

1- 文件中有如上的示例数据

2- 读取文件内容。可以通过readline()

3- 将一行内容切分得到多个单个的单词。并且对单词进行过滤filter

4- 数据结构转换:将单词放到字典中,

{

"java":1

}

5-从字典中取出key对应的次数,进行累加操作

6-最终就得到结果

 

方法1: 

with open('./word_count.txt',mode='w',encoding='utf8')as f:f.write("hello world java python java java hadoop spark spark python")

import re
from collections import Counter# 读取文件
with open('./word_count.txt', 'r') as file:text = file.read()# 将文本转换为小写,并去除标点符号和特殊字符
text = re.sub(r'[^\w\s]', '', text.lower())# 使用空格分割文本为单词列表
words = text.split()
# ['hello', 'world', 'java', 'python', 'java', 'java', 'hadoop', 'spark', 'spark', 'python']
# 统计词频
word_counts = Counter(words)
print(word_counts)
# Counter({'java': 3, 'python': 2, 'spark': 2, 'hello': 1, 'world': 1, 'hadoop': 1})

方法2:


# 1- 文件中有如上的示例数据
with open('wordcount.txt',mode='r',encoding='UTF-8') as file_obj:result_dict = {}while True:# 2- 读取文件内容。可以通过readline()line = file_obj.readline()if line=='':break# 3- 将一行内容切分得到多个单个的单词。并且对单词进行过滤filterword_list = line.split()# 3.1- 过滤数据word_list = filter(lambda word:word!='world',word_list)# print(list(word_list),type(list(word_list)))# 4- 数据结构转换map:将单词作为key,单词出现的次数作为valuefor word in word_list:exist_flag = (word in result_dict.keys())if not exist_flag:# 4.1- 如果单词在字典中不存在,直接新增一对key-value(1)word_num = 1else:# 4.2- 如果单词在字典中已经存在,那么将value+=1之后更新字典的value# 5-从字典中取出key对应的次数,进行累加操作word_num += 1result_dict[word] = word_num# 6-最终就得到结果print(result_dict)

相关文章:

2023.12.31 Python 词频统计

练习:使用Python中的filter、map、reduce实现词频统计 样例数据: hello world java python java java hadoop spark spark python 需求分析: 1- 文件中有如上的示例数据 2- 读取文件内容。可以通过readline() 3- 将一行内容切分得到多个单…...

day12--java高级编程:网络通讯

5 Day19–网络通信(Socket通信) 说明: io流是跟本地的文件进行数据的传输,读或者写。网络通信:数据在网络中进行的传输。 本章专题与脉络 1. 网络编程概述 Java是 Internet 上的语言,它从语言级上提供了对网络应用程序的支持&…...

MongoDB聚合:$out

$out阶段将聚合管道产生的文档写入到指定的集合,从MongoDB4.4开始,支持指定数据库。$out阶段必须放在聚合管道的最后,支持聚合结果任意大小的数据集。 警告: 如果指定的集合已经存在则会被替换。 语法 用法 1: 定数…...

一次奇葩的spin_lock_irq / spin_unlock_irq使用不当导致的系统卡死分析

这是在调试内核block层时遇到的一例奇葩的soft lock锁死问题(内核版本centos 8.3,4.18.0-240),现场如下: [ 760.247152] watchdog: BUG: soft lockup - CPU#0 stuck for 23s! [kworker/0:1:2635]……………..[ 760.247184] CPU: 0 PID: 26…...

公司创建百度百科需要哪些内容?

一个公司或是一个品牌想要让自己更有身份,更有知名度,更有含金量,百度百科词条是必不可少的。通过百度百科展示公司的详细信息,有助于增强用户对公司的信任感,提高企业形象。通过百度百科展示公司的发展历程、领导团队…...

qt中信号槽第五个参数

文章目录 connent函数第五个参数的作用自动连接(Qt::AutoConnection)直接连接(Qt::DirectConnection - 同步)同线程不同线程 队列连接(Qt::QueuedConnection - 异步)同一线程不同线程 锁定队列连接(Qt::BlockingQueuedConnection) connent函数第五个参数的作用 connect(const …...

模式识别与机器学习-SVM(线性支持向量机)

线性支持向量机 线性支持向量机间隔距离学习的对偶算法算法:线性可分支持向量机学习算法线性可分支持向量机例子 谨以此博客作为复习期间的记录 线性支持向量机 在以上四条线中,都可以作为分割平面,误差率也都为0。但是那个分割平面效果更好呢&#xff1…...

【并行计算】GPU,CUDA

一、CUDA层次结构 1.kernel核函数 一个CUDA程序是一个kernel核函数被GPU的多个计算单元并行执行的过程&#xff0c;CUDA给了如下抽象 dim3 threadsPerBlock(4, 3, 1); dim3 numBlocks(3, 2, 1); matrixAdd<<<numBlocks, threadsPerBlock>>>(A, B, C); 2.G…...

计算机网络教案——计算机网络设备章节

第五章 计算机网络设备 一、教学目标: 1. 了解计算机网络的主要设备 2. 了解计算机网络设备的主要原理 3. 掌握计算机网络设备的基本用途 4. 掌握计算机网络设备的使用常识 二、教学重点、难点 计算机网络设备的主要原理 三、技能培训重点、难点 计算机网络设备的使用…...

什么是SLAM中的回环检测,如果没有回环检测会怎样

目录 什么是回环检测 如果没有回环检测 SLAM&#xff08;Simultaneous Localization and Mapping&#xff0c;即同时定位与地图构建&#xff09;是一种使机器人或自动驾驶汽车能够在未知环境中建立地图的同时定位自身位置的技术。回环检测&#xff08;Loop Closure Detectio…...

ubuntu 通过文件设置静态IP、DNS、网关

1. 确定网络接口名称 首先&#xff0c;使用 ip a 命令确定您要配置的网络接口名称。 2. 编辑 Netplan 配置文件 使用文本编辑器&#xff08;如 nano&#xff09;打开或创建 Netplan 配置文件&#xff1a; sudo nano /etc/netplan/01-netcfg.yaml3. 输入 Netplan 配置 在编…...

mapboxgl 中热力图的实现以及给热力图点增加鼠标移上 popup 效果

文章目录 概要效果预览技术思路技术细节小结 概要 本篇文章还是关于最近做到的 mapboxgl 地图展开的。 借鉴官方示例&#xff1a;https://iclient.supermap.io/examples/mapboxgl/editor.html#heatMapLayer 效果预览 技术思路 将接口数据渲染到地图中形成热力图。还需要将热…...

golang并发安全-sync.map

sync.map解决的问题 golang 原生map是存在并发读写的问题&#xff0c;在并发读写时候会抛出异常 func main() {mT : make(map[int]int)g1 : []int{1, 2, 3, 4, 5, 6}g2 : []int{4, 5, 6, 7, 8, 9}go func() {for i : range g1 {mT[i] i}}()go func() {for i : range g2 {mT[…...

开发第一个SpringBoot程序

使用命令创建Maven工程 mvn archetype:generate -DgroupIdorg.sang -DartifactIdchapter01 -DarchetypeArtifactIdmaven-archetype-quickstart -DinteractiveModefalse 参数说明&#xff1a; -DgroupId 组织Id&#xff08;项目包名&#xff09; -DartifactId 项目名称或模块…...

2023年度总结—你是你的年度MVP吗?

这段年度总结其实我之前就想写了&#xff0c;大概就是市赛比完之后18号的样子把&#xff0c;但是因为太懒了就一直拖到了现在哈哈&#xff0c;我思来想去&#xff0c;翻来覆去&#xff0c;彻夜难眠&#xff0c;想了想&#xff0c;还是决定把它写了吧&#xff01;毕竟&#xff0…...

Linux基础知识学习3

vim编辑器 其分为四种模式 1.普通(命令)模式 2.编辑模式 3.底栏模式 4.可视化模式 vim编辑器被称为编辑器之神&#xff0c;而Emacs更是神之编辑器 普通模式&#xff1a; 1.光标移动 ^ 移动到行首 w 跳到下一个单词的开头…...

Leetcode5-在长度2N的数组中找出重复N次的元素(961)

1、题目 给你一个整数数组 nums &#xff0c;该数组具有以下属性&#xff1a; nums.length 2 * n. nums 包含 n 1 个 不同的 元素 nums 中恰有一个元素重复 n 次 找出并返回重复了 n 次的那个元素。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3,3] 输出&#xff1a…...

openssl的 openssl.cnf配置文件详解

背景&#xff1a;在上一篇文中&#xff0c;提到要写一篇openssl 配置文件详解的&#xff0c;这就来了~~~ find / -name openssl.cnf /etc/pki/tls/openssl.cnf /etc/pki/tls/openssl.cnf&#xff0c;该文件主要设置了证书请求、签名、crl相关的配置。主要相关的伪命令为ca和req…...

SpringBoot集成支付宝,看这一篇就够了。

前 言 在开始集成支付宝支付之前&#xff0c;我们需要准备一个支付宝商家账户&#xff0c;如果是个人开发者&#xff0c;可以通过注册公司或者让有公司资质的单位进行授权&#xff0c;后续在集成相关API的时候需要提供这些信息。 下面我以电脑网页端在线支付为例&#xff0c;介…...

数据结构程序设计——哈希表的应用(2)->哈希表解决冲突的方法

目录 实验须知 代码实现 实验报告 一&#xff1a;问题分析 二、数据结构 1.逻辑结构 2.物理结构 三、算法 &#xff08;一&#xff09;主要算法描述 1.用除留余数法构造哈希函数 2.线性探测再散列法 &#xff08;一&#xff09;主要算法实现代码 四、上机调试 实…...

BK3633深度睡眠功耗实测:如何配置到1uA并保持定时器工作(避坑指南)

BK3633深度睡眠功耗优化实战&#xff1a;从理论到1uA的完整实现路径 在电池供电的物联网设备设计中&#xff0c;低功耗性能往往直接决定产品的市场竞争力。BK3633作为一款集成蓝牙5.2和专有2.4GHz协议的双模芯片&#xff0c;其规格书中标榜的"深度睡眠约1uA"参数尤其…...

LettR编辑器光标增强插件:提升代码编辑效率的智能导航方案

1. 项目概述&#xff1a;一个为LettR编辑器量身定制的光标增强插件如果你和我一样&#xff0c;日常重度依赖代码编辑器&#xff0c;那你一定对光标这个看似不起眼的小东西又爱又恨。爱的是&#xff0c;它是我们与代码世界交互的核心&#xff1b;恨的是&#xff0c;当代码文件越…...

Adobe-GenP 3.0终极指南:如何免费激活Adobe CC全系列软件

Adobe-GenP 3.0终极指南&#xff1a;如何免费激活Adobe CC全系列软件 【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款强大的Adobe Creative Cl…...

WeChatFerry:基于RPC与DLL注入的微信PC端自动化框架深度解析

1. 项目概述与核心价值 最近在折腾微信自动化相关的东西&#xff0c;发现了一个挺有意思的项目——WeChatFerry。这名字起得挺形象&#xff0c;“Ferry”是渡轮的意思&#xff0c;感觉就像是在你的程序和微信客户端之间搭了一座桥&#xff0c;让数据可以安全、稳定地“摆渡”过…...

Azure VM SSH被锁死?别慌,用Serial Console这招救活你的服务器(亲测有效)

Azure VM SSH被锁死&#xff1f;Serial Console终极救援指南 当你在Azure VM上误操作sshd_config导致SSH被完全锁死时&#xff0c;那种绝望感就像被困在数字孤岛。常规的RDP、Bastion甚至重建VM都无济于事——直到发现Serial Console这个隐藏的救命通道。作为经历过同样噩梦的运…...

Cursor Pro免费终极指南:一键破解限制,永久解锁AI编程助手完整功能

Cursor Pro免费终极指南&#xff1a;一键破解限制&#xff0c;永久解锁AI编程助手完整功能 【免费下载链接】cursor-free-vip [Support 0.45]&#xff08;Multi Language 多语言&#xff09;自动注册 Cursor Ai &#xff0c;自动重置机器ID &#xff0c; 免费升级使用Pro 功能:…...

网盘下载革命:LinkSwift 如何让你在9大平台轻松获取真实下载地址

网盘下载革命&#xff1a;LinkSwift 如何让你在9大平台轻松获取真实下载地址 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云…...

2026年十大主流需求管理工具深度测评:哪款更适合你的研发团队?

在软件研发日益复杂化、团队协作边界不断拓展的今天&#xff0c;需求管理不仅是产品经理的基本功&#xff0c;更是整个产品生命周期管理的“神经中枢”。你是否经历过这些问题&#xff1a;版本上线后&#xff0c;发现遗漏了某个关键需求&#xff1f;需求记录散落在 Excel、微信…...

量子误差缓解技术与BBGKY层次结构的应用

1. 量子误差缓解的现状与挑战在当前的NISQ&#xff08;噪声中等规模量子&#xff09;时代&#xff0c;量子计算机的实际应用面临着一个根本性障碍&#xff1a;量子噪声。与经典计算机不同&#xff0c;量子比特极易受到环境干扰&#xff0c;导致计算错误。这种噪声主要来源于量子…...

qmcdump音频解密终极指南:3分钟解锁QQ音乐加密文件

qmcdump音频解密终极指南&#xff1a;3分钟解锁QQ音乐加密文件 【免费下载链接】qmcdump 一个简单的QQ音乐解码&#xff08;qmcflac/qmc0/qmc3 转 flac/mp3&#xff09;&#xff0c;仅为个人学习参考用。 项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 还在为QQ…...