当前位置：首页 > news >正文

《机器学习》——sklearn库中CountVectorizer方法（词频矩阵）

news 2026/6/2 12:21:50

CountVectorizer方法介绍

CountVectorizer 是 scikit-learn 库中的一个工具，它主要用于将文本数据转换为词频矩阵，而不是传统意义上的词向量转换，但可以作为词向量转换的一种基础形式。
用于将文本数据转换为词频矩阵，它是文本特征提取的重要方法之一。

用法

分词：将输入的文本分割成单词或 n-gram 序列。
构建词汇表：统计文本中出现的所有唯一的词，并为每个词分配一个唯一的索引。
生成词频矩阵：对于每一个输入的文本，根据词汇表统计每个词出现的次数，生成一个稀疏矩阵，矩阵的行表示文档，列表示词汇表中的词，元素表示该词在相应文档中的出现频率。

CountVectorizer

在这里插入图片描述

主要参数

input=‘content’：输入数据的类型，可以是 ‘content’（字符串）、‘filename’ 或 ‘file’。
encoding=‘utf-8’：文本的编码方式。
decode_error=‘strict’：解码错误时的处理方式，如 ‘strict’、‘ignore’、‘replace’ 等。
strip_accents=None：去除重音字符，可设置为 ‘ascii’ 或 unicode。
lowercase=True：将所有字符转换为小写。
preprocessor=None：预处理器，用于在分词前对文本进行处理。
tokenizer=None：自定义分词器，默认为 None，使用 CountVectorizer 自带的分词器。
stop_words=None：停用词列表，可以是 ‘english’ 或自定义的停用词列表。
token_pattern=‘(?u)\b\w\w+\b’：用于分词的正则表达式模式。
ngram_range=(1, 1)：提取 n 元语法的范围，默认为一元语法。
analyzer=‘word’：分析器，可以是 ‘word’（单词级）或 ‘char’（字符级）。
max_df=1.0：词汇表中一个单词在文档中出现的最大频率，可设置为浮点数（比例）或整数（绝对次数）。
min_df=1：词汇表中一个单词在文档中出现的最小频率，可设置为浮点数（比例）或整数（绝对次数）。
max_features=None：词汇表的最大大小，限制词汇表中的单词数量。

CountVectorizer例子

from sklearn.feature_extraction.text import CountVectorizertexts = ["dog cat fish","dog cat cat","fish bird","bird"]
cont = []
# 实例化一个模型
cv = CountVectorizer(ngram_range=(1,3)) 
# 这里实例化了一个 CountVectorizer 对象 cv，ngram_range=(1,3) 表示要考虑的 n-gram 的范围是从 1 个词到 3 个词的组合。
# 例如，对于 "dog cat fish"，会考虑 "dog"、"cat"、"fish"、"dog cat"、"cat fish" 和 "dog cat fish" 等。# 训练此模型
cv_fit = cv.fit_transform(texts) 
# 使用 fit_transform 方法对输入的文本列表 texts 进行训练和转换。
# 它会先对文本进行分词处理，然后统计每个词（或 n-gram）在每个文本中出现的频率。print(cv.get_feature_names_out())
# 调用 get_feature_names_out 方法，将返回一个包含所有不同的词（或 n-gram）的数组。
# 这些词是在对输入的文本进行处理后得到的词汇表，会根据输入文本中出现的不同词汇以及 n-gram 组合形成。print(cv_fit)
# 打印 cv_fit，它是一个稀疏矩阵对象，存储了词频信息。由于文本数据通常是稀疏的（大部分元素为 0），
# 所以使用稀疏矩阵来存储可以节省空间和提高计算效率。# 打印出每个语句的词向量
print(cv_fit.toarray())
# 调用 toarray 方法将稀疏矩阵 cv_fit 转换为密集数组。
# 这样可以更直观地看到每个语句中各个词汇或 n-gram 的出现次数，行代表输入的不同文本，列代表词汇表中的词汇或 n-gram。# 打印出所有数据求和结果
print(cv_fit.toarray().sum(axis=0))
# 对 cv_fit.toarray() 得到的数组按列求和，即计算每个词汇或 n-gram 在所有文本中出现的总次数。
# axis=0 表示按列进行求和操作。

结果:

《机器学习》——sklearn库中CountVectorizer方法（词频矩阵）

CountVectorizer方法介绍 CountVectorizer 是 scikit-learn 库中的一个工具，它主要用于将文本数据转换为词频矩阵，而不是传统意义上的词向量转换，但可以作为词向量转换的一种基础形式。用于将文本数据转换为词频矩阵，它是文本特征…...

编程日记 2025/1/13 6:37:17

UML系列之Rational Rose笔记三：活动图（泳道图）

一、新建活动图（泳道图） 依旧在用例视图里面，新建一个activity diagram；新建好之后，就可以绘制活动图了： 正常每个活动需要一个开始，点击黑点，然后在图中某个位置安放，接…...

编程日记 2025/1/13 6:36:16

Java面向对象面经总结

目录面向对象基础面向对象与面向过程的区别创建一个对象用什么运算符，对象实体与对象引用的区别对象相等和引用相等的区别构造方法的特点，是否可被重写？ 面向对象三大特征封装继承多态接口和抽象类的共同点和区别深拷贝…...

编程日记 2025/1/13 6:35:15

红队工具使用全解析：揭开网络安全神秘面纱一角

红队工具使用全解析：揭开网络安全神秘面纱一角 B站红队公益课：https://space.bilibili.com/350329294 学习网盘资源链接：https://pan.quark.cn/s/4079487939e8 嘿，各位网络安全爱好者们！在风云变幻的网络安全战场上&am…...

编程日记 2025/1/13 6:34:14

OpenLinkSaas 2025年第一季度开发计划

OpenLinkSaas在2025的发展方向是强化基础设施和研发协作，弱化管理相关的功能。为了根据参与到软件研发的整个流程，OpenLinkSaas会增加一系列的基础设施项目，并和OpenLinksaas进行深度整合。目前计划中的基础设施: 链路追踪系统(OpenDragonF…...

编程日记 2025/1/13 6:32:12

【python小工具】怎么获取视频的关键帧频率？

使用 FFmpeg 提取 MP4 视频的关键帧并计算关键帧频率可以按以下步骤进行： 提取关键帧： 使用 FFmpeg 提取视频中的关键帧可以通过以下命令实现： ffmpeg -i input.mp4 -vf "selecteq(pict_type,I)" -vsync vfr keyframes_%03d.jpg…...

编程日记 2025/1/13 6:31:11

数字孪生可视化在各个行业的应用场景

数字孪生技术，作为新一代信息技术的集大成者，正在深刻改变着我们对物理世界的认知和管理方式。本文将探讨数字孪生可视化在不同行业的应用场景，以及它们如何赋能行业数字化转型。 1. 智慧城市与交通在智慧城市领域，数字孪生技术…...

编程日记 2025/1/13 6:29:09

python <shut.py> import ntplib from datetime import datetime, timezoneimport time import osimport easygui# net time def get_network_time():time.sleep(3)"""从网络时间服务器获取时间"""client ntplib.NTPClient()response c…...

编程日记 2025/1/13 6:27:07

Go可以使用设计模式，但绝不是《设计模式》中的那样

文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons：JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram，自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ？ 5 IDEA必装的插件&…...

编程日记 2025/1/13 6:25:04

【C语言】_使用冒泡排序模拟实现qsort函数

目录 1. 排序函数的参数 2. 排序函数函数体 2.1 比较元素的表示 2.2 交换函数Swap的实现 2.3 排序函数bubble_sort的实现 3. 测试整型数据排序 3.1 整型数据比较函数cmp_int的实现 3.2 整型数据排序后输出函数print_int的实现 3.3 整型数据测试函数test_int的实现 3…...

编程日记 2025/1/13 6:24:03

openCvSharp 计算机视觉图片找茬

一、安装包 <PackageReference Include"OpenCvSharp4" Version"4.10.0.20241108" /> <PackageReference Include"OpenCvSharp4.runtime.win" Version"4.10.0.20241108" /> 二、准备两张图片三、编写代码 using OpenCv…...

编程日记 2025/1/13 6:22:01

从零开始开发纯血鸿蒙应用之处理外部文件

从零开始开发纯血鸿蒙应用一、外部文件二、外部文件的访问形式1、主动访问2、被动访问三、代码实现1、DocumentViewPicker2、Ability Skills3、onNewWant 函数4、冷启动时处理外部文件一、外部文件对于移动端app来说，什么是外部文件呢？是那些存储在…...

编程日记 2025/1/13 6:21:00

Spring中三级缓存详细讲解

1、Spring三级缓存是什么，过程是怎么样的？ Spring 中的三级缓存主要用于单例 Bean 的生命周期管理，特别是在循环依赖时，它通过不同阶段暴露 Bean 实例来确保依赖注入的顺利完成。缓存的内容如下： 一级缓存 (singleton…...

编程日记 2025/1/13 6:18:58

论文阅读：《Whole-animal connectomes of both Caenorhabditis elegans sexes》

一论文整体概述论文下载链接：《Whole-animal connectomes of both Caenorhabditis elegans sexes》补充信息和额外数据：https://www.nature.com/articles/s41586-019-1352-7 1. 作者期刊背景该论文由Scott W. Emmons，David H. Hall等…...

编程日记 2025/1/13 6:17:57

嵌入式开发之STM32学习笔记day03

STM32之ADC（模拟数字转换器） 1 ADC简述2 ADC转换时间3 ADC转化结果存放机制4 ADC转化结果存放机制5 ADC电压转换 1 ADC简述 ADC（Analog-Digital Converter）模拟—数字转换器；ADC可以将引脚上连续变化的模拟电压转换为…...

编程日记 2025/1/13 6:16:56

windows10 安装 Golang 版本控制工具g与使用

下载包：https://github.com/voidint/g/releases 解压， 并添加到环境变量 g 常用命令查询当前可供安装的stable状态及所有的 go 版本 # stable 版本 g ls-remote stable# 所有版本 g ls-remote安装目标 go 版本1.23.4g install 1.23.4切换到已安装的…...

编程日记 2025/1/13 6:15:54

SpringBoot 使用 Cache 集成 Redis做缓存保姆教程

1. 项目背景 Spring Cache是Spring框架提供的一个缓存抽象层，它简化了缓存的使用和管理。Spring Cache默认使用服务器内存，并无法控制缓存时长，查找缓存中的数据比较麻烦。因此Spring Cache支持将缓存数据集成到各种缓存中间件中。本文已常…...

编程日记 2025/1/13 6:12:51

R数据分析：多分类问题预测模型的ROC做法及解释

有同学做了个多分类的预测模型，结局有三个类别，做的模型包括多分类逻辑回归、随机森林和决策树，多分类逻辑回归是用ROC曲线并报告AUC作为模型评估的，后面两种模型报告了混淆矩阵，审稿人就提出要统一模型评估指标。那么肯定是统一成ROC了，刚好借这个机会给大家讲讲ROC在多…...

编程日记 2025/1/13 6:11:49

数据结构与算法之二叉树: LeetCode 654. 最大二叉树 (Ts版)

最大二叉树 https://leetcode.cn/problems/maximum-binary-tree/ 描述给定一个不重复的整数数组 nums 。最大二叉树可以用下面的算法从 nums 递归地构建: 创建一个根节点，其值为 nums 中的最大值递归地在最大值左边的子数组前缀上构建左子树递归地在最大值…...

编程日记 2025/1/13 6:09:47

Linux 容器漏洞

定义：Linux 容器漏洞是指在容器技术（如 Docker、LXC 等）运行环境中存在的安全弱点。这些漏洞可能存在于容器镜像本身、容器运行时（如 runc）、容器编排工具（如 Kubernetes）或者容器与主机之间的交…...

编程日记 2025/1/13 6:08:46

AX-MES生产制造管理系统-总览

前言说起 MES 就不得不说 ERP，但是 ERP 大家基本上都知道，MES 就不一定了，常见的 ERP 系统包括 SAP、金蝶、用友等，ERP的流程相对来说也比较统一；MES就不同了，基本上熟悉业务流程的软件公司都可以开发并实施…...

编程新知 2026/5/26 4:48:24

如何用SMUDebugTool彻底掌控你的AMD Ryzen处理器性能调优

如何用SMUDebugTool彻底掌控你的AMD Ryzen处理器性能调优【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://gitcode.co…...

编程新知 2026/5/26 3:01:50

亚马逊 Rufus 关停，Alexa 正式上线：卖家必须读懂的6条新规则

2026年5月13日，亚马逊官方正式宣布，下线Rufus，推出全新AI购物助手：Alexa for Shopping。但是，这不是粗暴地直接下线 Rufus，而是一次购物AI底层架构的重组 —— 将 Rufus 的商品专长与 Alexa的用户理解力&a…...

编程新知 2026/5/26 1:45:11

MBTI性格测试

简介 MBTI（Myers‑Briggs Type Indicator，迈尔斯‑布里格斯类型指标）是基于荣格心理类型理论发展出的性格类型工具，由凯瑟琳库克布里格斯及其女儿伊莎贝尔布里格斯迈尔斯创建。它通过四对偏好维度将个体的认知与行为倾向归纳为 16…...

编程新知 2026/5/26 1:09:00

CentOS服务器上VNC连接失败？手把手教你排查并修复个人端口问题（附重启命令）

CentOS服务器VNC连接故障深度排查指南：从原理到实战当你在深夜赶项目时，突然发现VNC连接不上服务器，那种焦虑感我深有体会。去年参与半导体器件仿真项目时，我也曾被这个问题困扰整整两天。本文将分享一套经过实战检验的排查方法论…...

编程新知 2026/5/26 0:12:07

Burp Suite证书安装全解：HTTPS抓包失败的根源与跨平台命令行方案

1. 为什么必须亲手安装Burp Suite证书——不是“点一下就完事”的操作很多人第一次在手机或测试设备上配置Burp Suite代理时，会下意识认为：只要把电脑上的Burp监听地址填进Wi-Fi代理设置，再用浏览器访问http://burp，点击那个绿色的…...

编程新知 2026/5/26 0:10:02

基于双T振荡器的正弦波LED调光电路设计与实践

1. 项目概述：用双T振荡器实现正弦波LED调光最近在捣鼓一些氛围灯项目，总感觉用单片机PWM做的呼吸灯效果有点“硬”，那种线性的明暗变化看久了难免审美疲劳。于是翻出以前模拟电路的老本行，琢磨着能不能用纯硬件的方式，…...

编程新知 2026/5/26 0:01:48

长期使用Token Plan套餐在项目开发中的成本观察

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度长期使用Token Plan套餐在项目开发中的成本观察在AI驱动的项目开发中，成本控制与预算管理是团队负责人必须面对的现实…...

编程新知 2026/5/25 23:06:49

收藏｜2026年AI大模型就业爆发！岗位暴涨12倍、月薪6W+，小白零基础入门指南

2026年，AI已从“科技热点”彻底变为职场“刚需赛道”！脉脉高聘人才智库最新发布的《2026年1-2月中高端人才求职招聘洞察》，用硬核数据揭示行业真相：AI人才成招聘市场顶流，岗位量、薪资双双爆发式增长。尤其对零基础小白…...

编程新知 2026/5/25 17:21:51

LeagueAkari：基于LCU接口的英雄联盟客户端自动化工具深度解析

LeagueAkari：基于LCU接口的英雄联盟客户端自动化工具深度解析【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 功能模块架构与核心技…...

编程新知 2026/5/25 16:52:47

《机器学习》——sklearn库中CountVectorizer方法（词频矩阵）

CountVectorizer方法介绍

用法

CountVectorizer

主要参数

CountVectorizer例子

相关文章：

《机器学习》——sklearn库中CountVectorizer方法（词频矩阵）

UML系列之Rational Rose笔记三：活动图（泳道图）

Java面向对象面经总结

红队工具使用全解析：揭开网络安全神秘面纱一角

OpenLinkSaas 2025年第一季度开发计划

【python小工具】怎么获取视频的关键帧频率？

数字孪生可视化在各个行业的应用场景

Python实现windows自动关机

Go可以使用设计模式，但绝不是《设计模式》中的那样

【C语言】_使用冒泡排序模拟实现qsort函数

openCvSharp 计算机视觉图片找茬

从零开始开发纯血鸿蒙应用之处理外部文件

Spring中三级缓存详细讲解

论文阅读：《Whole-animal connectomes of both Caenorhabditis elegans sexes》

嵌入式开发之STM32学习笔记day03

windows10 安装 Golang 版本控制工具g与使用

SpringBoot 使用 Cache 集成 Redis做缓存保姆教程

R数据分析：多分类问题预测模型的ROC做法及解释

数据结构与算法之二叉树: LeetCode 654. 最大二叉树 (Ts版)

Linux 容器漏洞

AX-MES生产制造管理系统-总览

如何用SMUDebugTool彻底掌控你的AMD Ryzen处理器性能调优

亚马逊 Rufus 关停，Alexa 正式上线：卖家必须读懂的6条新规则

MBTI性格测试

CentOS服务器上VNC连接失败？手把手教你排查并修复个人端口问题（附重启命令）

Burp Suite证书安装全解：HTTPS抓包失败的根源与跨平台命令行方案

基于双T振荡器的正弦波LED调光电路设计与实践

长期使用Token Plan套餐在项目开发中的成本观察

收藏｜2026年AI大模型就业爆发！岗位暴涨12倍、月薪6W+，小白零基础入门指南

LeagueAkari：基于LCU接口的英雄联盟客户端自动化工具深度解析