当前位置: 首页 > news >正文

NLP - 数据预处理 - 文本按句子进行切分

NLP - 数据预处理 - 文本按句子进行切分

文章目录

  • NLP - 数据预处理 - 文本按句子进行切分
  • 一、前言
    • 二、环境配置
      • 1、安装nltk库
      • 2、下载punkt分句器
    • 三、运行程序
    • 四、额外补充

一、前言

  在学习对数据训练的预处理的时候遇到了一个问题,就是如何将文本按句子切分,使用传统的jieba切割的颗粒度在词的程度,不能满足训练word2vec模型的需要。(py,手动实现自然也是可以,不过感觉斯,有py社区辣么发达相比有人实现了伐,就没有重复造轮子)

  要对文本按句子进行切分,可以使用Python的nltk库,它提供了一个名为sent_tokenize的函数,用于将文本切分为句子。以下是如何实现这个功能的示例:

二、环境配置

1、安装nltk库

pip install nltk

2、下载punkt分句器

如果使用的是nltk的第一次,需要下载punkt资源
下载地址:https://www.nltk.org/nltk_data/
手动下载所需punkt包(运行程序也能下载,不过由于一些网络原因比较难直接下载下来)
在这里插入图片描述
将下载的文件解压放到这个文件夹:C:\Users\Admin\AppData\Roaming\nltk_data\tokenizers
在这里插入图片描述
注:如果找不到路径:nltk_data\tokenizers,则手动创建

三、运行程序

使用sent_tokenize函数对文本进行按句切分:

import nltk
from nltk.tokenize import sent_tokenize# 如果使用的是nltk的第一次,需要下载punkt资源
nltk.download('punkt')# 示例文本
text = "This is an example sentence. Here is another one! And what about this one? Let's try it out."# 将文本切分为句子
sentences = sent_tokenize(text)# 输出切分后的句子
for i, sentence in enumerate(sentences):print(f"Sentence {i+1}: {sentence}")

在这个示例中,我们首先从nltk.tokenize模块中导入sent_tokenize函数。然后,我们定义了一个包含多个句子的文本。接下来,我们使用sent_tokenize函数将文本切分为句子,最后输出切分后的句子。

运行参考结果:
在这里插入图片描述

sent_tokenize函数使用预训练的Punkt分句器,它能够处理多种语言,并能很好地处理复杂的句子切分。在使用sent_tokenize时,您还可以通过提供一个可选参数language来指定文本的语言,以便更好地适应不同语言的句子切分规则。例如:

sentences = sent_tokenize(text, language='english')

四、额外补充

注:punkt 该库不支持中文,中文分句子比较的是另外一个库:pkuseg
这个库配好环境后下面的就可以直接使用了

import pkuseg# 示例中文文本
text = "这是一个示例句子。这是另一个!这个怎么样?让我们试试看。"# 配置pkuseg
seg = pkuseg.pkuseg()# 将文本切分为句子
sentences = seg.cut(text)# 输出切分后的句子
for i, sentence in enumerate(sentences):print(f"句子 {i + 1}: {sentence}")

相关文章:

NLP - 数据预处理 - 文本按句子进行切分

NLP - 数据预处理 - 文本按句子进行切分 文章目录 NLP - 数据预处理 - 文本按句子进行切分一、前言二、环境配置1、安装nltk库2、下载punkt分句器 三、运行程序四、额外补充 一、前言 在学习对数据训练的预处理的时候遇到了一个问题,就是如何将文本按句子切分&#…...

【轻松玩转MacOS】常用软件篇

引言 在本篇文章中,我将介绍如何安装和使用一些常用的软件,如Safari浏览器、邮件、日历、地图等。让我们一起来看看吧! 一、Safari浏览器 Safari是MacOS自带的浏览器,具有简洁、快速、安全的特点。 以下是一些Safari浏览器的使…...

Akshare简记

文章目录 基本信息安装Anaconda安装(推荐)Anaconda设置AKShare安装使用AKShare更新数据接口一览数据字典用例Hello WorldMFI指标SMA指标BOLL线指标股市新闻情绪判断市场情绪指标ARBR条件选股回测配对交易策略日线策略计算相近产品基本信息 线上文档:...

Jmeter常用断言之断言持续时间简介

Duration Assertion:断言持续时间。 断言持续时间通常用于做性能测试,一般用于检查HTTP请求的响应时间是否超过预期值。而这个响应时间是性能测试中常关注的一个性能指标。 一、添加断言方式 根据需要可在【测试计划】、【线程组】、【线程请求】下添加…...

C/C++/VS2022/指针/数组 调试出现debug

这个情况就很难受,编译没错,但是运行出现问题了,如果点击中止(重试、忽略)下一次运行还是会出现,看了显示的大致意思是在数组arry上出现了什么错误,经过检查发现,原来是数组在数入时…...

【设计模式】使用原型模式完成业务中“各种O”的转换

文章目录 1.原型模式概述2.浅拷贝与深拷贝2.1.浅拷贝的实现方式2.2.深拷贝的实现方式 3.结语 1.原型模式概述 原型模式是一种非常简单易懂的模型,在书上的定义是这样的: Specify the kinds of objects to create using a prototypical instance,and cre…...

[C++ 网络协议] IOCP(Input Output Completion Port)

1.什么是IOCP IOCP(Input Output Completion Port)输入输出完成端口。其实就是基于重叠I/O的一种改进的模型。 重叠I/O具有缺点:重复调用非阻塞模式的accpet函数和以进入alertablewait状态为目的的SleepEx函数会影响程序性能。 而IOCP提供…...

R实现地图相关图形绘制

大家好,我是带我去滑雪! 地图相关图形绘制具有许多优点,这些优点使其在各种领域和应用中非常有用。例如:地图相关图形提供了一种直观的方式来可视化数据,使数据更容易理解和分析。通过地图,可以看到数据的空…...

【Jmeter】性能测试脚本开发——性能测试环境准备、Jmeter脚本编写和执行

文章目录 一、常用的Jmeter元件二、性能测试环境准备三、编写Jmeter脚本四、执行测试脚本 一、常用的Jmeter元件 取样器-HTTP请求 作用:发送HTTP请求配置原件-HTTP请求默认值 作用:设置HTTP请求的默认参数配置原件-用户定义的变量 作用:定义…...

看好你家电视盒的后门!数千个Android电视盒感染了与欺诈相关的危险恶意软件

如果你从Android电视盒获得流媒体修复程序,则你的设备可能会被恶意软件所感染,这些恶意软件能够进行广告欺诈、创建假帐户,并通过悄悄地将你的数据转移到中国的服务器来销售对家庭网络的访问。 根据本周的一份新报告,网络安全公司…...

LeetCode 1251. 平均售价

题目链接:1251. 平均售价 题目描述 表:Prices Column NameTypeproduct_idintstart_datedateend_datedatepriceint (product_id,start_date,end_date) 是 prices 表的主键(具有唯一值的列的组合)。 price…...

TypeScript 笔记:String 字符串

1 对象属性 length 返回字符串的长度 2 对象方法 charAt() 返回在指定位置的字符 charCodeAt() 返回在指定的位置的字符的 Unicode 编码 concat 连接两个或更多的字符串 indexOf 返回某个指定的字符串值在字符串中首次出现的位置 lastIndexOf 从后向前搜索字符串&…...

蓝牙技术|Matter或能改变中国智能家居市场,蓝牙技术将得到进一步应用

近年来,智能家居开放协议标准Matter(目前版本 1.1)由连接标准联盟发布,该联盟是一个由数百家公司组成的全球性机构,旨在提供与物联网 (IoT) 相关的标准。例如,Matter 用于允许 Amazon Alexa、Apple Home、G…...

VB.NET vs. VB6.0:现代化编程语言 VS 经典老旧语言

目录 ​.NET背景: 特点: VB6.0背景: 特点: 两者之间的不同: 总结: 升华: .NET背景: VB.NET一种简单,现代,面向对象计算机编程语言,有微软开发,VB.NET是一种基于.NET Framework的面向对象…...

ViewPager、RecycleView实现轮播图

1.ViewPager实现轮播图形效果。 1&#xff09;layout中&#xff0c;PageIndicatorView轮播的View <RelativeLayoutandroid:layout_width"match_parent"android:layout_height"200dp"android:orientation"vertical"><androidx.viewpager…...

【FreeRTOS】【STM32】01从零开始的freertos之旅 浏览源码下的文件夹

基于野火以及正点原子 在打开正点原子的资料pdf时&#xff0c;我遇到了pdf无法复制粘贴的问题&#xff0c;这里有个pdf解锁文字复制功能的网址&#xff0c;mark一下。超级pdf 参考资料《STM32F429FreeRTOS开发手册_V1.2》 官方资料 FreeRTOS 的源码和相应的官方书籍均可从官…...

【PPT】ppt里面使用svg图标

要想编辑好的PPT&#xff0c;少不了小图标的美化&#xff0c;图标可以使PPT变得更有趣&#xff0c;更易懂&#xff0c;更美观。 对于png&#xff0c;主要处理它的颜色&#xff0c;可使用【重新着色】功能。 对于jpg&#xff0c;主要处理它的背景&#xff0c;删除背景后同png处…...

uni-app:实现页面效果4(echarts数据可视化)

效果 代码 <template><view><view><view class"title">概况</view><view class"line_position"><view class"line1"><view class"item"><view class"one">今日销售…...

vue实现echarts中 9种 折线图图例

let datas [{ DivideScore: 7, UserScore: 7.2, Name: 目标制定 },{ DivideScore: 7, UserScore: 7, Name: 具体性 },{ DivideScore: 7, UserScore: 7.5, Name: 可衡量性 },{ DivideScore: 7, UserScore: 7, Name: 可实现性 },{ DivideScore: 7, UserScore: 7, Name: 时间限定…...

redis实战-实现用户签到UV统计

BitMap功能演示 我们针对签到功能完全可以通过mysql来完成&#xff0c;比如说以下这张表 用户一次签到&#xff0c;就是一条记录&#xff0c;假如有1000万用户&#xff0c;平均每人每年签到次数为10次&#xff0c;则这张表一年的数据量为 1亿条 每签到一次需要使用&#xff08…...

旺季仓容紧张跨境卖家如何提前规划备货与入仓

决胜销售旺季&#xff1a;跨境卖家的备货与入仓战略指南随着全球电商购物节日益临近&#xff0c;无论是年末的“黑色星期五”、圣诞季&#xff0c;还是区域性的大促活动&#xff0c;一个共同的挑战悄然浮现&#xff1a;仓库容量告急。对于跨境卖家而言&#xff0c;旺季不仅是销…...

Java编程避坑指南:九大类常见陷阱与解决方案,助你写出高质量代码

文章目录 基础类 类、继承与内存 继承特性与注意事项 内存管理 现代 Java 特性 记录类与密封类常见陷阱 集合与遍历 相等性约定 集合常见陷阱 并发与同步 并发 异常处理 泛型与类型擦除 泛型陷阱 泛型与类型擦除 泛型陷阱 JVM、垃圾回收与模块系统 JVM/GC 常见陷阱 模块系统(J…...

复合材料仿真这活儿,玩的就是“套娃“艺术——微观纤维排排坐,细观铺层叠叠乐,宏观冲击看效果。今天咱们就手把手整点硬核操作,捎带唠唠代码里的门道

abaqus多尺度复合材料力学性能仿真模拟 1.建立六角分布的纤维束微观单胞模型&#xff0c;应用最大应力或最大应变准则考虑相应损伤 2.在细观层次上采用hashin准则考虑纤维束和基体的损伤演化 3&#xff0c;做层合板的低速冲击模拟&#xff0c;引入相应损伤准则微观篇&#xff1…...

终极指南:让macOS Finder视频预览功能焕发新生的QLVideo插件

终极指南&#xff1a;让macOS Finder视频预览功能焕发新生的QLVideo插件 【免费下载链接】QuickLookVideo This package allows macOS Finder to display thumbnails, static QuickLook previews, cover art and metadata for most types of video files. 项目地址: https://…...

javaweb计算机教学活动教室预约系统聊天机器人

目录同行可拿货,招校园代理 ,本人源头供货商功能模块划分智能聊天机器人功能系统集成设计技术实现要点项目技术支持源码获取详细视频演示 &#xff1a;文章底部获取博主联系方式&#xff01;同行可合作同行可拿货,招校园代理 ,本人源头供货商 功能模块划分 用户管理模块 实现…...

Modbus实战:从功能码到网络选型的工业通信指南

1. Modbus协议基础&#xff1a;从功能码到设备角色 第一次接触Modbus时&#xff0c;我被它简洁的设计震惊了——这个诞生于1979年的协议&#xff0c;至今仍是工业自动化领域的通用语言。就像乐高积木一样&#xff0c;Modbus用几个基础功能码就能搭建出复杂的控制系统。让我们先…...

如何用CodeMaker将Java/Scala开发效率提升300%?5个核心技巧带你掌握智能代码生成

如何用CodeMaker将Java/Scala开发效率提升300%&#xff1f;5个核心技巧带你掌握智能代码生成 【免费下载链接】CodeMaker A idea-plugin for Java/Scala, support custom code template. 项目地址: https://gitcode.com/gh_mirrors/co/CodeMaker 作为Java/Scala开发者&a…...

VASP表面建模进阶:利用现代脚本工具实现Slab模型原子选择性固定(POSCAR高效处理)

1. 为什么需要自动化处理POSCAR文件 在计算材料学领域&#xff0c;VASP作为第一性原理计算的黄金标准工具&#xff0c;其输入文件POSCAR的准确性直接决定了计算结果的可靠性。传统手动处理方式存在几个致命缺陷&#xff1a;首先&#xff0c;用Excel手工标记原子固定状态极易出错…...

基于NLP-StructBERT的智能客服语义匹配实战:Java微服务集成

基于NLP-StructBERT的智能客服语义匹配实战&#xff1a;Java微服务集成 你有没有遇到过这种情况&#xff1f;用户问“我的订单怎么还没发货”&#xff0c;而你的知识库里只有“订单发货状态查询”这样的标准问题。传统的关键词匹配&#xff0c;比如搜索“订单”和“发货”&…...

暗黑破坏神2存档编辑器:安全高效的d2s文件修改与角色属性调整工具

暗黑破坏神2存档编辑器&#xff1a;安全高效的d2s文件修改与角色属性调整工具 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 暗黑破坏神2存档编辑器&#xff08;d2s-editor&#xff09;是一款专为《暗黑破坏神2》玩家设计的开源…...