Python自然语言处理之spacy模块介绍、安装与常见操作案例
文章目录
- spacy模块介绍
- 安装spacy
- 常见操作案例及代码
- 1. 加载模型并处理文本
- 2. 词性标注
- 3. 命名实体识别
- 4. 依存句法分析
- 5. 可视化(在Jupyter Notebook中)
spacy模块介绍
spacy是一个强大的Python库,用于自然语言处理(NLP)。它提供了丰富的功能,包括分词、词性标注、依存句法分析、命名实体识别等,并且支持多种语言。spacy以其高性能、易用性和可扩展性而受到广泛欢迎。
安装spacy
在Python中安装spacy及其英语模型可以通过pip完成。以下是一个基本的安装命令,包括安装spaCy库和下载英语小模型en_core_web_sm:
pip install spacy
python -m spacy download en_core_web_sm
常见操作案例及代码
1. 加载模型并处理文本
import spacy# 加载预训练的英语模型
nlp = spacy.load("en_core_web_sm")# 处理文本
text = "Apple is looking at buying U.K. startup for $1 billion."
doc = nlp(text)# 打印分词结果
for token in doc:print(token.text)
输出结果(示例):
Apple
is
looking
at
buying
U.K.
startup
for
$
1
billion
.
2. 词性标注
# 打印词性标注结果
for token in doc:print(f"{token.text}: {token.pos_}")
输出结果(示例):
Apple: PROPN
is: VERB
looking: VERB
at: ADP
buying: VERB
U.K.: PROPN
startup: NOUN
for: ADP
$: SYM
1: NUM
billion: NUM
.: PUNCT
3. 命名实体识别
# 打印命名实体识别结果
for ent in doc.ents:print(f"{ent.text}: {ent.label_}")
输出结果(示例):
Apple: ORG
U.K.: GPE
$1 billion: MONEY
4. 依存句法分析
# 打印依存句法分析结果
for token in doc:print(f"{token.text}: {token.dep_} → {token.head.text}")
输出结果(示例,注意依存关系可能因版本和模型而异):
Apple: nsubj → looking
is: ROOT → is
looking: VERB → is
at: prep → looking
buying: pobj → at
U.K.: compound → startup
startup: dobj → buying
for: prep → buying
$: nmod → billion
1: nummod → billion
billion: pobj → for
.: punct → looking
5. 可视化(在Jupyter Notebook中)
由于可视化通常在Jupyter Notebook中更直观,这里假设你正在使用Jupyter Notebook环境。
from spacy import displacy# 依存句法分析可视化
displacy.render(doc, style="dep", jupyter=True)# 命名实体识别可视化
displacy.render(doc, style="ent", jupyter=True)
注意:上述可视化代码在Jupyter Notebook中执行时,会直接在输出单元格中显示图形。在非Jupyter环境中,你需要将结果保存为HTML文件或其他格式进行查看。
spacy的这些功能为自然语言处理提供了强大的工具集,使得文本分析、信息提取等任务变得更加容易和高效。
相关文章:
Python自然语言处理之spacy模块介绍、安装与常见操作案例
文章目录 spacy模块介绍安装spacy常见操作案例及代码1. 加载模型并处理文本2. 词性标注3. 命名实体识别4. 依存句法分析5. 可视化(在Jupyter Notebook中) spacy模块介绍 spacy是一个强大的Python库,用于自然语言处理(NLP…...
DSPy101
DSPy 介绍 DSPy(Declarative Self-improved Language Programs in Python) 是一个用于系统化和增强在流水线内使用语言模型的框架,它通过数据驱动和意图驱动的系统来优化大型语言模型(LLM)的使用。 DSPy 的核心是模块…...
网格交易策略:从原理、应用到实战Python回测
01 引言 随着金融市场的快速发展,量化交易成为投资者追求收益的一种重要手段。在众多的量化交易策略中,网格交易策略(Grid Trading Strategy)因其简单易用、风险控制灵活等优点而备受青睐。网格交易策略的核心思想是“低买高卖”&…...
软考论文《论大数据处理架构及其应用》精选试读
论文真题 模型驱动架构设计是一种用于应用系统开发的软件设计方法,以模型构造、模型转换和精化为核心,提供了一套软件设计的指导规范。在模型驱动架构环境下,通过创建出机器可读和高度抽象的模型实现对不同问题域的描述,这些模型…...
fatfs API使用手册
配置 /*---------------------------------------------------------------------------/ / Configurations of FatFs Module /---------------------------------------------------------------------------*/#define FFCONF_DEF 80286 /* Revision ID *//*---------------…...
9.23作业
仿照string类,自己手动实现 My_string 代码如下 MyString.h #ifndef MYSTRING_H #define MYSTRING_H #include <iostream> #include <cstring>using namespace std;class My_string { private:char *ptr; //指向字符数组的指针int size; …...
Unity3D 房间去重叠化算法详解
前言 在Unity3D游戏开发中,经常需要生成和处理多个房间的场景,特别是在地牢生成、房屋布局或迷宫设计等应用中。为了确保生成的房间不会重叠,我们需要一种有效的去重叠化算法。以下将详细介绍该算法的原理和代码实现。 对惹,这里有…...
mybatis 配置文件完成增删改查(五) :单条件 动态sql查询,相当于switch
文章目录 单条件 动态sql查询写测试方法 疑问总结 单条件 动态sql查询 <select id"selectByConditionBySingle" resultMap"brandResultMap">.select *from tb_brandwhere<choose>/*相当于switch*/<when test"status ! null">…...
全球IP归属地查询-IP地址查询-IP城市查询-IP地址归属地-IP地址解析-IP位置查询-IP地址查询API接口
IP地址城市版查询接口 API是指能够根据IP地址查询其所在城市等地理位置信息的API接口。这类接口在网络安全、数据分析、广告投放等多个领域有广泛应用。以下是一些可用的IP地址城市版查询接口API及其简要介绍 1. 快证 IP归属地查询API 特点:支持IPv4 提供高精版、…...
Vue3+FastAPI中Token的刷新机制(含代码示例)
在Vue3和FastAPI的应用中,token刷新机制通常涉及以下几个步骤: 登录过程:用户登录时,后端FastAPI验证用户信息,验证通过后生成一个访问令牌(access token)和一个刷新令牌(refresh t…...
【GAN 图像生成】
理论知识学习: PART 1: 生成对抗网络GAN 深度学习模型,用于生成数据 对抗式训练,生成器v判别器 DCGAN>WGAN>StyleGAN技术不断进化 GAN在艺术创作。数据增强领域应用越来越广泛 应用: GAN在图像合成&#x…...
【自然语言处理】词嵌入模型
词嵌入(Word Embedding) 是一种将词汇表示为实数向量的技术,通常是低维度的连续向量。这些向量被设计为捕捉词汇之间的语义相似性,使得语义相似的词在嵌入空间中的距离也更近。词嵌入可以看作是将离散的语言符号(如单词…...
了解针对基座大语言模型(类似 ChatGPT 的架构,Decoder-only)的重头预训练和微调训练
🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 随着自然语言处理(NLP)技术的飞速进步,基于 Transformer 架构的大语言模型在众多任务中取得了显著成就。特别是 Decoder-only 架构,如 GPT 系列模型&…...
cmake如何在编译时区分-std=c++17和-std=gnu++17?检查宏
如何在编译时区分-stdc17和-stdgnu17?检查宏?-腾讯云开发者社区-腾讯云 我正在使用__int128扩展的g。-stdc17的问题是,一些C库不具备对该扩展的全部支持(即std::make_unsigned<>失败)。当使用-stdgnu17时,它工作得很好。 我…...
速通数据结构与算法第七站 排序
系列文章目录 速通数据结构与算法系列 1 速通数据结构与算法第一站 复杂度 http://t.csdnimg.cn/sxEGF 2 速通数据结构与算法第二站 顺序表 http://t.csdnimg.cn/WVyDb 3 速通数据结构与算法第三站 单链表 http://t.csdnimg.cn/cDpcC 4 速通…...
灵当CRM index.php接口SQL注入漏洞复现 [附POC]
文章目录 灵当CRM index.php接口SQL注入漏洞复现 [附POC]0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.构造POC3.复现 0x06 修复建议 灵当CRM index.php接口SQL注入漏洞复现 [附POC] 0x01 前言 免责声明:请勿利用文章内的相关技…...
修复: Flux女生脸不再油光满面, 屁股下巴 -- 超实用Comfyui小技巧
ComfyUI上目前最强画图模型公认为Flux. 初次用Flux基础模型画真实的女生时, 和SD比起来, 会觉得画出来细节更多, 更真实. 但是当画多了, 就会觉得画出来的女生总是似曾相识. 仔细观察, 会发现一些共同的特征. 人偏老气, 像30~50的女生. 改了提示词也效果不大. 颧骨凸起, 嘴…...
Actions Speak Louder than Words Meta史诗级的端到端推荐大模型落地
发现好久之前整理的推荐系统被遗忘在了草稿箱,让它出来见见世面。。。后续空了持续更新 文章目录 1.Background2.Related works2.1 典型推荐模型2.1.1 DIN2.1.2 DIEN2.1.3 SIM2.1.4 MMoE2.1.5 其他 2.2. 生成式推荐 3.Method3.1 统一特征空间3.2 重塑召回排序模型3.…...
金智维KRPA之Excel自动化
Excel自动化操作概述 Excel自动化主要用于帮助各种类型的企业用户实现Excel数据处理自动化,Excel自动化是可以从单元格、列、行或范围中读取数据,向其他电子表格或工作簿写入数据等活动。 通过相关命令,还可以对数据进行排序、进行格式…...
哪款宠物空气净化器能有效去除浮毛?希喂、352实测分享
你是否曾经站在家电卖场里,面对琳琅满目的宠物空气净化器产品而感到无所适从?或者在浏览网上商城时,被海量的参数和功能描述搞得头晕眼花?别担心,你不是一个人。在这个科技飞速发展的时代,选择一台既能满足…...
从零开始学计算机视觉|CV 基础算法与项目实战
大家好,我是唐宇迪,资深AI讲师与学习规划师。专注计算机视觉教学与算法研发,过去三年我帮超过2500名有Python基础的入门者,从“像素是什么”到“独立跑通CV项目”。今天这篇长文,完全按零基础实战体系撰写,…...
Hunyuan-MT-7B在学术论文翻译中的精准应用
Hunyuan-MT-7B在学术论文翻译中的精准应用 1. 学术翻译的痛点与挑战 学术论文翻译从来都不是简单的文字转换工作。想象一下,你辛辛苦苦写好的论文,里面充满了专业术语、复杂公式和严谨的参考文献,如果翻译时出现偏差,整个研究的…...
Fast-Android-Networking请求优先级设置终极指南:提升应用性能的10个技巧
Fast-Android-Networking请求优先级设置终极指南:提升应用性能的10个技巧 【免费下载链接】Fast-Android-Networking 🚀 A Complete Fast Android Networking Library that also supports HTTP/2 🚀 项目地址: https://gitcode.com/gh_mirr…...
NSSCTF题包(脱壳类和SMC)
题包里的这些类型的题这些已经接触了很长时间,但是仍然需要进行巩固,在这里先感谢师傅们还有胡楚昊大佬对我的帮助和支持这套题还有去花类的,前面文章讲过了脱壳类:主要应用的是自动脱壳以及ESP定律法手动脱壳ESP定律法࿱…...
SDMatte Web化服务运维指南:supervisorctl管理与日志定位技巧
SDMatte Web化服务运维指南:supervisorctl管理与日志定位技巧 1. 服务概述与核心价值 SDMatte是一款专注于高质量图像抠图的AI模型,特别擅长处理复杂边缘和半透明物体的提取任务。该模型已经完成Web化封装,用户可以通过简单的网页操作完成专…...
解锁论文写作新姿势:Paperzz AI 如何让本科毕业论文从「0 到 1」高效落地
Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 当毕业论文成为毕业季的「头号难题」,不少本科生都在重复着低效循环:对着空白文档发呆…...
AI 辅助开发实战:构建高可用毕设深度学习系统的工程化路径
最近在帮学弟学妹们看毕业设计,发现一个挺普遍的现象:很多同学算法思路不错,但一到工程实现就各种“翻车”。环境配一天跑不起来,模型调参全靠手动“玄学”,好不容易训出来的模型,不知道怎么部署给别人用。…...
OpenClaw快速入门:对接ollama GLM-4.7-Flash实现本地自动化
OpenClaw快速入门:对接ollama GLM-4.7-Flash实现本地自动化 1. 为什么选择OpenClawGLM本地组合 去年我为了处理每周重复的Markdown文档整理工作,尝试过各种自动化方案。从浏览器插件到RPA工具,要么功能受限,要么需要将敏感数据上…...
ChatTTS API 实战:如何构建高可用的 AI 辅助开发工作流
最近在做一个需要大量语音合成的项目,用到了 ChatTTS API。说实话,直接调用 API 虽然简单,但一旦涉及到生产环境的高并发、稳定性和成本控制,问题就接踵而至。经过一番折腾,我总结了一套基于 Python 异步编程的高可用工…...
ESP32智能LED驱动库:RMT与SPI硬件加速原理
1. 项目概述 SmartLeds 是一个专为 ESP32 平台设计的轻量级、高性能智能 LED 驱动库,其核心目标是提供一种 简单、直观且硬件加速 的方式,统一控制多种主流可寻址 LED(Addressable LEDs)。该库并非基于通用 GPIO 模拟时序的软件…...
