当前位置: 首页 > news >正文

自然语言处理学习笔记(三)————HanLP安装与使用

目录

1.HanLP安装

2.HanLP使用

(1)预下载

 (2)测试

(3)命令行

 (4)测试样例

3.pyhanlp可视化

4. HanLP词性表


1.HanLP安装

 HanLP的 Python接口由 pyhanlp包提供,其安装只需一句命令:

pip install pyhanlp

安装完成

2.HanLP使用

(1)预下载

第一次使用pyhanlp时,会自动下载许多hanlp的jar包(包含许多算法)和数据包(包含许多模型)到pyhanlp的系统路径中,大约六百多兆。

 (2)测试

from pyhanlp import *print(HanLP.segment('你好,欢迎进入nlp的世界'))

输出结果:

[你好/vl, ,/w, 欢迎/v, 进入/v, nlp/nx, 的/ude1, 世界/n]

程序正常运行,说明安装成功。 

(3)命令行

通过命令行,可以在不写代码的前提下轻松调用 HanLP 提供的常见功能。

分词

》hanlp segment
》你好,欢迎进入nlp的世界!
》你好/vl ,/w 欢迎/v 进入/v nlp/nx 的/ude1 世界/n !/w
》通过命令行,可以在不写代码的前提下轻松调用 HanLP 提供的常见功能。
》通过/p 命令行/n ,/w 可以/v 在/p 不/d 写/v 代码/n 的/ude1 前提/n 下/f 轻松/a 调用/v  /w HanLP/nx  /w 提供/v 的/ude1 常见/a 功能/n 。/w

退出当前模式使用:ctrl+z,然后回车

关闭词性标注:

》hanlp segment --no-tag
》pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务
》pyhanlp 提供 了 一个 很好 的 展示 交付 界面 , 只要 一 句 命令 就 能 启动 一个 web 服务

 句法分析

》hanlp parse
》第一次使用pyhanlp时,会自动下载许多hanlp的jar包(包含许多算法)和数据包(包含许多模型)到pyhanlp的系统路径中,大约六百多兆。1       第一    第一    m       m       _       2       定中关系        _       _
2       次      次      q       q       _       3       状中结构        _       _
3       使用    使用    v       v       _       5       定中关系        _       _
4       pyhanlp pyhanlp ws      nx      _       3       动宾关系        _       _
5       时      时      Ng      Ng      _       9       状中结构        _       _
6       ,      ,      wp      w       _       5       标点符号        _       _
7       会      会      v       v       _       9       状中结构        _       _
8       自动    自动    d       d       _       9       状中结构        _       _
9       下载    下载    v       v       _       0       核心关系        _       _
10      许多    许多    m       m       _       11      定中关系        _       _
11      hanlp   hanlp   ws      nx      _       14      定中关系        _       _
12      的      的      u       u       _       11      右附加关系      _       _
13      jar     jar     ws      nx      _       14      定中关系        _       _
14      包      包      n       n       _       9       动宾关系        _       _
15      (      (      wp      w       _       16      标点符号        _       _
16      包含    包含    v       v       _       9       并列关系        _       _
17      许多    许多    m       m       _       18      定中关系        _       _
18      算法    算法    n       n       _       16      动宾关系        _       _
19      )      )      wp      w       _       16      标点符号        _       _
20      和      和      c       c       _       22      左附加关系      _       _
21      数据    数据    n       n       _       22      定中关系        _       _
22      包      包      v       v       _       9       并列关系        _       _
23      (      (      wp      w       _       24      标点符号        _       _
24      包含    包含    v       v       _       22      并列关系        _       _
25      许多    许多    m       m       _       26      定中关系        _       _
26      模型    模型    n       n       _       24      动宾关系        _       _
27      )      )      wp      w       _       24      标点符号        _       _
28      到      到      p       p       _       36      状中结构        _       _
29      pyhanlp pyhanlp ws      nx      _       32      定中关系        _       _
30      的      的      u       u       _       29      右附加关系      _       _
31      系统    系统    n       n       _       32      定中关系        _       _
32      路径    路径    n       n       _       33      定中关系        _       _
33      中      中      nd      f       _       28      介宾关系        _       _
34      ,      ,      wp      w       _       28      标点符号        _       _
35      大约    大约    d       d       _       36      状中结构        _       _
36      六百多兆        六百多兆        i       i       _       22      并列关系        _       _
37      。      。      wp      w       _       9       标点符号        _       _\
1       \       \       nh      nr      _       0       核心关系        _       _

 (4)测试样例

from pyhanlp import *
print (HanLP.segment('你好,欢迎在Python中调用HanLP的API'))# 分词
print("-"*100)
print("分词测试")
for term in HanLP.segment("下雨天地面积水"):
print('{}\t{}'.format (term.word, term.nature)) # 获取单词与词性TestCases = ["商品和服务",
"结婚的和尚未结婚的确实在干扰分词啊",
"买水果然后来世博园最后去世博会",
"中国的首都是北京",
"欢迎新老师生前来就餐",
"工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作",
"随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
for sentence in TestCases:
print (HanLP.segment (sentence))# 关键词提取
document = "水利部水资源司司长陈明忠9月29日在国务院新闻办举行的新闻发布会上透露,"\
"根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标,"\
"有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批,"\
"严格地进行水资源论证和取水许可的批准。"
print("关键词提取测试")
print(HanLP.extractKeyword(document,2))# 自动摘要
print("-"*100)
print("自动摘要测试")
print(HanLP.extractSummary(document,3))

3.pyhanlp可视化

pyhanlp提供了一个很好的展示交付界面,只要一句命令就能启动一个web服务

hanlp serve

登录http://localhost:8765就能看下可视化界面,能看到分词结果和依存关系的结果

4. HanLP词性表


a    形容词
ad    副形词
ag    形容词性语素
al    形容词性惯用语
an    名形词
b    区别词
begin  仅用于始##始
bg    区别语素
bl    区别词性惯用语
c    连词
cc    并列连词
d    副词
dg    辄,俱,复之类的副词
dl    连语
e    叹词
end    仅用于终##终
f    方位词
g    学术词汇
gb    生物相关词汇
gbc    生物类别
gc    化学相关词汇
gg    地理地质相关词汇
gi    计算机相关词汇
gm    数学相关词汇
gp    物理相关词汇
h    前缀
i    成语
j    简称略语
k    后缀
l    习用语
m    数词
mg    数语素
Mg    甲乙丙丁之类的数词
mq    数量词
n    名词
nb    生物名
nba    动物名
nbc    动物纲目
nbp    植物名
nf    食品,比如“薯片”
ng    名词性语素
nh    医药疾病等健康相关名词
nhd    疾病
nhm    药品
ni    机构相关(不是独立机构名)
nic    下属机构
nis    机构后缀
nit    教育相关机构
nl    名词性惯用语
nm    物品名
nmc    化学品名
nn    工作相关名词
nnd    职业
nnt    职务职称
nr    人名
nr1    复姓
nr2    蒙古姓名
nrf    音译人名
nrj    日语人名
ns    地名
nsf    音译地名
nt    机构团体名
ntc    公司名
ntcb    银行
ntcf    工厂
ntch    酒店宾馆
nth    医院
nto    政府机构
nts    中小学
ntu    大学
nx    字母专名
nz    其他专名
o    拟声词
p    介词
pba    介词“把”
pbei    介词“被”
q    量词
qg    量词语素
qt    时量词
qv    动量词
r    代词
rg    代词性语素
Rg    古汉语代词性语素
rr    人称代词
ry    疑问代词
rys    处所疑问代词
ryt    时间疑问代词
ryv    谓词性疑问代词
rz    指示代词
rzs    处所指示代词
rzt    时间指示代词
rzv    谓词性指示代词
s    处所词
t    时间词
tg    时间词性语素
u    助词
ud    助词
ude1    的 底
ude2    地
ude3    得
udeng    等 等等 云云
udh    的话
ug    过
uguo    过
uj    助词
ul    连词
ule    了 喽
ulian    连 (“连小学生都会”)
uls    来讲 来说 而言 说来
usuo    所
uv    连词
uyy    一样 一般 似的 般
uz    着
uzhe    着
uzhi    之
v    动词
vd    副动词
vf    趋向动词
vg    动词性语素
vi    不及物动词(内动词)
vl    动词性惯用语
vn    名动词
vshi    动词“是”
vx    形式动词
vyou    动词“有”
w    标点符号
wb    百分号千分号,全角:% ‰ 半角:%
wd    逗号,全角:, 半角:,
wf    分号,全角:; 半角: ;
wh    单位符号,全角:¥ $ £ ° ℃ 半角:$
wj    句号,全角:。
wky    右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wkz    左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <
wm    冒号,全角:: 半角: :
wn    顿号,全角:、
wp    破折号,全角:—— -- ——- 半角:— —-
ws    省略号,全角:…… …
wt    叹号,全角:!
ww    问号,全角:?
wyy    右引号,全角:” ’ 』
wyz    左引号,全角:“ ‘ 『
x    字符串
xu    网址URL
xx    非语素字
y    语气词(delete yg)
yg    语气语素
z    状态词
zg    状态词 

相关文章:

自然语言处理学习笔记(三)————HanLP安装与使用

目录 1.HanLP安装 2.HanLP使用 &#xff08;1&#xff09;预下载 &#xff08;2&#xff09;测试 &#xff08;3&#xff09;命令行 &#xff08;4&#xff09;测试样例 3.pyhanlp可视化 4. HanLP词性表 1.HanLP安装 HanLP的 Python接口由 pyhanlp包提供&#xff0c;其安装…...

CS 144 Lab Five -- the network interface

CS 144 Lab Five -- the network interface TCP报文的数据传输方式地址解析协议 ARPARP攻击科普 Network Interface 具体实现测试tcp_ip_ethernet.ccTCPOverIPv4OverEthernetAdapterTCPOverIPv4OverEthernetSpongeSocket通信过程 对应课程视频: 【计算机网络】 斯坦福大学CS144…...

Mecha

一、Mecha Mecha 是一个开源的多云 Kubernetes 管理平台&#xff0c;旨在简化和统一在多个云提供商上运行 Kubernetes 集群的管理和操作。它是由阿里巴巴集团开发和维护的项目。 Mecha 的主要目标是提供一个统一的界面和工具&#xff0c;使用户能够更轻松地在不同的云提供商上…...

Apache RocketMQ之集成RocketMQ_MQTT 安装部署协议

Apache RocketMQ 安装说明 安装步骤 参考快速开始 https://rocketmq.apache.org/zh/docs/quickStart/01quickstart 安装可视化rocketmq_dashboard下载地址 https://rocketmq.apache.org/zh/docs/4.x/deployment/03Dashboard/ 安装rocketmq_mqtt https://rocketmq.apache.o…...

Oracle多行数据合并为一行数据,并将列数据转为字段名

Oracle多行数据合并为一行数据 实现查询效果原数据 方式一&#xff1a;MAX()数据效果SQL 方式二&#xff1a;LISTAGG()数据效果 方式三&#xff1a;WM_CONCAT()数据效果 实现查询效果 原数据 FZPROJECTVALUE1电脑$16001手机$121导管$12电脑$22手机$22 方式一&#xff1a;MAX…...

MySQL5.7 与 MariaDB10.1 审计插件兼容性验证

这是一篇关于发现 MariaDB 审计插件导致 MySQL 发生 crash 后&#xff0c;展开适配验证并进行故障处理的文章。 作者&#xff1a;官永强 爱可生DBA 团队成员&#xff0c;擅长 MySQL 运维方面的技能。热爱学习新知识&#xff0c;亦是个爱打游戏的宅男。 本文来源&#xff1a;原创…...

PyTorch Lightning教程五:Debug调试

如果遇到了这样一个问题&#xff0c;当一次训练模型花了好几天&#xff0c;结果突然在验证或测试的时候崩掉了&#xff0c;这个时候其实是很奔溃的&#xff0c;主要还是由于没有提前知道哪些时候会出现什么问题&#xff0c;本节会引入Lightning的Debug方案 1.fast_dev_run参数 …...

末流211无科研保研经验分享

文章目录 个人背景夏令营哈工大威海西工大光电北航软院北邮计算机中科大科学岛 预推免东南软件北航计算机 写在最后心路历程寄语 个人背景 院校&#xff1a;末流211专业背景&#xff1a;计算机科学与技术排名&#xff1a;夏令营7 / 126&#xff0c;预推免3 / 126英语&#xff…...

日期选择器多选换行

<el-form-item label"日期选择"><div class"multi-date-picker"><div class"date-item"><span class"dateIcon"><el-icon><Calendar /></el-icon></span><span class"dateIt…...

NodeJS原型链污染ctfshow_nodejs

文章目录 NodeJS原型链污染&ctfshow_nodejs前言0x01.原型与原型链0x02.prototype和__proto__分别是什么&#xff1f;0x03.原型链继承不同对象的原型链* 0x04.原型链污染原理0x05.merge()导致原型链污染0x06.ejs模板引擎RCEejs模板引擎另一处rce 0x07.jade模板引擎RCE【ctfs…...

18. SpringBoot 如何在 POM 中引入本地 JAR 包

❤️ 个人主页&#xff1a;水滴技术 &#x1f338; 订阅专栏&#xff1a;成功解决 BUG 合集 &#x1f680; 支持水滴&#xff1a;点赞&#x1f44d; 收藏⭐ 留言&#x1f4ac; Spring Boot 是一种基于 Spring 框架的轻量级应用程序开发框架&#xff0c;它提供了快速开发应用程…...

vue2-$nextTick有什么作用?

1、$nextTick是什么&#xff1f; 官方定义&#xff1a;在下次DOM更新循环结束之后执行延迟回调。在修改数据之后立即使用这个方法&#xff0c;获取更新后的DOM。 解释&#xff1a;Vue在更新DOM时是异步执行的&#xff0c;当数据发生变化时&#xff0c;Vue将开启一个异步更新的队…...

python自动收集粘贴板

win10的粘贴板可以用“winV”查看&#xff1a; 每次复制都相当于入栈一个字符串&#xff0c;粘贴相当于获取栈顶。 但是系统自带的这个粘贴板貌似不能一键导出&#xff0c;所以我写了个python代码完成这个功能&#xff1a; import pyperclip import timetmp while True:txt…...

Vue3_语法糖—— <script setup>以及unplugin-auto-import自动引入插件

<script setup>import { ref , onMounted} from vue;let obj ref({a: 1,b: 2,}); let changeObj ()>{console.log(obj)obj.value.c 3 //ref写法}onMounted(()>{console.log(obj)})</script> 里面的代码会被编译成组件 setup() 函数的内容。 相当于 <…...

2023-08-06力扣做过了的题

链接&#xff1a; 剑指 Offer 30. 包含min函数的栈 题意&#xff1a; 如题 解&#xff1a; 初级算法里做过的题 优化是存储和min的差值使得只需要n的栈和一个int min 实际代码&#xff1a; #include<bits/stdc.h> using namespace std; class MinStack { public:…...

进程间通信之管道

文章目录 一、管道1. 匿名管道2. 命名管道 进程具有独立性&#xff0c;因此进程间通信的前提是两个进程能看到同一份资源 一、管道 对于进程打开的内存文件&#xff0c;操作系统是以引用计数的方式创建的 file 结构体&#xff0c;如果让两个进程与同一个 file 结构体关联&…...

f12 CSS网页调试_css样式被划了黑线怎么办

我的问题是这样的 class加上去了,但是样式不生效,此时可能是样式被其他样式覆盖了, 解决方案就是 给颜色后边添加一个!important...

vue-制作自动滚动效果

第一步&#xff1a;下载 可以查看官方地址chenxuan0000 npm i vue-seamless-scroll -save 第二步&#xff1a;引用 import vueSeamlessScroll from "vue-seamless-scroll";//注册components: {vueSeamlessScroll,}, 第三步&#xff1a;使用 <vue-seamless…...

[国产MCU]-BL602-开发实例-DMA数据传输

DMA数据传输 文章目录 DMA数据传输1、DMA介绍2、DMA驱动API介绍3、DMA使用示例DMA(Direct Memory Access)是一种内存存取技术,可以独立地直接读写系统内存,而不需处理器介入处理。 在同等程度的处理器负担下,DMA是一种快速的数据传送方式。 BL602的DMA控制器有4组独立专用通…...

Redis压缩列表

区分一下 3.2之前 Redis中的List有两种编码格式 一个是LINKEDLIST 一个是ZIPLIST 这个ZIPLIST就是压缩列表 3.2之后来了一个QUICKLIST QUICKLIST是ZIPLIST和LINKEDLIST的结合体 也就是说Redis中没有ZIPLIST和LINKEDLIST了 然后在Redis5.0引入了LISTPACK用来替换QUiCKLIST中的…...

2025年Mac菜单栏革命:Ice如何重塑你的桌面工作流

2025年Mac菜单栏革命&#xff1a;Ice如何重塑你的桌面工作流 【免费下载链接】Ice Powerful menu bar manager for macOS 项目地址: https://gitcode.com/GitHub_Trending/ice/Ice 你是否曾因Mac菜单栏上的图标拥挤不堪而感到困扰&#xff1f;Wi-Fi、电池、时间等关键信…...

Windows本地部署Claude代码助手:架构解析与实战指南

1. 项目概述与核心价值 最近在GitHub上看到一个挺有意思的项目&#xff0c;叫“Claude-code-ChatInWindows”&#xff0c;作者是LKbaba。光看名字&#xff0c;你大概能猜到它想干什么&#xff1a;在Windows系统里&#xff0c;让Claude这个AI来帮你写代码。这听起来是不是挺酷的…...

告别手改脚本!用CANoe Panel面板做个变量控制台,测试效率翻倍

告别手改脚本&#xff01;用CANoe Panel面板打造智能变量控制台 在车载网络测试领域&#xff0c;效率提升往往隐藏在那些被忽视的日常操作细节中。当测试工程师频繁打开CAPL脚本修改超时阈值、调整诊断ID或切换测试模式时&#xff0c;不仅打断了工作流&#xff0c;更在团队协作…...

Aurora框架解析:一体化高性能云原生开发平台的设计与实践

1. 项目概述与核心价值如果你在开源社区里混迹过一段时间&#xff0c;尤其是对现代化、高性能的Web开发框架感兴趣&#xff0c;那么“Aurora”这个名字你大概率不会陌生。它不是一个简单的库或者工具&#xff0c;而是一个由社区驱动的、旨在构建下一代企业级应用开发平台的雄心…...

Go语言AI编程助手SDK:提升Cursor代码理解与生成精准度

1. 项目概述&#xff1a;一个为AI编程而生的Go语言SDK如果你是一名Go语言开发者&#xff0c;同时又在深度使用Cursor这样的AI辅助编程工具&#xff0c;那么你很可能已经感受到了一个痛点&#xff1a;如何让AI更精准、更高效地理解你的代码库&#xff0c;并在此基础上进行智能操…...

DownKyi技术架构解析:构建高性能B站视频下载引擎的工程实践

DownKyi技术架构解析&#xff1a;构建高性能B站视频下载引擎的工程实践 【免费下载链接】downkyi 哔哩下载姬downkyi&#xff0c;哔哩哔哩网站视频下载工具&#xff0c;支持批量下载&#xff0c;支持8K、HDR、杜比视界&#xff0c;提供工具箱&#xff08;音视频提取、去水印等&…...

如何3分钟搭建智能手机号定位系统:免费归属地查询终极指南

如何3分钟搭建智能手机号定位系统&#xff1a;免费归属地查询终极指南 【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_…...

Godot游戏集成Discord状态:RPC插件原理与实战指南

1. 项目概述&#xff1a;在Godot引擎中点亮你的Discord状态 如果你是一名独立游戏开发者&#xff0c;或者正在用Godot引擎捣鼓一些有趣的个人项目&#xff0c;你可能会想让你的朋友或社区成员知道你现在正在“玩”什么。不是通过截图发到社交媒体&#xff0c;而是更实时、更优…...

g1810,g3810,ip2700,g5080,g1800,ts3380,TS8380,ts6480报错5B00,P07,E08,5b02,1704,1700,5b04,佳能v6.200,亲测有用。

下载&#xff1a;点这里下载 备用下载&#xff1a;https://pan.baidu.com/s/1WrPFvdV8sq-qI3_NgO2EvA?pwd0000 常见型号如下&#xff1a; G系列 G1000、G1100、G1200、G1400、G1500、G1800、G1900、G1010、G1110、G1120、G1410、G1420、G1411、G1510、G1520、G1810、G1820、…...

【最新v2.7.1 版本安装包】OpenClaw 小白入门必看,零基础无需命令零代码保姆级教学

OpenClaw v2.7.1 一键安装部署教程&#xff5c;可视化傻瓜式搭建 ✨适配系统&#xff1a;Windows10/11 64 位 ✨当前版本&#xff1a;v2.7.1 版本&#xff08;虾壳云版&#xff09; ✨安装包大小&#xff1a;58.7MB 【点击下载最新安装包】https://xiake.yun/api/download/…...