当前位置: 首页 > news >正文

自然语言处理笔记

文章目录

  • 情感词典
  • 中文分词
  • 单词向量化技术
    • Word2vec
    • GloVe
    • fastText
  • 关键词提取算法

情感词典

英文的情感词典有:LIWC, SentiWordNet等
中文的情感词典有:NTUSD, 正文褒贬词典TSING, 知网HowNet等

中文分词

中文分词的工具有:jieba(核心算法是张华平的Nshort算法), SnowNLP, NLPIR汉语分词系统, THULAC, PkuSeg, LTP等

Pkuseg技术能对多个领域进行分词,并可以针对不同的领域数据进行个性化的预训练。

LTP提供了动态链接库的接口,拥有可视化功能,还能以网络服务的形式进行使用。

Jieba分词则由三种分切方式,是目前比较接受人欢迎的中文分词工具。

单词向量化技术

Word2vec

Word2vec存在两种最基本的模型:连续词袋模型(CBOW)和跳字模型(Skip-gram)

GloVe

GloVe 指用词表示的全局变量(global vectors for word representation)一个基于全局词频统让的词表征工具。GloVe 是一个新的全局对数双线性回归模型,用于无监督学习的单词表示,它优于其他模型在单词类比、单词相似性以及命名实体识别任务。与Word2vec 可以进行在线学习,GloVe 则需要统计固定语料信息;Word2vec 损失函数实质上是带权重的交叉熵,权重固定,GloVe的损失函数是最小平方损失函数,权重可以做映射变换;GloVe 利用了全局信息,使其在训练时收敛更快,训练周期较Word2vec 较短且效果更好。

fastText

fastText词向量算法将词表征为向量形式并计算词与词之间相似度作为权重引入图模型。

与GloVe词向量算法相比,fastText与Word2vec两种词向量算法的损失计算采用固定权重的交叉熵损失函数,并且特征提取均是基于滑动窗口的。

关键词提取算法

TF-IDF, TextRank.

TextRank算法虽然借鉴了PageRank以节点权重排序的思想,但二者相比存在不同之处,TextRank认为在文本中词与词之间的关联无权重,并且每个词并非和文本中所有其他的词都存在所谓的链接。TextRank关键词提取算法的优点是它可以不依赖于大规模的比较数据,也不需要进行任何预先的训练和计算。但TextRank算法在进行关键词提取时,由于窗口的限制,只能考虑到局部词之间的连接关系,缺少从全局角度利用词之间的依存特征。

相关文章:

自然语言处理笔记

文章目录 情感词典中文分词单词向量化技术Word2vecGloVefastText 关键词提取算法 情感词典 英文的情感词典有:LIWC, SentiWordNet等 中文的情感词典有:NTUSD, 正文褒贬词典TSING, 知网HowNet等 中文分词 中文分词的工具有:jieba(核心算法是…...

广东省第三届职业技能大赛“网络安全项目”B模块任务书

广东省第三届职业技能大赛“网络安全项目”B模块任务书 PS: 关注鱼影安全第一部分 网络安全事件响应任务 1:应急响应 第二部分 数字取证调查任务 2 :操作系统取证任务 3: 网络数据包分析取证任务 4: 计算机单机取证 第三部分 应用…...

如何利用API接口获取电商平台数据?

作为产品经理,我们需要了解电商平台的数据情况,以便更好地制定产品策略和优化用户体验。而利用API接口获取电商平台数据是一种高效、便捷的方式。本文将从以下几个方面介绍如何利用API接口获取电商平台数据。 一、了解API接口 首先,我们需要…...

C语言天花板——指针(经典题目)

指针我们已经学习的差不多了,今天我来给大家分享几个经典的题目,来让我们相互学习🏎️🏎️🏎️ int main() {int a[4] { 1, 2, 3, 4 };int* ptr1 (int*)(&a 1);int* ptr2 (int*)((int)a 1);printf("%x,%…...

进程上下文的概念和切换简单通俗的解释

进程上下文是进程执行活动全过程的静态描述。我们把已执行过的进程指令和数据在相关寄存器与堆栈中的内容称为进程上文,把正在执行的指令和数据在寄存器与堆栈中的内容称为进程正文,把待执行的指令和数据在寄存器与堆栈中的内容称为进程下文。 实际上li…...

python学习笔记10(选择结构2、循环结构1)

(一)选择结构2 1、if……else……语句 #(1)基本格式 numbereval(input("请输入您的6位中奖号码:")) if number123456:print("恭喜您,中奖了") else:print("未中奖")#&…...

IPv6过渡技术---手动隧道

IPv6隧道 隧道(Tunnel)是一种封装技术。利用一种网络协议来传输另一种网络协议,即利用一种网络传输协议,将其他协议产生的数据报文封装在自身的报文中,然后在网络中传输。 隧道是一个虚拟的点对点的连接。一个Tunnel提供了一条使封装的数据报文能够传输的通路,并且在一个…...

Redis中的Java客户端

一、Jedis Jedis是一个Java实现的Redis客户端连接工具。 Jedis使用非常简单,直接引入依赖。基于默认参数的Jedis连接池,初始化连接池类(使用默认连接池参数)JedisPool,获取一个Jedis连接Jedis jedisjp.getResource()…...

线性代数——行列式相关性质

目录 一、行列式与它的转置列行列式相等 二、对换行列式的两行(列),行列式变号 三、行列式某行(列)有公因子k,则k可以提到行列式外 四、行列式中若两行成比例,则行列式为0 五、行列式的某一行…...

跟着cherno手搓游戏引擎【5】layer(层)、Glad

编写基类层: Layer.h:提供Attach链接、Detach解绑、Update刷新、Event事件、GetName方法 #pragma once #include"YOTO/Core.h" #include"YOTO/Event/Event.h" namespace YOTO {class YOTO_API Layer{public:Layer(const std::string& nam…...

Windows无法登录管理路由器故障排查

问题描述 家里的路由器使用拨号上网,路由器DHCP分发IP的范围是192.168.1.0/24。默认使用192.168.1.1管理路由器。然后拨号上网成功后,修改了私网IP的分发范围:192.168.5.1-192.168.5.10。为了防止有人蹭网,只分配的10个IP地址。修…...

通义灵码 - 免费的阿里云 VS code Jetbrains AI 编码辅助工具

系列文章目录 前言 通义灵码,是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云 SDK/OpenAPI 的使用…...

山脉数组的峰顶索引

一、题目描述 852. 山脉数组的峰顶索引 符合下列属性的数组 arr 称为 山脉数组 &#xff1a; arr.length > 3存在 i&#xff08;0 < i < arr.length - 1&#xff09;使得&#xff1a; arr[0] < arr[1] < ... arr[i-1] < arr[i] arr[i] > arr[i1] > .…...

openssl3.2 - 官方demo学习 - cms - cms_ver.c

文章目录 openssl3.2 - 官方demo学习 - cms - cms_ver.c概述运行结果笔记END openssl3.2 - 官方demo学习 - cms - cms_ver.c 概述 CMS验签, 将单独签名和联合签名出来的签名文件都试试. 验签成功后, 将签名数据明文写入了文件供查看. 也就是说, 只有验签成功后, 才能看到签名…...

数据结构:堆和堆排序

数据结构&#xff1a;堆和堆排序 文章目录 数据结构&#xff1a;堆和堆排序1.二叉树的存储结构1.顺序结构2.链式结构 2.堆3.堆的实现4.堆排序&#xff08;选择排序中的一类&#xff09;1. 基本思想2.代码实现 1.二叉树的存储结构 1.顺序结构 顺序结构存储就是使用数组来表示一…...

力扣精选算法100题——水果成篮(滑动窗口专题)

本题链接&#x1f449;水果成篮 第一步&#xff1a;了解题意 我就按照实例1来进行对这题的理解。 1代表种类类型&#xff0c;这个数组里面有2个种类类型 ps:种类1和种类2 &#xff0c;只不过种类1是有2个水果&#xff0c;种类2有一个水果&#xff0c;共计3个水果。 本题需要解…...

【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

文章目录 MaPLe: Multi-modal Prompt Learning 多模式提示学习文章介绍动机MaPLe:Multi-modal Prompt Learning 模型结构1、Deep Language Prompting 深度语言提示2、Deep Vision Prompting 深度视觉提示3、Vision Language Prompt Coupling 视觉语言提示耦合提示耦合过程 实验…...

wpf使用Popup封装数据筛选框

(关注博主后,在“粉丝专栏”,可免费阅读此文) 类似于DevExpress控件的功能 这是DevExpress的winform筛选样式,如下: 这是DevExpress的wpf筛选样式,如下: 这是Excel的筛选样式,如下: 先看效果 本案例使用wpf原生控件封装,功能基本上都满足,只是颜色样式没有写…...

微信小程序 - 视图与逻辑 介绍

文章目录 视图与逻辑一、页面导航1、页面导航 - 声明式导航1.1 导航到tabBar页面1.2 导航到非tabBar页面1.3 后退导航 2、页面导航 - 编程式导航2.1 导航到tabBar页面2.2 导航到非tabBar页面2.3 后退导航 3、页面导航 - 导航传参3.1 声明式导航传参3.2 编程式导航传参3.3 在 on…...

大创项目推荐 深度学习疫情社交安全距离检测算法 - python opencv cnn

文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; **基于深度学习疫情社交安全距离检测算法 ** 该项目较为新颖&#xff0c;适合作为竞赛…...

Splunk紧急推送安全补丁:三枚高危漏洞同时曝光,企业数据面临泄露与瘫痪双重风险

2026年5月20日&#xff0c;Splunk官方安全团队一次性披露了旗下多款核心产品的重大安全隐患。此次波及范围相当广泛&#xff0c;从本地部署的Splunk Enterprise到云端服务Splunk Cloud Platform&#xff0c;再到新推出的Splunk AI Toolkit&#xff0c;无一幸免。三枚漏洞编号分…...

告别手动测量!用ArcGIS Pro和CAD联动,5步搞定复杂河道平均宽度计算

5步实现ArcGIS Pro与CAD协同计算复杂河道平均宽度的工程实践 在水利工程、环境评估和流域规划中&#xff0c;河道平均宽度是计算流量、评估生态承载力的关键参数。传统手工测量方法不仅耗时费力&#xff0c;对于蜿蜒曲折的自然河道更是难以保证精度。我曾参与过多个河道整治项目…...

UE5 Paper2D像素对齐核心:BitmapUtils.h原理与实战

1. 这个头文件不是“工具库”&#xff0c;而是UE5 Paper2D底层渲染的呼吸中枢 你打开UE5源码目录&#xff0c;搜索 BitmapUtils.h &#xff0c;大概率会在 Engine/Source/Runtime/Paper2D/Public/ 路径下找到它——它不像 Math/Vector2D.h 那样被高频引用&#xff0c;也不…...

【VibeCoding系列教程01】2026年最狠的职场外挂:我靠“说话“让AI替我加班,同事以为我开了挂

你们发现没有&#xff0c;现在这个世界越来越离谱了。前两天我朋友问我&#xff0c;说老哥&#xff0c;我想做个网站&#xff0c;得学多久&#xff1f;我说&#xff0c;搁以前&#xff0c;你得先学HTML、CSS、JavaScript&#xff0c;再学框架、学部署&#xff0c;顺利的话&…...

用户测试完整流程:如何在测试阶段验证产品假设

用户测试完整流程&#xff1a;如何在测试阶段验证产品假设 【免费下载链接】design-sprint Product Design Sprint Material 项目地址: https://gitcode.com/gh_mirrors/de/design-sprint 在产品开发过程中&#xff0c;用户测试是验证产品假设、确保产品满足用户需求的关…...

为内部ai工具平台选择统一api网关时taotoken的接入与管理价值

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 为内部AI工具平台选择统一API网关时Taotoken的接入与管理价值 当公司内部需要构建一个集成多种AI能力的工具平台时&#xff0c;技术…...

【限时公开】华为昇腾+寒武纪MLU双平台AI Agent边缘部署Checklist(含功耗约束下模型剪枝精度损失≤0.3%的黄金参数表)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;AI Agent边缘计算应用 AI Agent在边缘计算场景中正从“云端智能”转向“端侧自治”&#xff0c;通过轻量化模型部署、本地决策闭环与低延迟响应&#xff0c;显著提升工业质检、智能安防、车载感知等实时…...

企业从 Excel 管理转向系统化管理的关键步骤

企业从 Excel 管理转向系统化管理的关键步骤 几乎每家中小企业都经历过 Excel 管理阶段。客户表、合同表、项目表、库存表、资产表、员工表、回款表&#xff0c;一个个表格撑起了企业早期管理。Excel 的优势很明显&#xff1a;灵活、低成本、人人会用。 但企业规模一旦扩大&…...

Unity特效优化指南:从ParticleSystem参数调优到性能瓶颈排查

Unity特效优化实战&#xff1a;ParticleSystem深度调优与移动端性能突围 记得第一次在低端安卓机上测试火焰特效时&#xff0c;帧率直接从60掉到22的绝望吗&#xff1f;我们团队为此通宵三晚重构了整个粒子系统。本文将分享从血泪教训中总结的ParticleSystem优化方法论&#xf…...

从原理图到Ping通:我的STM32F407 RMII以太网调试笔记(含LAN8720硬件差异处理)

从原理图到Ping通&#xff1a;我的STM32F407 RMII以太网调试笔记&#xff08;含LAN8720硬件差异处理&#xff09; 第一次点亮STM32F407的以太网接口时&#xff0c;那种成就感至今难忘。但在此之前&#xff0c;我经历了整整两周的煎熬——原理图反复检查、PCB打样两次、软件调试…...