自然语言处理笔记
文章目录
- 情感词典
- 中文分词
- 单词向量化技术
- Word2vec
- GloVe
- fastText
- 关键词提取算法
情感词典
英文的情感词典有:LIWC, SentiWordNet等
中文的情感词典有:NTUSD, 正文褒贬词典TSING, 知网HowNet等
中文分词
中文分词的工具有:jieba(核心算法是张华平的Nshort算法), SnowNLP, NLPIR汉语分词系统, THULAC, PkuSeg, LTP等
Pkuseg技术能对多个领域进行分词,并可以针对不同的领域数据进行个性化的预训练。
LTP提供了动态链接库的接口,拥有可视化功能,还能以网络服务的形式进行使用。
Jieba分词则由三种分切方式,是目前比较接受人欢迎的中文分词工具。
单词向量化技术
Word2vec
Word2vec存在两种最基本的模型:连续词袋模型(CBOW)和跳字模型(Skip-gram)
GloVe
GloVe 指用词表示的全局变量(global vectors for word representation)一个基于全局词频统让的词表征工具。GloVe 是一个新的全局对数双线性回归模型,用于无监督学习的单词表示,它优于其他模型在单词类比、单词相似性以及命名实体识别任务。与Word2vec 可以进行在线学习,GloVe 则需要统计固定语料信息;Word2vec 损失函数实质上是带权重的交叉熵,权重固定,GloVe的损失函数是最小平方损失函数,权重可以做映射变换;GloVe 利用了全局信息,使其在训练时收敛更快,训练周期较Word2vec 较短且效果更好。
fastText
fastText词向量算法将词表征为向量形式并计算词与词之间相似度作为权重引入图模型。
与GloVe词向量算法相比,fastText与Word2vec两种词向量算法的损失计算采用固定权重的交叉熵损失函数,并且特征提取均是基于滑动窗口的。
关键词提取算法
TF-IDF, TextRank.
TextRank算法虽然借鉴了PageRank以节点权重排序的思想,但二者相比存在不同之处,TextRank认为在文本中词与词之间的关联无权重,并且每个词并非和文本中所有其他的词都存在所谓的链接。TextRank关键词提取算法的优点是它可以不依赖于大规模的比较数据,也不需要进行任何预先的训练和计算。但TextRank算法在进行关键词提取时,由于窗口的限制,只能考虑到局部词之间的连接关系,缺少从全局角度利用词之间的依存特征。
相关文章:
自然语言处理笔记
文章目录 情感词典中文分词单词向量化技术Word2vecGloVefastText 关键词提取算法 情感词典 英文的情感词典有:LIWC, SentiWordNet等 中文的情感词典有:NTUSD, 正文褒贬词典TSING, 知网HowNet等 中文分词 中文分词的工具有:jieba(核心算法是…...
广东省第三届职业技能大赛“网络安全项目”B模块任务书
广东省第三届职业技能大赛“网络安全项目”B模块任务书 PS: 关注鱼影安全第一部分 网络安全事件响应任务 1:应急响应 第二部分 数字取证调查任务 2 :操作系统取证任务 3: 网络数据包分析取证任务 4: 计算机单机取证 第三部分 应用…...
如何利用API接口获取电商平台数据?
作为产品经理,我们需要了解电商平台的数据情况,以便更好地制定产品策略和优化用户体验。而利用API接口获取电商平台数据是一种高效、便捷的方式。本文将从以下几个方面介绍如何利用API接口获取电商平台数据。 一、了解API接口 首先,我们需要…...
C语言天花板——指针(经典题目)
指针我们已经学习的差不多了,今天我来给大家分享几个经典的题目,来让我们相互学习🏎️🏎️🏎️ int main() {int a[4] { 1, 2, 3, 4 };int* ptr1 (int*)(&a 1);int* ptr2 (int*)((int)a 1);printf("%x,%…...
进程上下文的概念和切换简单通俗的解释
进程上下文是进程执行活动全过程的静态描述。我们把已执行过的进程指令和数据在相关寄存器与堆栈中的内容称为进程上文,把正在执行的指令和数据在寄存器与堆栈中的内容称为进程正文,把待执行的指令和数据在寄存器与堆栈中的内容称为进程下文。 实际上li…...
python学习笔记10(选择结构2、循环结构1)
(一)选择结构2 1、if……else……语句 #(1)基本格式 numbereval(input("请输入您的6位中奖号码:")) if number123456:print("恭喜您,中奖了") else:print("未中奖")#&…...
IPv6过渡技术---手动隧道
IPv6隧道 隧道(Tunnel)是一种封装技术。利用一种网络协议来传输另一种网络协议,即利用一种网络传输协议,将其他协议产生的数据报文封装在自身的报文中,然后在网络中传输。 隧道是一个虚拟的点对点的连接。一个Tunnel提供了一条使封装的数据报文能够传输的通路,并且在一个…...
Redis中的Java客户端
一、Jedis Jedis是一个Java实现的Redis客户端连接工具。 Jedis使用非常简单,直接引入依赖。基于默认参数的Jedis连接池,初始化连接池类(使用默认连接池参数)JedisPool,获取一个Jedis连接Jedis jedisjp.getResource()…...
线性代数——行列式相关性质
目录 一、行列式与它的转置列行列式相等 二、对换行列式的两行(列),行列式变号 三、行列式某行(列)有公因子k,则k可以提到行列式外 四、行列式中若两行成比例,则行列式为0 五、行列式的某一行…...
跟着cherno手搓游戏引擎【5】layer(层)、Glad
编写基类层: Layer.h:提供Attach链接、Detach解绑、Update刷新、Event事件、GetName方法 #pragma once #include"YOTO/Core.h" #include"YOTO/Event/Event.h" namespace YOTO {class YOTO_API Layer{public:Layer(const std::string& nam…...
Windows无法登录管理路由器故障排查
问题描述 家里的路由器使用拨号上网,路由器DHCP分发IP的范围是192.168.1.0/24。默认使用192.168.1.1管理路由器。然后拨号上网成功后,修改了私网IP的分发范围:192.168.5.1-192.168.5.10。为了防止有人蹭网,只分配的10个IP地址。修…...
通义灵码 - 免费的阿里云 VS code Jetbrains AI 编码辅助工具
系列文章目录 前言 通义灵码,是阿里云出品的一款基于通义大模型的智能编码辅助工具,提供行级/函数级实时续写、自然语言生成代码、单元测试生成、代码注释生成、代码解释、研发智能问答、异常报错排查等能力,并针对阿里云 SDK/OpenAPI 的使用…...
山脉数组的峰顶索引
一、题目描述 852. 山脉数组的峰顶索引 符合下列属性的数组 arr 称为 山脉数组 : arr.length > 3存在 i(0 < i < arr.length - 1)使得: arr[0] < arr[1] < ... arr[i-1] < arr[i] arr[i] > arr[i1] > .…...
openssl3.2 - 官方demo学习 - cms - cms_ver.c
文章目录 openssl3.2 - 官方demo学习 - cms - cms_ver.c概述运行结果笔记END openssl3.2 - 官方demo学习 - cms - cms_ver.c 概述 CMS验签, 将单独签名和联合签名出来的签名文件都试试. 验签成功后, 将签名数据明文写入了文件供查看. 也就是说, 只有验签成功后, 才能看到签名…...
数据结构:堆和堆排序
数据结构:堆和堆排序 文章目录 数据结构:堆和堆排序1.二叉树的存储结构1.顺序结构2.链式结构 2.堆3.堆的实现4.堆排序(选择排序中的一类)1. 基本思想2.代码实现 1.二叉树的存储结构 1.顺序结构 顺序结构存储就是使用数组来表示一…...
力扣精选算法100题——水果成篮(滑动窗口专题)
本题链接👉水果成篮 第一步:了解题意 我就按照实例1来进行对这题的理解。 1代表种类类型,这个数组里面有2个种类类型 ps:种类1和种类2 ,只不过种类1是有2个水果,种类2有一个水果,共计3个水果。 本题需要解…...
【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理
文章目录 MaPLe: Multi-modal Prompt Learning 多模式提示学习文章介绍动机MaPLe:Multi-modal Prompt Learning 模型结构1、Deep Language Prompting 深度语言提示2、Deep Vision Prompting 深度视觉提示3、Vision Language Prompt Coupling 视觉语言提示耦合提示耦合过程 实验…...
wpf使用Popup封装数据筛选框
(关注博主后,在“粉丝专栏”,可免费阅读此文) 类似于DevExpress控件的功能 这是DevExpress的winform筛选样式,如下: 这是DevExpress的wpf筛选样式,如下: 这是Excel的筛选样式,如下: 先看效果 本案例使用wpf原生控件封装,功能基本上都满足,只是颜色样式没有写…...
微信小程序 - 视图与逻辑 介绍
文章目录 视图与逻辑一、页面导航1、页面导航 - 声明式导航1.1 导航到tabBar页面1.2 导航到非tabBar页面1.3 后退导航 2、页面导航 - 编程式导航2.1 导航到tabBar页面2.2 导航到非tabBar页面2.3 后退导航 3、页面导航 - 导航传参3.1 声明式导航传参3.2 编程式导航传参3.3 在 on…...
大创项目推荐 深度学习疫情社交安全距离检测算法 - python opencv cnn
文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 **基于深度学习疫情社交安全距离检测算法 ** 该项目较为新颖,适合作为竞赛…...
G-Helper终极指南:三步打造高效轻量的华硕笔记本控制中心
G-Helper终极指南:三步打造高效轻量的华硕笔记本控制中心 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook,…...
免费AI搜索工具推荐2026,92%用户不知道的3个隐藏权限设置——关闭行为追踪、锁定模型版本、强制HTTPS直连
更多请点击: https://kaifayun.com 第一章:免费AI搜索工具推荐2026 2026年,开源与社区驱动的AI搜索工具生态迎来爆发式增长。得益于大语言模型轻量化部署、RAG(检索增强生成)架构普及,以及WebAssembly对客…...
Gemini深度研究模式到底有多强?3个颠覆性实验结果揭示它如何重构科研工作流
更多请点击: https://kaifayun.com 第一章:Gemini深度研究模式到底有多强?3个颠覆性实验结果揭示它如何重构科研工作流 Gemini深度研究模式并非简单增强版对话功能,而是一套面向复杂知识任务的原生协同推理架构。其核心突破在于支…...
ESP-IDF+vscode开发ESP32第十三讲——NVS
目录 一、NVS梳理 1.1 分区 (Partition):NVS 的专属“仓库” 1.2 页面 (Page):仓库里的“货架” 1.3 条目 (Entry):货架上的“最小存储格” 1.4 键值对 (Key-Value Pair):实际存放的“货物” 1.5 命名空间 (Namespace)&…...
2026年亲测AI论文写作软件指南(高效定稿版)
为解决学术写作中效率与合规两大核心痛点,本文精选8款高适配性 AI 论文写作工具(按综合优先级排序),围绕中文学术规范适配、真实参考文献生成、格式标准化、高性价比四大核心维度进行测评,同时配套分场景精准选型方案与…...
3个问题让你了解为什么我们需要中文AI的“数据粮仓“
3个问题让你了解为什么我们需要中文AI的"数据粮仓" 【免费下载链接】MNBVC MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC…...
3大核心突破:用PDFPatcher重塑你的PDF工作流效率
3大核心突破:用PDFPatcher重塑你的PDF工作流效率 【免费下载链接】PDFPatcher PDF补丁丁——PDF工具箱,可以编辑书签、剪裁旋转页面、解除限制、提取或合并文档,探查文档结构,提取图片、转成图片等等 项目地址: https://gitcode…...
终极指南:如何用amdgpu_top实时监控AMD显卡性能
终极指南:如何用amdgpu_top实时监控AMD显卡性能 【免费下载链接】amdgpu_top Tool to display AMDGPU usage 项目地址: https://gitcode.com/gh_mirrors/am/amdgpu_top 还在为AMD显卡性能监控而烦恼吗?想要像NVIDIA用户使用nvidia-smi那样轻松掌握…...
【Flutter3.8x】flutter从入门到实战基础教程(一):新建一个flutter项目
初始化项目步骤 vscode中安装flutter插件ctrlshiftp弹出命令框点击flutter:new project系统会自动生成一个项目,其中会让选择一个文件夹存放源码,自行选择就行 启动安卓模拟器把文件定位在main.dart上,然后再点击这里如果启动失败,…...
Vue3与Element Plus在企业级后台系统中的架构设计与深度实践
Vue3与Element Plus在企业级后台系统中的架构设计与深度实践 【免费下载链接】vue3-admin-plus 👏 An amazing admin framework of vue3 项目地址: https://gitcode.com/gh_mirrors/vu/vue3-admin-plus 在企业级后台管理系统的开发中,开发者常面临…...
