当前位置：首页 > news >正文

机器学习：情感分析的原理、应用场景及优缺点介绍

news 2025/7/7 7:54:29

一、情感分析算法概述

情感分析是自然语言处理中的一个重要任务，主要用于判断文本中所包含的情感倾向，如正面、负面或中性。

二、基于词典的情感分析算法

原理
- 词典构建：首先需要构建一个情感词典。这个词典包含了一系列带有情感倾向的词汇，每个词汇都有一个对应的情感得分，例如，“高兴”可能被赋予一个较高的正面情感得分，“悲伤”被赋予一个较低的负面情感得分。
- 文本情感计算：对于给定的文本，将文本进行分词处理。然后，遍历文本中的每个词汇，在情感词典中查找对应的情感得分。如果词汇在词典中存在，就将其情感得分累加到总的情感分数中。最后，根据总的情感分数来判断文本的情感倾向。假设文本 $T$ 被分词为词汇序列 $\{w_1,w_2,\cdots,w_n\}$ ，情感词典为 $D$ ，词汇 $w_i$ 在词典中的情感得分为 $score(w_i)$ （若词汇不在词典中， $score(w_i)=0$ ），则文本 $T$ 的情感得分 $S (T)$ 可以通过以下公式计算：
  $S(T)=\sum_{i = 1}^{n}score(w_i)$
- 根据情感得分的阈值来确定情感倾向，例如，若 $S (T) > 0$ ，则文本为正面情感；若 $S (T) < 0$ ，则为负面情感；若 $S (T) = 0$ ，则为中性情感。
应用场景
- 产品评论分析：在电商平台上，对消费者的产品评论进行情感分析，快速了解消费者对产品的满意度。例如，分析手机产品评论，判断消费者是对手机的性能、外观等方面满意还是不满意。
- 社交媒体舆情监测：监测社交媒体上用户对品牌、事件等的看法。比如，分析微博上用户对某部电影的评价，了解大众的观影感受。
优点
- 简单易懂，易于实现。不需要复杂的模型训练过程，只需要构建好情感词典即可进行分析。
- 可解释性强。能够明确地指出文本中哪些词汇对情感倾向产生了影响，因为情感得分是基于词汇的。
缺点
- 对词典的依赖性很强。如果情感词典不完整或者不准确，会导致情感分析的结果出现偏差。例如，一些新兴的网络词汇可能没有及时收录到词典中。
- 无法考虑词汇之间的语义关系和上下文信息。例如，“这个产品不是很好”应该是负面评价，但按照简单的词典相加方法，“不是”这个词可能会干扰正确的情感判断。

三、基于机器学习的情感分析算法（以朴素贝叶斯为例）

原理
- 特征提取：将文本表示为特征向量。常见的方法是词袋模型，即将文本看作是词汇的集合，每个词汇是一个特征。对于给定的文本，统计每个词汇在文本中出现的次数，构成一个向量。例如，词汇表中有 $n$ 个词汇，文本 $T$ 经过词袋模型处理后得到的特征向量 $\boldsymbol{x}=(x_1,x_2,\cdots,x_n)$ ，其中 $x_i$ 表示词汇表中第 $i$ 个词汇在文本 $T$ 中出现的次数。
- 模型训练：利用训练数据集（包含已经标注好情感倾向的文本）来训练朴素贝叶斯模型。根据贝叶斯定理，计算在给定特征向量 $\boldsymbol{x}$ 的情况下，文本属于不同情感类别（正面、负面、中性）的概率。朴素贝叶斯假设特征之间相互独立，对于类别 $y$ （情感类别）和特征向量 $\boldsymbol{x}$ ，概率计算公式为：
  $P(y|\boldsymbol{x})=\frac{P(\boldsymbol{x}|y)P(y)}{P(\boldsymbol{x})}$
  由于 $P(\boldsymbol{x})$ 对于所有类别相同，在比较不同类别概率大小时可以忽略。而 $P(\boldsymbol{x}|y)=\prod_{i = 1}^{n}P(x_i|y)$ ， $P(x_i|y)$ 表示在情感类别 $y$ 下词汇 $i$ 出现的概率，可以通过训练数据统计得到。 $P (y)$ 是情感类别 $y$ 的先验概率，也可以从训练数据中计算得出。
- 情感分类：对于待分类的文本，将其转换为特征向量后，代入训练好的模型中，计算属于不同情感类别的概率，选择概率最高的情感类别作为文本的情感倾向。
应用场景
- 新闻情感分析：分析新闻报道的情感倾向，帮助读者快速了解新闻的立场。例如，分析财经新闻对股市涨跌的情感倾向，是乐观还是悲观。
- 用户反馈分析：在企业的客户反馈系统中，对用户的反馈文本进行情感分析，了解用户对产品或服务的满意度，以便进行针对性的改进。
优点
- 能够考虑词汇之间的统计关系，相对于基于词典的方法，对上下文的适应能力稍强。例如，它可以学习到某些词汇组合在不同情感类别中的出现概率。
- 在有足够的训练数据的情况下，可以取得较好的情感分析效果，并且可以通过不断更新训练数据来提高模型性能。
缺点
- 假设特征（词汇）之间相互独立，这在实际的文本中往往不成立。例如，“非常好”这个短语，“非常”和“好”之间是有语义关联的，但朴素贝叶斯忽略了这种关联。
- 需要大量的标注数据进行训练。如果标注数据不足或者质量不高，会影响模型的性能。

四、基于深度学习的情感分析算法（以循环神经网络RNN为例）

原理
- 文本表示：首先将文本中的词汇转换为词向量。词向量是一种低维的实数向量，能够在一定程度上表示词汇的语义信息。例如，通过预训练的词向量模型（如Word2Vec、GloVe等）将文本中的每个词汇转换为一个固定维度的向量。
- 模型构建：构建循环神经网络（RNN）来处理文本序列。在每个时间步 $t$ ，RNN接收当前词汇的词向量 $\boldsymbol{x}_t$ 和上一个时间步的隐藏状态 $\boldsymbol{h}_{t - 1}$ ，通过以下公式计算当前时间步的隐藏状态：
  $\boldsymbol{h}_t = f(\boldsymbol{W}\boldsymbol{x}_t+\boldsymbol{U}\boldsymbol{h}_{t - 1}+\boldsymbol{b})$
  其中 $\boldsymbol{W}$ 、 $\boldsymbol{U}$ 是权重矩阵， $\boldsymbol{b}$ 是偏置向量， $f$ 是激活函数（如tanh函数）。
- 情感分类：经过RNN对整个文本序列的处理后，最后一个时间步的隐藏状态 $\boldsymbol{h}_n$ （假设文本有 $n$ 个词汇）包含了文本的语义信息。将 $\boldsymbol{h}_n$ 输入到一个全连接层进行情感分类，例如通过Softmax函数计算文本属于不同情感类别的概率：
  $P(y|\boldsymbol{x})=\frac{e^{\boldsymbol{w}_y^T\boldsymbol{h}_n + b_y}}{\sum_{k}e^{\boldsymbol{w}_k^T\boldsymbol{h}_n + b_k}}$
  其中 $\boldsymbol{w}_y$ 和 $b_y$ 是对应情感类别 $y$ 的权重向量和偏置， $k$ 表示所有情感类别。选择概率最高的情感类别作为文本的情感倾向。
应用场景
- 影评分析：分析电影评论的情感倾向，帮助观众快速了解评论者对电影的喜好程度。例如，分析大量的影评，挖掘观众对电影情节、演员表演等方面的情感评价。
- 小说情感分析：对小说文本进行情感分析，了解小说的情感基调。例如，分析一部爱情小说的情感变化，判断哪些章节是甜蜜的，哪些是悲伤的。
优点
- 能够很好地处理文本的序列信息，考虑词汇之间的上下文关系和语义关联。例如，在处理长文本时，可以根据前文的词汇来理解后文词汇的情感倾向。
- 可以自动学习文本的特征表示，不需要像机器学习方法那样手动进行复杂的特征工程。通过训练词向量和RNN模型，能够挖掘出文本中的深层次语义信息。
缺点
- 训练过程复杂，计算资源消耗大。需要大量的计算资源（如GPU）来加速训练，并且训练时间可能较长。
- 容易过拟合。由于模型复杂度高，在训练数据有限的情况下，很容易学习到训练数据中的噪声，导致在测试数据上性能下降。

五、举例说明

基于词典的情感分析示例
- 假设我们有一个简单的情感词典，包含“好（+2）”、“坏（-2）”、“不错（+1）”、“很差（-3）”这几个词汇，情感得分在括号内表示。
- 对于文本“这个产品的质量很不错”，分词后得到“这个”、“产品”、“的”、“质量”、“很不错”。在情感词典中查找，只有“很不错”有情感得分，为 $+ 1$ ，所以文本的情感得分为 $+ 1$ ，判断为正面情感。
基于朴素贝叶斯的情感分析示例
- 假设有一个小的训练数据集，包含以下两条正面评论：“这个手机的外观很漂亮，功能也很强大”，“我很喜欢这款手机的拍照效果”；和两条负面评论：“这个手机的电池续航很差”，“这款手机的系统很卡顿”。
- 词汇表为“外观”、“漂亮”、“功能”、“强大”、“喜欢”、“拍照效果”、“电池续航”、“差”、“系统”、“卡顿”。
- 对于正面评论，统计词汇出现次数，构建特征向量。例如，第一条正面评论对应的特征向量可能为（1,1,1,1,0,1,0,0,0,0）。同样构建负面评论的特征向量。
- 计算每个词汇在正面和负面评论中出现的概率，以及正面和负面评论的先验概率。对于待分类的评论，如“这个手机的系统不太好”，转换为特征向量后，代入朴素贝叶斯公式计算属于正面和负面评论的概率，判断为负面评论。
基于RNN的情感分析示例
- 假设我们要分析电影评论“这部电影的剧情很吸引人，但是特效有点差”。
- 首先将评论中的词汇转换为词向量。将词向量序列输入到RNN中，RNN在每个时间步处理一个词向量，更新隐藏状态。
- 经过对整个评论的处理后，最后一个时间步的隐藏状态输入到全连接层，通过Softmax函数计算出属于正面情感和负面情感的概率，假设得到正面情感概率为 $0.4$ ，负面情感概率为 $0.6$ ，判断为负面情感。

机器学习：情感分析的原理、应用场景及优缺点介绍

一、情感分析算法概述情感分析是自然语言处理中的一个重要任务，主要用于判断文本中所包含的情感倾向，如正面、负面或中性。二、基于词典的情感分析算法原理词典构建：首先需要构建一个情感词典。这个词典包含了一系列带有情感倾向的词汇…...

编程日记 2024/10/18 1:35:27

基于SSM的医院药品管理系统

作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：…...

编程日记 2024/10/18 1:33:26

特征融合篇 | YOLOv10 引入动态上采样模块 | 超过了其他上采样器

本改进已集成到YOLOv8-Magic 框架论文名称：《Learning to Upsample by Learning to Sample》论文地址：https://arxiv.org/abs/2308.15085 代码地址：https://github.com/tiny-smart/dysample 我们提出了 DySample，一种超轻量级且有效的动态上采样器。尽管最近基于内核的…...

编程日记 2024/10/18 1:31:24

【Linux系列】写入文本到文件

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan 的首页,持续学…...

编程日记 2024/10/18 1:30:23

【踩坑随笔】Tensorflow-GPU训练踩坑

一个无语的坑，4060单卡训练，8G内存本来就不够，还没开始训练就已经爆内存了，但是居然正常跑完了训练，然后一推理发现结果就是一坨。。。往回翻日志才发现原来中间有异常。首先解决第一个问题：Could not lo…...

编程日记 2024/10/18 1:29:22

【云岚到家】-day07-4-实战项目-优惠券活动-项目准备

【云岚到家-即刻体检】-day07-4-实战项目-优惠券活动-活动管理 1 模块需求分析1.1 业务流程1.2 界面原型1.3 业务模块 2 模块设计2.1 数据流2.2 表结构设计2.2.1 优惠券活动表设计2.2.2 优惠券表设计2.2.3 优惠券核销表2.2.4 优惠券退回表 2.3 创建数据库2.4 创建工程 1 模块需…...

编程日记 2024/10/18 1:24:18

axios的使用

在 Vue 项目中，封装 Axios 并实现加密、重复请求优化、请求取消、页面切换时取消未完成的请求、以及区分上传和下载操作是非常常见的需求。下面将逐一讲解这些需求的实现方式。 1. Axios 的基本封装首先，我们可以将 Axios 封装到一个服务层中&#xf…...

编程日记 2024/10/18 1:22:16

Ubuntu 使用命令克隆和恢复SD卡

因为平常我需要做很多张开发板的出货卡，测试卡，那么我需要将备份下来文件，方便后续管理，这里时候需要用到Ubuntu上面的命令来克隆镜像和恢复镜像到SD卡上先查询自己的SD卡是在sdx，以我的为例子，为sdb 备…...

编程日记 2024/10/18 1:20:14

Java 小游戏《超级马里奥》

文章目录一、效果展示二、代码编写1. 素材准备2. 创建窗口类3. 创建常量类4. 创建动作类5. 创建关卡类6. 创建障碍物类7. 创建马里奥类8. 编写程序入口一、效果展示二、代码编写 1. 素材准备首先创建一个基本的 java 项目，并将本游戏需要用到的图片素材 image…...

编程日记 2024/10/18 1:19:13

go语言defer详解

什么是defer？为什么需要defer？怎样合理使用defer?defer进阶 defer的底层原理是什么？利用defer原理defer命令的拆解defer语句的参数闭包是什么？defer配合recover后记参考资料什么是defer？ defer是Go语言提供的一种用…...

编程日记 2024/10/18 1:17:11

【C语言】循环中断break

在循环使用过程中，可能遇到某些情况需要终止循环。比如按座位查找一位学生，循环查找，找到时可以直接停止。后续的循环将不再执行。 break;只跳出一层循环例子中的素数判断，查找到根号n停止：一个合数等于两个数的乘积…...

编程日记 2024/10/18 1:16:10

centos ping能通但是wget超时-解决

问题截图： 域名解析地址为IPV6地址，建议您调整IPV4优先级之后，再尝试访问，请参考Linux系统IPv4/IPv6双栈接入优先使用IPv4设置：移动云帮助中心实操截图：...

编程日记 2024/10/18 1:13:08

SDIO - DWC MSHC 电压切换和频率切换

背景我们的sdio访问sd card过去一直跑在低频上，HS50M。前段时间给eMMc添加了HS200模式，eMMc的总线模式定义是这样的： 可以看到1.8V的IO 电压可以支持所有模式，我们过去的芯片，由硬件部门放到evb上，其IO …...

编程日记 2024/10/18 1:12:07

EI-CLIP 深度理解 PPT

系列文章目录文章目录系列文章目录在电子商务产品的跨模态检索中，电子商务图像和电子商务语言都有许多独特的特点。如图所示，一个电子商务产品图片通常只包含一个简单的场景，有一个或两个前景物体和一个普通的背景。同时，电子商…...

编程日记 2024/10/18 1:10:05

leetcode力扣刷题系列——【最小元素和最大元素的最小平均值】

题目你有一个初始为空的浮点数数组 averages。另给你一个包含 n 个整数的数组 nums，其中 n 为偶数。你需要重复以下步骤 n / 2 次： 从 nums 中移除最小的元素 minElement 和最大的元素 maxElement。将 (minElement maxElement) / 2 加入到 aver…...

编程日记 2024/10/18 1:08:02

【线性回归分析】：基于实验数据的模型构建与可视化

目录线性回归分析：基于实验数据的模型构建与可视化 1. 数据准备 2. 构建线性回归模型 3. 可视化数据分析的核心构建预测模型应用场景预测模型中的挑战结论线性回归分析：基于实验数据的模型构建与可视化在数据分析领域，线性…...

编程日记 2024/10/18 1:04:59

效果： 官网介绍 1. 安装 npm install --save countup.js2. 基本使用 // template <span ref"number1Ref"></span>// script const number1Ref ref<HTMLElement>() onMounted(() > {new CountUp(number1Ref.value!, 9999999).sta…...

编程日记 2024/10/18 1:03:58

设计模式大全

1. 策略模式什么是策略模式？ 策略模式（Strategy Pattern）是一种行为设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以互换。策略模式使得算法可以独立于使用它的客户端而变化。通过使用策略…...

编程日记 2024/10/18 1:00:55

redis IO多路复用机制

目录一、五种 I/O 模型 1.阻塞IO（Blocking IO） 2.非阻塞IO（Nonblocking IO） 3.IO多路复用（IO Multiplexing） 通知的方式 select模式 poll模式 epoll模式 4.信号驱动IO（Signal Driven …...

编程日记 2024/10/18 0:59:53

Oracle漏洞修复 19.3 补丁包升级为19.22

1.场景描述上周末2024-10-12日，服务器扫出漏洞，希望及时修复。其中，oracle的漏洞清单如下，总结了下，基本都是 Oracle Database Server 的 19.3 版本到 19.20 版本和 21.3 版本到 21.11 版本存在安全漏洞，即版本问题。如： Oracle Database Server 安全漏洞(CVE-2023-22…...

编程日记 2024/10/18 0:58:52

Xshell远程连接Kali（默认 | 私钥）Note版

前言:xshell远程连接，私钥连接和常规默认连接任务一开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务任务二修改配置文件 vi /etc/ssh/ssh_config //第一…...

编程新知 2025/7/6 14:13:35

UDP(Echoserver)

网络命令 Ping 命令检测网络是否连通使用方法: ping -c 次数网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法：netstat [选项] 功能：查看网络状态常用选项： n 拒绝显示别名&#…...

编程新知 2025/7/5 23:47:43

稳定币的深度剖析与展望

一、引言在当今数字化浪潮席卷全球的时代，加密货币作为一种新兴的金融现象，正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而，加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下，稳定…...

编程新知 2025/6/20 12:51:17

#Uniapp篇：chrome调试unapp适配

chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器：Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...

编程新知 2025/6/17 12:13:20

JVM 内存结构详解

内存结构运行时数据区： Java虚拟机在运行Java程序过程中管理的内存区域。程序计数器： 线程私有，程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。每个线程都有一个程序计数…...

编程新知 2025/7/7 2:09:23

Go 语言并发编程基础：无缓冲与有缓冲通道

在上一章节中，我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道，它们在并发编程中各具特点和应用场景。一、通道的基本分类类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

编程新知 2025/6/21 5:00:15

C++：多态机制详解

目录一. 多态的概念 1.静态多态（编译时多态） 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1）.协变 2）.析构函数的重写 5.override 和 final关键字 1&#…...

编程新知 2025/7/6 18:42:38

解决：Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象： android studio报错： [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决： 不要动CMakeLists.…...

编程新知 2025/7/5 12:05:20

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用

文章目录一、背景知识：什么是 B-Tree 和 BTree？ B-Tree（平衡多路查找树） BTree（B-Tree 的变种） 二、结构对比：一张图看懂三、为什么 MySQL InnoDB 选择 BTree？ 1. 范围查询更快 2…...

编程新知 2025/7/6 15:32:25

WPF八大法则：告别模态窗口卡顿

⚙️ 核心问题：阻塞式模态窗口的缺陷原始代码中ShowDialog()会阻塞UI线程，导致后续逻辑无法执行： var result modalWindow.ShowDialog(); // 线程阻塞 ProcessResult(result); // 必须等待窗口关闭根本问题&#xff1a…...

编程新知 2025/7/6 22:58:45

机器学习：情感分析的原理、应用场景及优缺点介绍

相关文章：

机器学习：情感分析的原理、应用场景及优缺点介绍

基于SSM的医院药品管理系统

特征融合篇 | YOLOv10 引入动态上采样模块 | 超过了其他上采样器

【Linux系列】写入文本到文件

【踩坑随笔】Tensorflow-GPU训练踩坑

【云岚到家】-day07-4-实战项目-优惠券活动-项目准备

axios的使用

Ubuntu 使用命令克隆和恢复SD卡

Java 小游戏《超级马里奥》

go语言defer详解

【C语言】循环中断break

centos ping能通但是wget超时-解决

SDIO - DWC MSHC 电压切换和频率切换

EI-CLIP 深度理解 PPT

leetcode力扣刷题系列——【最小元素和最大元素的最小平均值】

【线性回归分析】：基于实验数据的模型构建与可视化

CountUp.js 实现数字增长动画 Vue

设计模式大全

redis IO多路复用机制

Oracle漏洞修复 19.3 补丁包升级为19.22

Xshell远程连接Kali（默认 | 私钥）Note版

UDP(Echoserver)

稳定币的深度剖析与展望

#Uniapp篇：chrome调试unapp适配

JVM 内存结构详解

Go 语言并发编程基础：无缓冲与有缓冲通道

C++：多态机制详解

解决：Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

MySQL 索引底层结构揭秘：B-Tree 与 B+Tree 的区别与应用

WPF八大法则：告别模态窗口卡顿