当前位置：首页 > news >正文

多模态COGMEN详解

news 2026/2/10 17:28:28

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：人工智能、话题分享

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

概述

论文模型框架

演示效果

核心逻辑

使用方式

部署方式

避坑指南

本文所有资源均可在该地址处获取。

概述

情绪是人类行动的一个固有部分，因此，开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中，一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。在本文中，我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN）系统，该系统利用了本地信息（即说话人之间的内/外依赖性）和全局信息（上下文）。建议的模型使用基于图谱神经网络（GNN) 的架构来模拟对话中的复杂关系（本地和全局信息）。我们的模型在IEMOCAP和MOSEI数据集上给出了最先进的（SOTA）结果，详细的消融实验显示了在两个层面上对信息进行建模的重要性

论文模型框架

图2显示了详细的体系结构。输入的话语作为语境提取器模块的输入，该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入，然后是graph transformer，graph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后，作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感。

特征融合的方式：
简单的concat,论文运用了最简单的融合方式，有在尝试别的融合方式

transfomer层是提取一段对话中，不同语句之间的信息

经过一层transformer之后，融合了信息，就开始建图，进行图学习

图学习分别进行了图卷积以及，图transformer，图学习的意义在于，更好的捕捉对话中这种一来一回的关系，来融合来自不同短语的情感信息。

最后链接一个分类器就结束了

演示效果

核心逻辑

##transformer层：def forward(self, text_len_tensor, text_tensor):if self.use_transformer:rnn_out = self.transformer_encoder(text_tensor)rnn_out = self.transformer_out(rnn_out)else:packed = pack_padded_sequence(text_tensor, text_len_tensor, batch_first=True, enforce_sorted=False)rnn_out, (_, _) = self.rnn(packed, None)rnn_out, _ = pad_packed_sequence(rnn_out, batch_first=True)return rnn_out##图学习层class GNN(nn.Module):def __init__(self, g_dim, h1_dim, h2_dim, args):super(GNN, self).__init__()self.num_relations = 2 * args.n_speakers ** 2self.conv1 = RGCNConv(g_dim, h1_dim, self.num_relations)self.conv2 = TransformerConv(h1_dim, h2_dim, heads=args.gnn_nheads, concat=True)self.bn = nn.BatchNorm1d(h2_dim * args.gnn_nheads)def forward(self, node_features, edge_index, edge_type):x = self.conv1(node_features, edge_index, edge_type)x = nn.functional.leaky_relu(self.bn(self.conv2(x, edge_index)))return x
##分类器：def forward(self, h, text_len_tensor):if self.args.dataset == "mosei" and self.args.emotion == "multilabel":if self.args.use_highway:h = self.highway(h)hidden = self.drop(F.relu(self.lin1(h)))scores = self.lin2(hidden)# y_hat = torch.sigmoid(scores) > 0.5y_hat = scores > 0return y_hatlog_prob = self.get_prob(h, text_len_tensor)y_hat = torch.argmax(log_prob, dim=-1)return y_hat

使用方式

处理数据
python preprocess.py --dataset=“iemocap_4”

训练模型
python train.py --dataset=“iemocap_4” --modalities=“atv” --from_begin --epochs=55

测试模型
python eval.py --dataset=“iemocap_4” --modalities=“atv”

部署方式

下载我训练好模型，以及数据集，附件里有data，modelcheckpoint文件夹，分别替换代码中的文件夹即可，我对每个单独的模态都有训练。

建议在pytorch官方来下载配置pytorch

建议用conda配置环境

避坑指南

如果新手cuda配置不成功，可以在代码：
parser.add_argument(“–device”, type=str, default=“cuda”, help=“Computing device.”)
处，把"cuda"改成"cpu"的方式

如果.pt文件无法打开，可以选择重新训练，自己生成模型文件

模型文件有硬件要求，提供的.pt文件都是用cpu训练，如果需要改成cuda版本，需要另外进行训练

多模态COGMEN详解

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨ 🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。我是Srlua小谢，在这里我会分享我的知识和经验。&am…...

编程日记 2024/12/5 14:36:35

django 实战（python 3.x/django 3/sqlite）

要在 Python 3.x 环境中使用 Django 3.2 和 SQLite 创建一个新的 Django 项目，你可以按照以下步骤进行操作。这些步骤假设你已经安装了 Python 3.x 和 pip。 1. 设置虚拟环境首先，建议为你的 Django 项目创建一个虚拟环境，以便隔离项目的依…...

编程日记 2024/12/5 14:35:32

图数据库 | 12、图数据库架构设计——高性能计算架构

在传统类型的数据库架构设计中，通常不会单独介绍计算架构，一切都围绕存储引擎展开，毕竟存储架构是基础，尤其是在传统的基于磁盘存储的数据库架构设计中。类似地，在图数据库架构设计中，项目就围绕存储的方…...

编程日记 2024/12/5 14:32:27

Unity 利用Button 组件辅助Scroll View 滚动

实现创建枚举类ScrollDir 以区分滚动方向。每组两个按钮负责同方向上左右/上下滚动。 Update 中实时获取Scroll View 滚动条当前位置。 if (dir.Equals(ScrollDir.vertical)) {posCurrent scroll.verticalNormalizedPosition; } else if (dir.Equals(ScrollDir.horizontal)…...

编程日记 2024/12/5 14:26:20

Ubuntu 安装Ansible ansible.cfg配置文件生成

安装后的ansible.cfg后的默认内容如下： rootlocalhost:/etc/ansible# cat ansible.cfg # Since Ansible 2.12 (core): # To generate an example config file (a "disabled" one with all default settings, commented out): # $ ansible-…...

编程日记 2024/12/5 14:22:15

使用PaddlePaddle实现线性回归模型

目录编辑引言 PaddlePaddle简介线性回归模型的构建 1. 准备数据 2. 定义模型 3. 准备数据加载器 4. 定义损失函数和优化器 5. 训练模型 6. 评估模型 7. 预测结论引言线性回归是统计学和机器学习中一个经典的算法，用于预测一个因变量&#xff0…...

编程日记 2024/12/5 14:21:13

MongoDB集群的介绍与搭建

MongoDB集群的介绍与搭建一.MongoDB集群的介绍注意：Mongodb是一个比较流行的NoSQL数据库，它的存储方式是文档式存储，并不是Key-Value形式； 1.1集群的优势和特性 MongoDB集群的优势主要体现在以下几个方面： (1)高…...

编程日记 2024/12/5 14:20:12

PhpStorm配置Laravel

本文是2024最新的通过phpstorm创建laravel项目 1.下载phpstorm 2.检查本电脑的环境phpcomposer 显示图标就是安装成功了，不会安装的百度自行安装 3.安装完后，自行创建一个空目录不要有中文，然后运行cmd 输入以下命令，即可创建…...

编程日记 2024/12/5 14:18:09

Solving the Makefile Missing Separator Stop Error in VSCode

1. 打开 Makefile 并转换缩进步骤 1: 在 VSCode 中打开 Makefile 打开 VSCode。使用文件浏览器或 Ctrl O（在 Mac 上是 Cmd O）打开你的 Makefile。步骤 2: 打开命令面板按 Ctrl Shift P（在 Mac 上是 Cmd Shift P）&…...

编程日记 2024/12/5 14:17:08

MySQL大小写敏感、MySQL设置字段大小写敏感

文章目录一、MySQL大小写敏感规则二、设置数据库及表名大小写敏感 2.1、查询库名及表名是否大小写敏感2.2、修改库名及表名大小写敏感三、MySQL列名大小写不敏感四、lower_case_table_name与校对规则 4.1、验证校对规则影响大小写敏感4.1、验证校对规则影响排序五、设置字段…...

编程日记 2024/12/5 14:15:05

项目搭建：guice,jdbc，maven

当然，以下是一个使用Guice、JDBC和Maven实现接口项目的具体例子。这个项目将展示如何创建一个简单的用户管理应用，包括用户信息的增删改查（CRUD）操作。 ### 1. Maven pom.xml 文件首先确保你的pom.xml文件包含必要的依赖&#…...

编程日记 2024/12/5 14:14:03

第四届新生程序设计竞赛正式赛(C语言)

A: HNUCM的学习达人 SQ同学是HNUCM的学习达人，据说他每七天就能够看完一本书，每天看七分之一本书，而且他喜欢看完一本书之后再看另外一本。现在请你编写一个程序，统计在指定天数中，SQ同学看完了多少本完整的书&#x…...

编程日记 2024/12/5 14:13:01

【分布式知识】Redis6.x新特性了解

文章目录 Redis6.x新特性1. 多线程I/O处理2. 改进的过期算法3. SSL/TLS支持4. ACL（访问控制列表）5. RESP3协议6. 客户端缓存7. 副本的无盘复制8. 其他改进 Redis配置详解1. 基础配置2. 安全配置3. 持久化配置4. 客户端与连接5. 性能与资源限制6. 其他配置…...

编程日记 2024/12/5 14:10:58

程序员需要具备哪些知识？

程序员需要掌握的知识广泛而深厚，这主要取决于具体从事的领域和技术方向。不过，有些核心知识是共通的，就像建房子的地基一样，下面来讲讲这些关键领域： 1. 编程语言： 无论你是搞前端、后端、移动开发还是嵌…...

编程日记 2024/12/5 14:09:58

实验四：MyBatis 的关联映射

目录： 一、实验目的： 熟练掌握实体之间的各种映射关系。二、预习要求： 预习数据库原理中所讲过的一对一、一对多和多对多关系三、实验内容： 1. 查询所有订单信息，关联查询下单用户信息(注意：因为一…...

编程日记 2024/12/5 14:08:56

【Leetcode】189.轮转数组

题目链接： 189.轮转数组题目描述： 解题思路： 要想实现数组元素向右轮转k个位置，可是将数组三次反转来实现以 nums [1,2,3,4,5,6,7], k 3 为例，最终要得到[5,6,7,1,2,3,4]: 第一次反转：将整个数组反转…...

编程日记 2024/12/5 14:07:55

【JavaSE】常见面试问题

1. 什么是 Java 中的多态？ 多态是 Java 中面向对象的核心特性之一，指的是同一操作作用于不同类型的对象时表现出不同的行为。通过方法重载和方法重写实现。方法重载是同一方法名，根据参数不同做不同处理，属于编译时多态&#xff…...

编程日记 2024/12/5 14:06:53

【超详图文】多少样本量用 t分布 OR 正态分布

文章目录相关教程相关文献预备知识Lindeberg-Lvy中心极限定理 t分布的来历实验不同分布不同抽样次数的总体分布不同自由度相同参数的t分布&正态分布作者：小猪快跑基础数学&计算数学，从事优化领域7年，主要研究方向：MIP求…...

编程日记 2024/12/5 14:05:52

leetcode hot100【Leetcode 416.分割等和子集】java实现

Leetcode 416.分割等和子集题目描述给定一个非负整数的数组 nums ，你需要将该数组分割成两个子集，使得两个子集的元素和相等。如果可以分割，返回 true ，否则返回 false。示例 1： 输入：nums [1,5,11,…...

编程日记 2024/12/5 14:04:49

《算法导论》英文版前言To the teacher第4段研习录：有答案不让用

【英文版】 Departing from our practice in previous editions of this book, we have made publicly available solutions to some, but by no means all, of the problems and exercises. Our Web site, http://mitpress.mit.edu/algorithms/, links to these solutions. Y…...

编程日记 2024/12/5 14:03:48

多模态COGMEN详解

概述

论文模型框架

演示效果

核心逻辑

使用方式

部署方式

避坑指南

相关文章：

多模态COGMEN详解

django 实战（python 3.x/django 3/sqlite）

图数据库 | 12、图数据库架构设计——高性能计算架构

Unity 利用Button 组件辅助Scroll View 滚动

Ubuntu 安装Ansible ansible.cfg配置文件生成

使用PaddlePaddle实现线性回归模型

MongoDB集群的介绍与搭建

PhpStorm配置Laravel

Solving the Makefile Missing Separator Stop Error in VSCode

MySQL大小写敏感、MySQL设置字段大小写敏感

项目搭建：guice,jdbc，maven

第四届新生程序设计竞赛正式赛(C语言)

【分布式知识】Redis6.x新特性了解

程序员需要具备哪些知识？

实验四：MyBatis 的关联映射

【Leetcode】189.轮转数组

【JavaSE】常见面试问题

【超详图文】多少样本量用 t分布 OR 正态分布

leetcode hot100【Leetcode 416.分割等和子集】java实现

《算法导论》英文版前言To the teacher第4段研习录：有答案不让用

深度学习在微纳光子学中的应用

＜6＞-MySQL表的增删查改

数据链路层的主要功能是什么

Spring Boot面试题精选汇总

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

AspectJ 在 Android 中的完整使用指南

pycharm 设置环境出错

【把数组变成一棵树】有序数组秒变平衡BST，原来可以这么优雅！

Java数组Arrays操作全攻略

stm32进入Infinite_Loop原因（因为有系统中断函数未自定义实现）