当前位置: 首页 > news >正文

(论文阅读40-45)图像描述1

40.文献阅读笔记(m-RNN)

简介

题目

Explain Images with Multimodal Recurrent Neural Networks

作者

Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090

原文链接

http://arxiv.org/pdf/1410.1090.pdf

关键词

m-RNN、multimodal

研究问题

研究问题:解释图像内容;图像和句子检索。

以前的方法思路:看做句子和图像之间的检索问题。给定句子(图像)查询相应的图像(句子)。

具体实施方法:对句子和图像都提取特征,并且将其映射到相同的语义 嵌入空间。

缺点:这样的方法对新图像的描述能力弱。(不在数据库中的句子、图像无法查询,或者查询结果不准确)

针对这一任务,通常有两类方法。第一类假定有特定的语言语法规则。它们解析句子并将其分为几个部分。然后将每个部分与图像中的对象或属性关联起来(例如,使用条件随机场模型,使用马尔可夫随机场模型)。这类方法生成的句子在语法上是正确的。另一类方法与我们的方法更为相关,它们利用深度玻尔兹曼机和主题模型等,学习多模态输入(即句子和图像)空间的概率密度。与第一种方法相比,它们能生成结构更丰富、更灵活的句子。给定相应图像生成句子的概率可作为检索的亲和度指标。

研究方法

多模态循环神经网络(m-RNN):该模型直接模拟了在给定先前单词和图像的情况下生成单词的概率分布。图像描述就是从这个分布中采样生成的。该模型由两个子网络组成:用于句子的深度递归神经网络和用于图像的深度卷积网络。这两个子网络在多模态层中相互作用,形成整个 m-RNN 模型。

The whole m-RNN architecture contains a language model part, an image part and a multimodal part. The language model part learns the dense feature embedding for each word in the dictionary and stores the semantic temporal context in recurrent layers. The image part contains a deep Convulutional Neural Network (CNN) [17] which extracts image features. The multimodal part connects the language model and the deep CNN together by a one-layer representation.

语言模型学习字典中每个词的稠密特征嵌入,并在recurrent layers中存储语义时间上下文(semantic temporal context)。

图像部分包含提取图像特征的深度卷积神经网络( CNN )。

多模态部分通过单层表示将语言模型和深度CNN连接在一起。

损失函数:using a perplexity based cost function

  1. RNN在每个时间帧中有六个层:输入词层、两个词嵌入层、递归层、多模态层和 softmax 层

研究结论

模型优于最先进的生成方法。此外,m-RNN 模型还可应用于检索图像或句子的任务,与直接优化检索排序目标函数的先进方法相比,其性能有了显著提高。模型是可扩展的,并且有潜力通过为图像和句子整合更强大的深度网络来进一步改进。

创新不足

额外知识

递归神经网络:【神经网络】递归神经网络 - 知乎 (zhihu.com)

模型必须能够按照树结构去处理信息,而不是序列(循环神经网络),这就是递归神经网络的作用。

41.文献阅读笔记

简介

题目

Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

作者

Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel, arXiv:1411.2539.

原文链接

http://arxiv.org/pdf/1411.2539.pdf

关键词

Visual-Semantic

研究问题

图像描述

研究方法

编码器:深度卷积网络( CNN )和长短期记忆循环网络( LSTM ),用于学习图像-句子的联合嵌入。解码器:一种新的神经语言模型,它将结构向量和内容向量结合起来,用于每次依次生成单词。

解码器补充:引入了一种新的神经语言模型,称为结构-内容神经语言模型(SC-NLM)。SC-NLM 与现有模型的不同之处在于,它以编码器产生的分布式表征为条件,将句子的结构与内容割裂开来。

结构变量有助于引导模型生成短语,可以看作是一个软模板,有助于避免模型生成语法废话。

SC-NLM 可以仅根据文本进行训练。这样,我们就可以利用大量的单语文本(如非图像标题)来提高语言模型的质量。

编码器为我们提供了一种对图像和标题进行排序并开发良好评分函数的方法,而解码器则可以使用所学到的表征来优化评分函数,从而生成新的描述并对其进行评分。

研究结论

最先进的性能

创新不足

额外知识

Lstm:包含一个内置的记忆单元,用于存储信息和利用远距离上下文。LSTM 存储单元周围有门控单元,用于读写和重置信息。

42.文献阅读笔记(LRCN)

简介

题目

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

作者

Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrel l, arXiv:1411.4389.

原文链接

http://arxiv.org/pdf/1411.4389.pdf

关键词

recurrent convolutional

研究问题

描述了一类可端到端训练且适用于大规模视觉理解任务的递归卷积架构,并展示了这些模型在活动识别、图像标题和视频描述方面的价值。

递归卷积模型则是 "双重深度 "的,因为它们学习空间和时间的组合表征。当非线性因素被纳入网络状态更新时,学习长期依赖关系就成为可能。可微分递归模型的吸引力在于,它们可以将可变长度的输入(如视频)直接映射到可变长度的输出(如自然语言文本),并能模拟复杂的时间动态;同时,它们还能通过反向传播进行优化。

有关用于视频处理的 CNN 模型的研究已经考虑了在原始序列数据上学习三维时空滤波器,以及在固定窗口或视频镜头片段上学习帧到帧表示,其中包含了瞬时光流基于轨迹的聚合模型 。这些模型探索了感知时间序列表征学习的两个极端:要么学习完全通用的时变加权,要么应用简单的时间池。

研究方法

主张视频识别和描述模型也应在时间维度上进行深度学习,即潜在变量具有时间递归性。

LSTM 单元的隐藏状态使用非线性机制进行增强,允许状态在不修改的情况下传播、更新或重置,使用的是简单的学习门控函数。

应用于时变输入和输出的愿望不断增长的架构

研究结论

证明 LSTM 类型的模型可以提高传统视频活动挑战的识别率,并实现从图像像素到句子级自然语言描述的新颖端到端优化映射。我们还表明,这些模型改进了从传统视觉模型衍生的中间视觉表征中生成描述的能力。

创新不足

额外知识

CRF:条件随机场

43.文献阅读笔记

简介

题目

Show and Tell: A Neural Image Caption Generator

作者

Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan

原文链接

http://arxiv.org/pdf/1411.4555.pdf

关键词

研究问题

图像描述

想回答诸如"数据集大小如何影响泛化"、"它将能够实现什么样的迁移学习"、"它将如何处理弱标记样本"等问题。

研究方法

CNN(图像的表示)+LSTM(联系前后输入)

介绍了 NIC,这是一个端到端神经网络系统,可以自动查看图像并生成通俗易懂的合理描述。NIC 以卷积神经网络为基础,将图像编码为紧凑的表示形式,然后由递归神经网络生成相应的句子。对模型的训练是为了最大限度地提高给定图像的句子的可能性。

利用一个循环神经网络将可变长度的输入编码为固定维度的向量,并使用这种表示将其"解码"到期望的输出句子。

研究结论

随着图像描述可用数据集规模的扩大,NIC 等方法的性能也将随之提高。此外,如何利用来自图像和文本的无监督数据来改进图像描述方法也将是一个有趣的课题。

创新不足

额外知识

None

44.文献阅读笔记

简介

题目

Deep Visual-Semantic Alignments for Generating Image Description

作者

Andrej Karpathy, Li Fei-Fei, CVPR, 2015.

原文链接

http://cs.stanford.edu/people/karpathy/cvpr2015.pdf

关键词

对图像内容进行密集注释。

研究问题

提出了一种生成图像及其区域的自然语言描述的模型。以往视觉识别领域的大部分工作都集中在用一组固定的视觉类别标记图像上,这些工作已经取得了很大的进展。然而,尽管封闭的视觉概念词汇表构成了一种方便的建模假设,但与人类所能编写的大量丰富描述相比,它们具有极大的局限性。针对生成图像描述的挑战,已经开发出了一些开创性的方法。然而,这些模型通常依赖于硬编码的视觉概念和句子模板,这就限制了它们的多样性。此外,这些工作的重点是将复杂的视觉场景还原成一个句子,而我们认为这是不必要的限制。

研究方法

利用图像及其句子描述的数据集来学习语言和视觉数据之间的模态间对应关系。基于图像区域上的卷积神经网络,句子上的双向循环神经网络和通过多模态嵌入对齐两个模态的结构化目标的新颖组合。

描述了一种多模态循环神经网络架构,该架构使用推断的对齐来学习生成新的图像区域描述。

输入->推断->输出

研究结论

创新不足

额外知识

双向递归神经网络(Bidirectional Recurrent Neural Network,BRNN):来计算单词表示。双向递归神经网络采用 N 个单词序列(以 1-k 表示法编码),并将每个单词转换为 h 维向量。不过,每个单词的表征都会被该单词周围大小不一的上下文所丰富。

45.文献阅读笔记

简介

题目

Translating Videos to Natural Language Using Deep Recurrent Neural Networks

作者

Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, NAACL-HLT, 2015.

原文链接

http://arxiv.org/pdf/1412.4729.pdf

关键词

视频翻译

研究问题

将视频直接翻译成句子.描述的视频数据集稀缺,现有的大多数方法已被应用于可能词汇量较小的玩具领域。人们已经提出了针对具有一小部分已知动作和对象的狭窄领域的解决方案.

研究方法

同时具有卷积和循环结构的统一深度神经网络将视频直接翻译成句子。

该网络在 120 多万张带有类别标签的图像上进行了预先训练.

他们将其模型的一个版本应用于视频到文本的生成,但没有提出端到端的单一网络,而是使用了中间角色表示。

利用长短期记忆(LSTM)递归神经网络来建立序列动态模型,但将其直接连接到深度卷积神经网络来处理传入的视频帧,从而完全避免了监督中间表征。

研究结论

提出了一种用于视频描述的模型,该模型使用神经网络从像素到句子的整个流水线,并且可以潜在地允许整个网络的训练和调整。在一个广泛的实验评估中,我们表明我们的方法比相关的方法生成更好的句子。我们还表明,与仅依赖视频描述数据相比,利用图像描述数据可以提高性能。然而,我们的方法在更好地利用视频中的时间信息方面存在不足

创新不足

每帧都进行卷积处理,运算量太大.

额外知识

相关文章:

(论文阅读40-45)图像描述1

40.文献阅读笔记(m-RNN) 简介 题目 Explain Images with Multimodal Recurrent Neural Networks 作者 Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090 原文链接 http://arxiv.org/pdf/1410.1090.pdf 关键词 m-RNN、…...

4核8G服务器价格选择轻量还是CVM合适?

腾讯云服务器4核8G配置优惠价格表,轻量应用服务器和CVM云服务器均有活动,云服务器CVM标准型S5实例4核8G配置价格15个月1437.3元,5年6490.44元,轻量应用服务器4核8G12M带宽一年446元、529元15个月,腾讯云百科txybk.com分…...

Selenium操作已经打开的Chrome浏览器窗口

Selenium操作已经打开的Chrome浏览器窗口 0. 背景 在使用之前的代码通过selenium操作Chrome浏览器时,每次都要新打开一个窗口,觉得麻烦,所以尝试使用 Selenium 获取已经打开的浏览器窗口,在此记录下过程 本文使用 chrome浏览器来…...

创新研报|新业务发展是CEO推动企业增长的必要选择 – Mckinsey研究

🔍📈 创新研究报告 |新业务拓展:CEO推动企业成长的必然选择 – 麦肯锡研究 🔥💼 所有执行长和商界领袖请注意!您是否正在寻找为您的组织释放成长机会的钥匙? 🌐 麦肯锡最近的一份研究…...

rv1126-rv1109-openssh

这是一个工具,可以通过ssh远程登录来操作,非常逆天! 于是rv1109代码自身自带有openssh 所以只需要打开config即可 diff --git a/buildroot/configs/rockchip_rv1126_rv1109_spi_nand_defconfig b/buildroot/configs/rockchip_rv1126_rv1109…...

MySQL中json类型,你使用过吗

在最近的项目开发过程中,遇到了消息发送内容以Map形式存储的情况。最初的解决方案是将对象转换为字符串,并存储在MySQL的varchar(3000)字段中。然而,由于对存储空间的限制,不得不寻找其他解决方案。在调研中发现,从MyS…...

MATLAB 状态空间设计 —— LQG/LQR 和极点配置算法

系列文章目录 文章目录 系列文章目录前言一、相关函数 —— LQG/LQR 和极点配置算法1.1 LQR —— lqr 函数1.1.1 函数用法1.1.2 举例1.1.2.1 倒摆模型的 LQR 控制 1.2 LQG —— lqg() 函数1.2.1 函数用法1.2.2 举例 1.3 极点配置 —— place() 函数1.3.1 函数用法1.3.2 示例1.3…...

杭州-区块链前瞻性论坛邀请函​

2023密码与安全前瞻性论坛邀请函 生成合法节点或非法节点,测试共识协议...

ElasticSearch学习篇6_ES实践与Lucene对比及原理分析技术分享小记

前言 QBM、MFS的试题检索、试题查重、公式转换映射等业务场景以及XOP题库广泛使用搜索中间件,业务场景有着数据量大、对内容搜索性能要求高等特点,其中XOP题库数据量更是接近1亿,对检索性能以及召回率要求高。目前QBM、MFS使用的搜索中间件是…...

mysql练习1

-- 1.查询出部门编号为BM01的所有员工 SELECT* FROMemp e WHEREe.deptno BM01; -- 2.所有销售人员的姓名、编号和部门编号。 SELECTe.empname,e.empno,e.deptno FROMemp e WHEREe.empstation "销售人员";-- 3.找出奖金高于工资的员工。 SELECT* FROMemp2 WHE…...

【2017年数据结构真题】

请设计一个算法,将给定的表达式树(二叉树)转换成等价的中缀表达式(通过括号反映次序),并输出。例如,当下列两棵表达式树作为算法的输入时: 输出的等价中缀表达式分别为(ab)(a(-d)) 和…...

神辅助 Cursor 编辑器,加入 GPT-4 让编码更轻松!

分类 互联网 在 ChatGPT 问世之前,我们的编码方式很多时候都是面向搜索引擎编码,需要不断地进行搜索,然后复制粘贴,俗称复制粘贴工程师。 但是,随着ChatGPT的出现,这一切将彻底改变。 ChatGPT 是一种基于…...

解决Qt5.13.0无MySQL驱动问题

一、前言 由于Qt5.12.3是最后提供mysql数据库插件的版本,往后的版本需要自行编译对应的mysql数据库插件,官方安装包不再提供。使用高版本的Qt就需要自行编译mysql驱动。 若没有编译在QT中调用Qsqldatabase库连接mysql时,提示出现如下问题&a…...

YOLOv8改进 | 如何在网络结构中添加注意力机制、C2f、卷积、Neck、检测头

一、本文介绍 本篇文章的内容是在大家得到一个改进版本的C2f一个新的注意力机制、或者一个新的卷积模块、或者是检测头的时候如何替换我们YOLOv8模型中的原有的模块,从而用你的模块去进行训练模型或者检测。因为最近开了一个专栏里面涉及到挺多改进的地方&#xff…...

记录一个困难

Mysql加插件 create table tb_xuesheng1 as select * from tb_xuesheng; 会报如下错误 SQL 错误 [3185] [HY000]: Cant find master key from keyring, please check in the server log if a keyring is loaded and initialized successfully.当我去搜寻答案网上都说缺少插件…...

Linux 进程管理 实时调度类及SMP和NUMA

文章目录 一、 实时调度类分析1.1 实时调度实体sched_rt_entity数据结构1.2 实时调度类rt_sched_class数据结构1.3 实时调度类功能函数 二、SMP和NUMA2.1 SMP(多对称处理器结构,UMA)2.2 NUMA(非一致内存访问结构)2.3 C…...

线性表--链表-1

文章目录 主要内容一.链表练习题1.设计一个递归算法,删除不带头结点的单链表 L 中所有值为 X 的结点代码如下(示例): 2.设 L为带头结点的单链表,编写算法实现从尾到头反向输出每个结点的值代码如下(示例): …...

WPF小知识

在编写WPF程序遇到一些小问题&#xff0c;所以记录起来&#xff0c;查其他方便。 Label自动换行 网上搜的都不能自动换行&#xff0c;发现使用Run 就可以。在脚本中直接调用labTip.Text进行赋值就可以了。 <Label Foreground"#FF9E9E9E" FontSize"16"…...

坐标系下的运动旋量转换

坐标系下的运动旋量转换 文章目录 坐标系下的运动旋量转换前言一、运动旋量物体运动旋量空间运动旋量 二、伴随变换矩阵三、坐标系下运动旋量的转换四、力旋量五、总结参考资料 前言 对于刚体而言&#xff0c;其角速度可以写为 ω ^ θ ˙ \hat {\omega} \dot \theta ω^θ˙&…...

Android Termux安装MySQL,通过内网穿透实现公网远程访问

&#x1f525;博客主页&#xff1a; 小羊失眠啦. &#x1f516;系列专栏&#xff1a; C语言、Linux、Cpolar ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 文章目录 前言1.安装MariaDB2.安装cpolar内网穿透工具3. 创建安全隧道映射mysql4. 公网远程连接5. 固定远程连接地址 前…...

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧 一、链表基础概念与内核链表优势1.1 为什么使用链表&#xff1f;1.2 Linux 内核链表与用户态链表的区别 二、内核链表结构与宏解析常用宏/函数 三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

Spark 之 入门讲解详细版(1)

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室&#xff08;Algorithms, Machines, and People Lab&#xff09;开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目&#xff0c;8个月后成为Apache顶级项目&#xff0c;速度之快足见过人之处&…...

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装&#xff08;Encapsulation&#xff09; 定义&#xff1a;将数据&#xff08;属性&#xff09;和操作数据的方法绑定在一起&#xff0c;通过访问控制符&#xff08;private、protected、public&#xff09;隐藏内部实现细节。示例&#xff1a; public …...

【Oracle APEX开发小技巧12】

有如下需求&#xff1a; 有一个问题反馈页面&#xff0c;要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据&#xff0c;方便管理员及时处理反馈。 我的方法&#xff1a;直接将逻辑写在SQL中&#xff0c;这样可以直接在页面展示 完整代码&#xff1a; SELECTSF.FE…...

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

C++.OpenGL (10/64)基础光照(Basic Lighting)

基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

Maven 概述、安装、配置、仓库、私服详解

目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...

Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南&#xff1a;Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问&#xff08;基础概念问题&#xff09; 1. 请解释Spring框架的核心容器是什么&#xff1f;它在Spring中起到什么作用&#xff1f; Spring框架的核心容器是IoC容器&#…...

深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识蒸馏

一、引言 在深度学习中&#xff0c;我们训练出的神经网络往往非常庞大&#xff08;比如像 ResNet、YOLOv8、Vision Transformer&#xff09;&#xff0c;虽然精度很高&#xff0c;但“太重”了&#xff0c;运行起来很慢&#xff0c;占用内存大&#xff0c;不适合部署到手机、摄…...

leetcode73-矩阵置零

leetcode 73 思路 记录 0 元素的位置&#xff1a;遍历整个矩阵&#xff0c;找出所有值为 0 的元素&#xff0c;并将它们的坐标记录在数组zeroPosition中置零操作&#xff1a;遍历记录的所有 0 元素位置&#xff0c;将每个位置对应的行和列的所有元素置为 0 具体步骤 初始化…...