当前位置：首页 > news >正文

（论文阅读40-45）图像描述1

news 2026/2/9 18:25:26

40.文献阅读笔记（m-RNN）
简介	题目	Explain Images with Multimodal Recurrent Neural Networks
	作者	Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090
	原文链接	http://arxiv.org/pdf/1410.1090.pdf
	关键词	m-RNN、multimodal
	研究问题	研究问题：解释图像内容；图像和句子检索。以前的方法思路：看做句子和图像之间的检索问题。给定句子（图像）查询相应的图像（句子）。具体实施方法：对句子和图像都提取特征，并且将其映射到相同的语义嵌入空间。缺点：这样的方法对新图像的描述能力弱。（不在数据库中的句子、图像无法查询，或者查询结果不准确）针对这一任务，通常有两类方法。第一类假定有特定的语言语法规则。它们解析句子并将其分为几个部分。然后将每个部分与图像中的对象或属性关联起来（例如，使用条件随机场模型，使用马尔可夫随机场模型）。这类方法生成的句子在语法上是正确的。另一类方法与我们的方法更为相关，它们利用深度玻尔兹曼机和主题模型等，学习多模态输入（即句子和图像）空间的概率密度。与第一种方法相比，它们能生成结构更丰富、更灵活的句子。给定相应图像生成句子的概率可作为检索的亲和度指标。
	研究方法	多模态循环神经网络（m-RNN）：该模型直接模拟了在给定先前单词和图像的情况下生成单词的概率分布。图像描述就是从这个分布中采样生成的。该模型由两个子网络组成：用于句子的深度递归神经网络和用于图像的深度卷积网络。这两个子网络在多模态层中相互作用，形成整个 m-RNN 模型。 The whole m-RNN architecture contains a language model part, an image part and a multimodal part. The language model part learns the dense feature embedding for each word in the dictionary and stores the semantic temporal context in recurrent layers. The image part contains a deep Convulutional Neural Network (CNN) [17] which extracts image features. The multimodal part connects the language model and the deep CNN together by a one-layer representation. 语言模型学习字典中每个词的稠密特征嵌入，并在recurrent layers中存储语义时间上下文（semantic temporal context）。图像部分包含提取图像特征的深度卷积神经网络( CNN )。多模态部分通过单层表示将语言模型和深度CNN连接在一起。损失函数：using a perplexity based cost function RNN在每个时间帧中有六个层：输入词层、两个词嵌入层、递归层、多模态层和 softmax 层
	研究结论	模型优于最先进的生成方法。此外，m-RNN 模型还可应用于检索图像或句子的任务，与直接优化检索排序目标函数的先进方法相比，其性能有了显著提高。模型是可扩展的，并且有潜力通过为图像和句子整合更强大的深度网络来进一步改进。
	创新不足
	额外知识	递归神经网络：【神经网络】递归神经网络 - 知乎 (zhihu.com) 模型必须能够按照树结构去处理信息，而不是序列（循环神经网络），这就是递归神经网络的作用。

41.文献阅读笔记
简介	题目	Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
	作者	Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel, arXiv:1411.2539.
	原文链接	http://arxiv.org/pdf/1411.2539.pdf
	关键词	Visual-Semantic
	研究问题	图像描述
	研究方法	编码器：深度卷积网络( CNN )和长短期记忆循环网络( LSTM )，用于学习图像-句子的联合嵌入。解码器：一种新的神经语言模型，它将结构向量和内容向量结合起来，用于每次依次生成单词。解码器补充：引入了一种新的神经语言模型，称为结构-内容神经语言模型（SC-NLM）。SC-NLM 与现有模型的不同之处在于，它以编码器产生的分布式表征为条件，将句子的结构与内容割裂开来。结构变量有助于引导模型生成短语，可以看作是一个软模板，有助于避免模型生成语法废话。 SC-NLM 可以仅根据文本进行训练。这样，我们就可以利用大量的单语文本（如非图像标题）来提高语言模型的质量。编码器为我们提供了一种对图像和标题进行排序并开发良好评分函数的方法，而解码器则可以使用所学到的表征来优化评分函数，从而生成新的描述并对其进行评分。
	研究结论	最先进的性能
	创新不足
	额外知识	Lstm：包含一个内置的记忆单元，用于存储信息和利用远距离上下文。LSTM 存储单元周围有门控单元，用于读写和重置信息。

42.文献阅读笔记（LRCN）
简介	题目	Long-term Recurrent Convolutional Networks for Visual Recognition and Description
	作者	Jeff Donahue, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini Venugopalan, Kate Saenko, Trevor Darrel l, arXiv:1411.4389.
	原文链接	http://arxiv.org/pdf/1411.4389.pdf
	关键词	recurrent convolutional
	研究问题	描述了一类可端到端训练且适用于大规模视觉理解任务的递归卷积架构，并展示了这些模型在活动识别、图像标题和视频描述方面的价值。递归卷积模型则是 "双重深度 "的，因为它们学习空间和时间的组合表征。当非线性因素被纳入网络状态更新时，学习长期依赖关系就成为可能。可微分递归模型的吸引力在于，它们可以将可变长度的输入（如视频）直接映射到可变长度的输出（如自然语言文本），并能模拟复杂的时间动态；同时，它们还能通过反向传播进行优化。有关用于视频处理的 CNN 模型的研究已经考虑了在原始序列数据上学习三维时空滤波器，以及在固定窗口或视频镜头片段上学习帧到帧表示，其中包含了瞬时光流或基于轨迹的聚合模型。这些模型探索了感知时间序列表征学习的两个极端：要么学习完全通用的时变加权，要么应用简单的时间池。
	研究方法	主张视频识别和描述模型也应在时间维度上进行深度学习，即潜在变量具有时间递归性。 LSTM 单元的隐藏状态使用非线性机制进行增强，允许状态在不修改的情况下传播、更新或重置，使用的是简单的学习门控函数。应用于时变输入和输出的愿望不断增长的架构
	研究结论	证明 LSTM 类型的模型可以提高传统视频活动挑战的识别率，并实现从图像像素到句子级自然语言描述的新颖端到端优化映射。我们还表明，这些模型改进了从传统视觉模型衍生的中间视觉表征中生成描述的能力。
	创新不足
	额外知识	CRF：条件随机场

43.文献阅读笔记
简介	题目	Show and Tell: A Neural Image Caption Generator
	作者	Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan
	原文链接	http://arxiv.org/pdf/1411.4555.pdf
	关键词
	研究问题	图像描述想回答诸如"数据集大小如何影响泛化"、"它将能够实现什么样的迁移学习"、"它将如何处理弱标记样本"等问题。
	研究方法	CNN（图像的表示）+LSTM（联系前后输入）介绍了 NIC，这是一个端到端神经网络系统，可以自动查看图像并生成通俗易懂的合理描述。NIC 以卷积神经网络为基础，将图像编码为紧凑的表示形式，然后由递归神经网络生成相应的句子。对模型的训练是为了最大限度地提高给定图像的句子的可能性。利用一个循环神经网络将可变长度的输入编码为固定维度的向量，并使用这种表示将其"解码"到期望的输出句子。
	研究结论	随着图像描述可用数据集规模的扩大，NIC 等方法的性能也将随之提高。此外，如何利用来自图像和文本的无监督数据来改进图像描述方法也将是一个有趣的课题。
	创新不足
	额外知识	None

44.文献阅读笔记
简介	题目	Deep Visual-Semantic Alignments for Generating Image Description
	作者	Andrej Karpathy, Li Fei-Fei, CVPR, 2015.
	原文链接	http://cs.stanford.edu/people/karpathy/cvpr2015.pdf
	关键词	对图像内容进行密集注释。
	研究问题	提出了一种生成图像及其区域的自然语言描述的模型。以往视觉识别领域的大部分工作都集中在用一组固定的视觉类别标记图像上，这些工作已经取得了很大的进展。然而，尽管封闭的视觉概念词汇表构成了一种方便的建模假设，但与人类所能编写的大量丰富描述相比，它们具有极大的局限性。针对生成图像描述的挑战，已经开发出了一些开创性的方法。然而，这些模型通常依赖于硬编码的视觉概念和句子模板，这就限制了它们的多样性。此外，这些工作的重点是将复杂的视觉场景还原成一个句子，而我们认为这是不必要的限制。
	研究方法	利用图像及其句子描述的数据集来学习语言和视觉数据之间的模态间对应关系。基于图像区域上的卷积神经网络，句子上的双向循环神经网络和通过多模态嵌入对齐两个模态的结构化目标的新颖组合。描述了一种多模态循环神经网络架构，该架构使用推断的对齐来学习生成新的图像区域描述。输入->推断->输出
	研究结论
	创新不足
	额外知识	双向递归神经网络（Bidirectional Recurrent Neural Network，BRNN）:来计算单词表示。双向递归神经网络采用 N 个单词序列（以 1-k 表示法编码），并将每个单词转换为 h 维向量。不过，每个单词的表征都会被该单词周围大小不一的上下文所丰富。

45.文献阅读笔记
简介	题目	Translating Videos to Natural Language Using Deep Recurrent Neural Networks
	作者	Subhashini Venugopalan, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond Mooney, Kate Saenko, NAACL-HLT, 2015.
	原文链接	http://arxiv.org/pdf/1412.4729.pdf
	关键词	视频翻译
	研究问题	将视频直接翻译成句子.描述的视频数据集稀缺，现有的大多数方法已被应用于可能词汇量较小的玩具领域。人们已经提出了针对具有一小部分已知动作和对象的狭窄领域的解决方案.
	研究方法	同时具有卷积和循环结构的统一深度神经网络将视频直接翻译成句子。该网络在 120 多万张带有类别标签的图像上进行了预先训练. 他们将其模型的一个版本应用于视频到文本的生成，但没有提出端到端的单一网络，而是使用了中间角色表示。利用长短期记忆（LSTM）递归神经网络来建立序列动态模型，但将其直接连接到深度卷积神经网络来处理传入的视频帧，从而完全避免了监督中间表征。
	研究结论	提出了一种用于视频描述的模型，该模型使用神经网络从像素到句子的整个流水线，并且可以潜在地允许整个网络的训练和调整。在一个广泛的实验评估中，我们表明我们的方法比相关的方法生成更好的句子。我们还表明，与仅依赖视频描述数据相比，利用图像描述数据可以提高性能。然而，我们的方法在更好地利用视频中的时间信息方面存在不足
	创新不足	每帧都进行卷积处理,运算量太大.
	额外知识

（论文阅读40-45）图像描述1

40.文献阅读笔记（m-RNN） 简介题目 Explain Images with Multimodal Recurrent Neural Networks 作者 Junhua Mao, Wei Xu, Yi Yang, Jiang Wang, Alan L. Yuille, arXiv:1410.1090 原文链接 http://arxiv.org/pdf/1410.1090.pdf 关键词 m-RNN、…...

编程日记 2023/11/20 4:50:02

4核8G服务器价格选择轻量还是CVM合适？

腾讯云服务器4核8G配置优惠价格表，轻量应用服务器和CVM云服务器均有活动，云服务器CVM标准型S5实例4核8G配置价格15个月1437.3元，5年6490.44元，轻量应用服务器4核8G12M带宽一年446元、529元15个月，腾讯云百科txybk.com分…...

编程日记 2023/11/20 4:49:00

Selenium操作已经打开的Chrome浏览器窗口

Selenium操作已经打开的Chrome浏览器窗口 0. 背景在使用之前的代码通过selenium操作Chrome浏览器时，每次都要新打开一个窗口，觉得麻烦，所以尝试使用 Selenium 获取已经打开的浏览器窗口，在此记录下过程本文使用 chrome浏览器来…...

编程日记 2023/11/20 4:47:57

创新研报｜新业务发展是CEO推动企业增长的必要选择 – Mckinsey研究

🔍📈 创新研究报告 |新业务拓展：CEO推动企业成长的必然选择 – 麦肯锡研究 🔥💼 所有执行长和商界领袖请注意！您是否正在寻找为您的组织释放成长机会的钥匙？ 🌐 麦肯锡最近的一份研究…...

编程日记 2023/11/20 4:46:55

rv1126-rv1109-openssh

这是一个工具，可以通过ssh远程登录来操作，非常逆天！ 于是rv1109代码自身自带有openssh 所以只需要打开config即可 diff --git a/buildroot/configs/rockchip_rv1126_rv1109_spi_nand_defconfig b/buildroot/configs/rockchip_rv1126_rv1109…...

编程日记 2023/11/20 4:45:54

MySQL中json类型，你使用过吗

在最近的项目开发过程中，遇到了消息发送内容以Map形式存储的情况。最初的解决方案是将对象转换为字符串，并存储在MySQL的varchar(3000)字段中。然而，由于对存储空间的限制，不得不寻找其他解决方案。在调研中发现，从MyS…...

编程日记 2023/11/20 4:44:53

MATLAB 状态空间设计 —— LQG/LQR 和极点配置算法

系列文章目录文章目录系列文章目录前言一、相关函数 —— LQG/LQR 和极点配置算法1.1 LQR —— lqr 函数1.1.1 函数用法1.1.2 举例1.1.2.1 倒摆模型的 LQR 控制 1.2 LQG —— lqg() 函数1.2.1 函数用法1.2.2 举例 1.3 极点配置 —— place() 函数1.3.1 函数用法1.3.2 示例1.3…...

编程日记 2023/11/20 4:43:52

杭州-区块链前瞻性论坛邀请函

2023密码与安全前瞻性论坛邀请函生成合法节点或非法节点，测试共识协议...

编程日记 2023/11/20 4:42:50

ElasticSearch学习篇6_ES实践与Lucene对比及原理分析技术分享小记

前言 QBM、MFS的试题检索、试题查重、公式转换映射等业务场景以及XOP题库广泛使用搜索中间件，业务场景有着数据量大、对内容搜索性能要求高等特点，其中XOP题库数据量更是接近1亿，对检索性能以及召回率要求高。目前QBM、MFS使用的搜索中间件是…...

编程日记 2023/11/20 4:40:48

mysql练习1

-- 1.查询出部门编号为BM01的所有员工 SELECT* FROMemp e WHEREe.deptno BM01; -- 2.所有销售人员的姓名、编号和部门编号。 SELECTe.empname,e.empno,e.deptno FROMemp e WHEREe.empstation "销售人员";-- 3.找出奖金高于工资的员工。 SELECT* FROMemp2 WHE…...

编程日记 2023/11/20 4:39:47

【2017年数据结构真题】

请设计一个算法，将给定的表达式树（二叉树）转换成等价的中缀表达式（通过括号反映次序），并输出。例如，当下列两棵表达式树作为算法的输入时： 输出的等价中缀表达式分别为(ab)(a(-d)) 和…...

编程日记 2023/11/20 4:37:44

神辅助 Cursor 编辑器，加入 GPT-4 让编码更轻松！

分类互联网在 ChatGPT 问世之前，我们的编码方式很多时候都是面向搜索引擎编码，需要不断地进行搜索，然后复制粘贴，俗称复制粘贴工程师。但是，随着ChatGPT的出现，这一切将彻底改变。 ChatGPT 是一种基于…...

编程日记 2023/11/20 4:36:44

解决Qt5.13.0无MySQL驱动问题

一、前言由于Qt5.12.3是最后提供mysql数据库插件的版本，往后的版本需要自行编译对应的mysql数据库插件，官方安装包不再提供。使用高版本的Qt就需要自行编译mysql驱动。若没有编译在QT中调用Qsqldatabase库连接mysql时，提示出现如下问题&a…...

编程日记 2023/11/20 4:34:42

YOLOv8改进 | 如何在网络结构中添加注意力机制、C2f、卷积、Neck、检测头

一、本文介绍本篇文章的内容是在大家得到一个改进版本的C2f一个新的注意力机制、或者一个新的卷积模块、或者是检测头的时候如何替换我们YOLOv8模型中的原有的模块，从而用你的模块去进行训练模型或者检测。因为最近开了一个专栏里面涉及到挺多改进的地方&#xff…...

编程日记 2023/11/20 4:33:41

记录一个困难

Mysql加插件 create table tb_xuesheng1 as select * from tb_xuesheng; 会报如下错误 SQL 错误 [3185] [HY000]: Cant find master key from keyring, please check in the server log if a keyring is loaded and initialized successfully.当我去搜寻答案网上都说缺少插件…...

编程日记 2023/11/20 4:31:39

Linux 进程管理实时调度类及SMP和NUMA

文章目录一、实时调度类分析1.1 实时调度实体sched_rt_entity数据结构1.2 实时调度类rt_sched_class数据结构1.3 实时调度类功能函数二、SMP和NUMA2.1 SMP（多对称处理器结构，UMA）2.2 NUMA（非一致内存访问结构）2.3 C…...

编程日记 2023/11/20 4:30:38

线性表--链表-1

文章目录主要内容一.链表练习题1.设计一个递归算法，删除不带头结点的单链表 L 中所有值为 X 的结点代码如下（示例）: 2.设 L为带头结点的单链表，编写算法实现从尾到头反向输出每个结点的值代码如下（示例）: …...

编程日记 2023/11/20 4:28:35

WPF小知识

在编写WPF程序遇到一些小问题，所以记录起来，查其他方便。 Label自动换行网上搜的都不能自动换行，发现使用Run 就可以。在脚本中直接调用labTip.Text进行赋值就可以了。 <Label Foreground"#FF9E9E9E" FontSize"16"…...

编程日记 2023/11/20 4:27:34

坐标系下的运动旋量转换

坐标系下的运动旋量转换文章目录坐标系下的运动旋量转换前言一、运动旋量物体运动旋量空间运动旋量二、伴随变换矩阵三、坐标系下运动旋量的转换四、力旋量五、总结参考资料前言对于刚体而言，其角速度可以写为 ω ^ θ ˙ \hat {\omega} \dot \theta ω^θ˙&…...

编程日记 2023/11/20 4:26:32

Android Termux安装MySQL，通过内网穿透实现公网远程访问

🔥博客主页： 小羊失眠啦. 🔖系列专栏： C语言、Linux、Cpolar ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录前言1.安装MariaDB2.安装cpolar内网穿透工具3. 创建安全隧道映射mysql4. 公网远程连接5. 固定远程连接地址前…...

编程日记 2023/11/20 4:25:30

通过Wrangler CLI在worker中创建数据库和表

官方使用文档：Getting started Cloudflare D1 docs 创建数据库在命令行中执行完成之后，会在本地和远程创建数据库： npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库： 现在，您的Cloudfla…...

编程新知 2026/1/31 6:18:08

Debian系统简介

目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍软件包管理工具dpkg dpkg核心指令详解安装软件包卸载软件包查询软件包状态验证软件包完整性手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核的 Linux 发行版&#xff…...

编程新知 2026/2/1 13:41:09

系统设计 --- MongoDB亿级数据查询优化策略

系统设计 --- MongoDB亿级数据查询分表策略背景Solution --- 分表背景使用audit log实现Audi Trail功能 Audit Trail范围: 六个月数据量: 每秒5-7条audi log，共计7千万 – 1亿条数据需要实现全文检索按照时间倒序因为license问题，不能使用ELK只能使用…...

编程新知 2026/1/4 3:47:09

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/9/20 4:34:47

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时，可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案： 1. 检查电源供电问题问题原因：多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

编程新知 2025/10/28 15:02:57

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/12/13 4:20:30

k8s业务程序联调工具-KtConnect

概述原理工具作用是建立了一个从本地到集群的单向VPN，根据VPN原理，打通两个内网必然需要借助一个公共中继节点，ktconnect工具巧妙的利用k8s原生的portforward能力，简化了建立连接的过程，apiserver间接起到了中继节…...

编程新知 2026/2/1 4:14:14

Golang——9、反射和文件操作

反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一：使用Read()读取文件2.3、方式二：bufio读取文件2.4、方式三：os.ReadFile读取2.5、写…...

编程新知 2026/1/30 6:20:08

Kubernetes 网络模型深度解析：Pod IP 与 Service 的负载均衡机制，Service到底是什么？

Pod IP 的本质与特性 Pod IP 的定位纯端点地址：Pod IP 是分配给 Pod 网络命名空间的真实 IP 地址（如 10.244.1.2）无特殊名称：在 Kubernetes 中，它通常被称为 “Pod IP” 或 “容器 IP”生命周期：与 Pod …...

编程新知 2025/11/4 22:48:45

git: early EOF

macOS报错： Initialized empty Git repository in /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/.git/ remote: Enumerating objects: 2691797, done. remote: Counting objects: 100% (1760/1760), done. remote: Compressing objects: 100% (636/636…...

编程新知 2025/10/12 2:03:36

相关文章：