论文阅读:通过时空生成卷积网络合成动态模式(重点论文)
原文链接
github code
介绍视频
视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布,对数概率由时空ConvNet定义,该网络由多层时空滤波器组成,用于捕获不同尺度的时空模式。 该模型可以通过迭代以下两个步骤的“综合分析”学习算法从训练视频序列中学习。 步骤 1 从当前学习的模型合成视频序列。 步骤 2 然后根据合成视频序列和观察到的训练序列之间的差异更新模型参数。 我们证明了学习算法可以合成真实的动态模式。
1. Introduction
视频序列中有各种各样的动态模式,包括在时间维度上表现出统计平稳性或随机重复性的动态纹理 [2] 或纹理运动 [24],以及在空间或时间域中非平稳的动作模式 。 综合和分析这种动态模式一直是一个有趣的问题。 在本文中,我们重点关注使用生成版本的卷积神经网络(ConvNet 或 CNN)合成动态模式的任务。
ConvNet [14, 12] 已被证明是一种非常成功的判别学习机器。 ConvNet 中的卷积运算特别适合图像、视频和声音等在空间域或时间域或两者中表现出平移不变性的信号。 最近,研究人员对ConvNet的生成方面越来越感兴趣,目的是可视化ConvNet学到的知识,或者合成现实信号,或者开发可用于无监督学习的生成模型。
在合成方面,人们提出了各种基于ConvNet的方法来合成逼真的静态图像[3,7,1,13,16]。 然而,文献中关于基于ConvNet合成动态模式的工作并不多,这也是本文的重点。
具体来说,我们建议通过推广[29]最近提出的生成式ConvNet模型来合成动态模式。 生成式ConvNet 可以从判别式ConvNet 推导出来。 它是一个随机场模型或基于能量的模型[15, 20],采用参考分布的指数倾斜形式,例如高斯白噪声分布或均匀分布。 指数倾斜由 ConvNet 参数化,该网络涉及多层线性滤波器和修正线性单元 (ReLU) [12],旨在捕获不同尺度的特征或模式。
生成式ConvNet可以通过Langevin动力学进行采样。 该模型可以通过随机梯度算法来学习[31]。 这是一种“综合分析”方案,旨在将朗之万动力学生成的合成信号与观察到的训练信号相匹配。 具体来说,学习算法在初始化参数和合成信号后迭代以下两个步骤。 步骤 1 通过从当前学习模型中采样的 Langevin 动力学更新合成信号。 然后,步骤 2 根据合成数据和观测数据之间的差异更新参数,以便将模型的密度从合成数据转向观测数据。 [29]表明学习算法可以合成真实的空间图像模式,例如纹理和物体。
在本文中,我们通过添加时间维度来概括空间生成式 ConvNet,以便生成的 ConvNet 由多层时空滤波器组成,这些滤波器旨在捕获各种尺度的时空模式。 我们证明了用于训练时空生成卷积网络的学习算法可以合成真实的动态模式。 我们还表明,可以从具有遮挡像素或丢失帧的不完整视频序列中学习模型,从而可以同时完成模型学习和模式完成.
2.相关工作
我们的工作是通过添加时间维度对[29]的生成ConvNet模型进行推广。 [29]没有研究动态模式,例如视频序列中的动态模式。 [11] 使用时空判别式 ConvNet 来分析视频数据。 [29] 研究了判别式 ConvNet 和生成式 ConvNet 之间的联系。
[2,24,25,9]已经研究了动态纹理或纹理运动。 例如,[2]提出了一种向量自回归模型,并通过单值分解进行逐帧降维。 它是具有高斯创新的线性模型。 [24]提出了一种基于帧稀疏线性表示的动态模型。 有关动态纹理的最新评论,请参阅[30]。 时空生成ConvNet是一种非线性和非高斯模型,预计可以通过多层非线性时空滤波器更灵活地捕获动态纹理中的复杂时空模式。
最近[23]推广了生成对抗网络[6]来模拟动态模式。 我们的模型是一个基于能量的模型,它也有对抗性的解释。 详细信息请参见第 3.4 节。
对于时态数据,流行的模型是循环神经网络 [27, 10]。 它是一个因果模型,需要一个起始框架。 相比之下,我们的模型是非因果的,并且不需要起始框架。 与循环网络相比,我们的模型在捕获多个时间尺度的时间模式方面更加方便和直接。
3. Spatial-temporal generative ConvNet
3.3. Sampling and learning algorith
该期望可以通过朗之万动力学产生的蒙特卡罗样本[31]来近似。 有关学习和采样算法的说明,请参阅算法 1。 该算法不断从当前模型合成图像序列,并更新模型参数,以便将合成的图像序列与观察到的图像序列进行匹配。 学习算法不断将模型的概率密度或低能量区域从合成数据转向观察数据
在学习算法中,朗之万采样步骤涉及∂f(I;w)/∂I的计算,参数更新步骤涉及∂f(I;w)/∂w的计算。 由于f(I; w)的ConvNet结构,两个梯度都可以通过反向传播来有效计算,并且两个梯度在反向传播中共享大部分链式规则计算。 就 MCMC 采样而言,朗之万动力学从不断变化的分布中采样,因为 w (t) 不断变化。 因此,学习和采样算法运行非平稳链。
4.实验
可看 http://www.stat.ucla.edu/~jxie/STGConvNet/STGConvNet.html
相关文章:

论文阅读:通过时空生成卷积网络合成动态模式(重点论文)
原文链接 github code 介绍视频 视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布࿰…...
html2canvas+jsPDF导出超长网页的PDF
项目需求:有一个网页大概60000px的高度,现在需要导出为PDF index.vue <template><div class"ctn"><div class"pdf-ctn"><div class"pdf-panel" ><div class"pdf-inside-panel" id"myList">&…...

云计算:OpenStack 分布式架构管理VXLAN网络(单控制节点与多计算节点)
目录 一、实验 1.环境 2.各节点新增网卡准备VXLAN网络 3.控制节点配置私有网络 4.计算节点1配置私有网络 5.计算节点2配置私有网络 6.重启服务 7.修改Dashboard 8.新建项目(租户)及用户 9.新建网络与子网 10.新建实例 11.新建路由 12.新增浮…...
MATLAB --- dlmread( )函数的用法
dlmread() 是 MATLAB 中用于读取以特定分隔符分隔的文本文件数据的函数 下面是 dlmread() 函数的用法: M dlmread(filename) M dlmread(filename, delimiter) M dlmread(filename, delimiter, R, C) M dlmread(filename, delimiter, range)参数说明࿱…...

STM32CubeMX RS485接口使用
一、基本知识 TTL(Transistor-Transistor Logic): 电平范围: 逻辑1对应于2.4V–5V,逻辑0对应于0V–0.5V。通信特点: 全双工。特点: 常见于单片机和微控制器的IO电平,USB转TTL模块通常…...
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
文章目录 PostgreSQL创建一张表实施细节用法示例 资料分享参考文章 PostgreSQL PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询. 创建一张表 CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster] (name…...

R304S 指纹识别模块功能实现示例
1 基本通信流程 1.1 UART 命令包的处理过程 1.2 UART 数据包的发送过程 UART 传输数据包前,首先要接收到传输数据包的指令包,做好传输准备后发送成功应答包,最后才开始传输数据包。数据包主要包括:包头、设备地址、包标识、包长…...

2、Excel:基础概念、表格结构与常见函数
数据来源:八月成交数据 数据初探 业务背景 数据来源行业:金融行业(根据应收利息和逾期金额字段来判断) 可以猜测: 业务主体:某互联网金融公司(类似支付宝)也业务模式:给…...

鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法
一、介绍 鱼类识别系统。使用Python作为主要编程语言开发,通过收集常见的30种鱼类(‘墨鱼’, ‘多宝鱼’, ‘带鱼’, ‘石斑鱼’, ‘秋刀鱼’, ‘章鱼’, ‘红鱼’, ‘罗非鱼’, ‘胖头鱼’, ‘草鱼’, ‘银鱼’, ‘青鱼’, ‘马头鱼’, ‘鱿鱼’, ‘鲇…...

ThreadLocal线程重用导致用户信息错乱的 Bug
在生产上遇到一个诡异的问题,有时获取到的用户信息是别人的。查看代码后,我发现他使用了 ThreadLocal 来缓存获取到的用户信息。 我们知道,ThreadLocal 适用于变量在线程间隔离,而在方法或类间共享的场景。如果用户信息的获取比较…...
洛谷——P1143 进制转换
文章目录 一、题目进制转换题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 二、题解基本思路: 一、题目 进制转换 题目描述 请你编一程序实现两种不同进制之间的数据转换。 输入格式 共三行,第一行是一个正整数,表示需要转换的…...
linux stop_machine 停机机制应用及一次触发 soft lockup 分析
文章目录 stop_mchine 引起的 soft lockup触发 soft lockup 原因分析(一):触发 soft lockup 原因分析(二)触发 soft lockup 原因分析(三) stop_mchine 引起的 soft lockup 某次在服务器上某节点…...
ARM 链接器优化功能介绍
消除公共部分组 链接器可以检测节组的多个副本,并丢弃其他副本。 Arm Compiler for Embedded 生成用于链接的完整对象。因此: 如果 C 和 C 源代码中存在内联函数,则每个对象都包含该对象所需的内联函数的外联副本。如果在 C 源代码中使用…...

动手学深度学习之卷积神经网络之池化层
池化层 卷积层对位置太敏感了,可能一点点变化就会导致输出的变化,这时候就需要池化层了,池化层的主要作用就是缓解卷积层对位置的敏感性 二维最大池化 这里有一个窗口,来滑动,每次我们将窗口中最大的值给拿出来 还是上…...

HackTheBox - Medium - Linux - Ambassador
Ambassador Ambassador 是一台中等难度的 Linux 机器,用于解决硬编码的明文凭据留在旧版本代码中的问题。首先,“Grafana”CVE (“CVE-2021-43798”) 用于读取目标上的任意文件。在研究了服务的常见配置方式后,将在其…...

嵌入式——循环队列
循环队列 (Circular Queue) 是一种数据结构(或称环形队列、圆形队列)。它类似于普通队列,但是在循环队列中,当队列尾部到达数组的末尾时,它会从数组的开头重新开始。这种数据结构通常用于需要固定大小的队列,例如计算机内存中的缓冲区。循环队列可以通过数组或链表实现,…...

2024.1.7-实战-docker方式给自己网站部署prometheus监控ecs资源使用情况-2024.1.7(测试成功)
实战-docker方式给自己网站部署prometheus监控ecs资源使用情况-2024.1.7(测试成功) 目录 最终效果 原文链接 https://onedayxyy.cn/docs/prometheus-grafana-ecs 参考模板 https://i4t.com/ https://grafana.frps.cn 🔰 额,注意哦: 他这个是通过frp来…...
20240107 SQL基础50题打卡
20240107 SQL基础50题打卡 1978. 上级经理已离职的公司员工 表: Employees ----------------------- | Column Name | Type | ----------------------- | employee_id | int | | name | varchar | | manager_id | int | | salary | int | -…...
阿里云公网带宽出网和入网是什么?上行和下行是什么?
什么是阿里云服务器ECS的入网带宽和出网带宽?以云服务器为中心,流入云服务器占用的带宽是入网带宽,流量从云服务器流出的带宽是出网带宽。阿里云服务器网aliyunfuwuqi.com分享入网带宽和出网带宽说明表: 带宽类别说明入网带宽&am…...
eureka工作原理是什么
EUREKA 是一个基于 RESTful 风格的服务发现系统,它主要用于帮助实现在微服务架构中的服务自动发现与注册。其工作原理主要包括以下几个步骤: 注册中心:EUREKA 中有一个集中的注册中心,所有的服务都将在此注册和发现。注册中心可以…...

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型
摘要 拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 向量 HNSW)并以大语言模型兜底”的整体框架: 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用…...

python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

css实现圆环展示百分比,根据值动态展示所占比例
代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

视频字幕质量评估的大规模细粒度基准
大家读完觉得有帮助记得关注和点赞!!! 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用,因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型(VLMs)在字幕生成方面…...
【python异步多线程】异步多线程爬虫代码示例
claude生成的python多线程、异步代码示例,模拟20个网页的爬取,每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程:允许程序同时执行多个任务,提高IO密集型任务(如网络请求)的效率…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...

ArcGIS Pro制作水平横向图例+多级标注
今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作:ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等(ArcGIS出图图例8大技巧),那这次我们看看ArcGIS Pro如何更加快捷的操作。…...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...
MySQL账号权限管理指南:安全创建账户与精细授权技巧
在MySQL数据库管理中,合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。 一、为何需要创建独立账号? 最小权限原则…...

云原生玩法三问:构建自定义开发环境
云原生玩法三问:构建自定义开发环境 引言 临时运维一个古董项目,无文档,无环境,无交接人,俗称三无。 运行设备的环境老,本地环境版本高,ssh不过去。正好最近对 腾讯出品的云原生 cnb 感兴趣&…...