论文阅读:通过时空生成卷积网络合成动态模式(重点论文)
原文链接
github code
介绍视频
视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布,对数概率由时空ConvNet定义,该网络由多层时空滤波器组成,用于捕获不同尺度的时空模式。 该模型可以通过迭代以下两个步骤的“综合分析”学习算法从训练视频序列中学习。 步骤 1 从当前学习的模型合成视频序列。 步骤 2 然后根据合成视频序列和观察到的训练序列之间的差异更新模型参数。 我们证明了学习算法可以合成真实的动态模式。
1. Introduction
视频序列中有各种各样的动态模式,包括在时间维度上表现出统计平稳性或随机重复性的动态纹理 [2] 或纹理运动 [24],以及在空间或时间域中非平稳的动作模式 。 综合和分析这种动态模式一直是一个有趣的问题。 在本文中,我们重点关注使用生成版本的卷积神经网络(ConvNet 或 CNN)合成动态模式的任务。
ConvNet [14, 12] 已被证明是一种非常成功的判别学习机器。 ConvNet 中的卷积运算特别适合图像、视频和声音等在空间域或时间域或两者中表现出平移不变性的信号。 最近,研究人员对ConvNet的生成方面越来越感兴趣,目的是可视化ConvNet学到的知识,或者合成现实信号,或者开发可用于无监督学习的生成模型。
在合成方面,人们提出了各种基于ConvNet的方法来合成逼真的静态图像[3,7,1,13,16]。 然而,文献中关于基于ConvNet合成动态模式的工作并不多,这也是本文的重点。
具体来说,我们建议通过推广[29]最近提出的生成式ConvNet模型来合成动态模式。 生成式ConvNet 可以从判别式ConvNet 推导出来。 它是一个随机场模型或基于能量的模型[15, 20],采用参考分布的指数倾斜形式,例如高斯白噪声分布或均匀分布。 指数倾斜由 ConvNet 参数化,该网络涉及多层线性滤波器和修正线性单元 (ReLU) [12],旨在捕获不同尺度的特征或模式。
生成式ConvNet可以通过Langevin动力学进行采样。 该模型可以通过随机梯度算法来学习[31]。 这是一种“综合分析”方案,旨在将朗之万动力学生成的合成信号与观察到的训练信号相匹配。 具体来说,学习算法在初始化参数和合成信号后迭代以下两个步骤。 步骤 1 通过从当前学习模型中采样的 Langevin 动力学更新合成信号。 然后,步骤 2 根据合成数据和观测数据之间的差异更新参数,以便将模型的密度从合成数据转向观测数据。 [29]表明学习算法可以合成真实的空间图像模式,例如纹理和物体。
在本文中,我们通过添加时间维度来概括空间生成式 ConvNet,以便生成的 ConvNet 由多层时空滤波器组成,这些滤波器旨在捕获各种尺度的时空模式。 我们证明了用于训练时空生成卷积网络的学习算法可以合成真实的动态模式。 我们还表明,可以从具有遮挡像素或丢失帧的不完整视频序列中学习模型,从而可以同时完成模型学习和模式完成.
2.相关工作
我们的工作是通过添加时间维度对[29]的生成ConvNet模型进行推广。 [29]没有研究动态模式,例如视频序列中的动态模式。 [11] 使用时空判别式 ConvNet 来分析视频数据。 [29] 研究了判别式 ConvNet 和生成式 ConvNet 之间的联系。
[2,24,25,9]已经研究了动态纹理或纹理运动。 例如,[2]提出了一种向量自回归模型,并通过单值分解进行逐帧降维。 它是具有高斯创新的线性模型。 [24]提出了一种基于帧稀疏线性表示的动态模型。 有关动态纹理的最新评论,请参阅[30]。 时空生成ConvNet是一种非线性和非高斯模型,预计可以通过多层非线性时空滤波器更灵活地捕获动态纹理中的复杂时空模式。
最近[23]推广了生成对抗网络[6]来模拟动态模式。 我们的模型是一个基于能量的模型,它也有对抗性的解释。 详细信息请参见第 3.4 节。
对于时态数据,流行的模型是循环神经网络 [27, 10]。 它是一个因果模型,需要一个起始框架。 相比之下,我们的模型是非因果的,并且不需要起始框架。 与循环网络相比,我们的模型在捕获多个时间尺度的时间模式方面更加方便和直接。
3. Spatial-temporal generative ConvNet
3.3. Sampling and learning algorith
该期望可以通过朗之万动力学产生的蒙特卡罗样本[31]来近似。 有关学习和采样算法的说明,请参阅算法 1。 该算法不断从当前模型合成图像序列,并更新模型参数,以便将合成的图像序列与观察到的图像序列进行匹配。 学习算法不断将模型的概率密度或低能量区域从合成数据转向观察数据

在学习算法中,朗之万采样步骤涉及∂f(I;w)/∂I的计算,参数更新步骤涉及∂f(I;w)/∂w的计算。 由于f(I; w)的ConvNet结构,两个梯度都可以通过反向传播来有效计算,并且两个梯度在反向传播中共享大部分链式规则计算。 就 MCMC 采样而言,朗之万动力学从不断变化的分布中采样,因为 w (t) 不断变化。 因此,学习和采样算法运行非平稳链。
4.实验
可看 http://www.stat.ucla.edu/~jxie/STGConvNet/STGConvNet.html
相关文章:
论文阅读:通过时空生成卷积网络合成动态模式(重点论文)
原文链接 github code 介绍视频 视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布࿰…...
html2canvas+jsPDF导出超长网页的PDF
项目需求:有一个网页大概60000px的高度,现在需要导出为PDF index.vue <template><div class"ctn"><div class"pdf-ctn"><div class"pdf-panel" ><div class"pdf-inside-panel" id"myList">&…...
云计算:OpenStack 分布式架构管理VXLAN网络(单控制节点与多计算节点)
目录 一、实验 1.环境 2.各节点新增网卡准备VXLAN网络 3.控制节点配置私有网络 4.计算节点1配置私有网络 5.计算节点2配置私有网络 6.重启服务 7.修改Dashboard 8.新建项目(租户)及用户 9.新建网络与子网 10.新建实例 11.新建路由 12.新增浮…...
MATLAB --- dlmread( )函数的用法
dlmread() 是 MATLAB 中用于读取以特定分隔符分隔的文本文件数据的函数 下面是 dlmread() 函数的用法: M dlmread(filename) M dlmread(filename, delimiter) M dlmread(filename, delimiter, R, C) M dlmread(filename, delimiter, range)参数说明࿱…...
STM32CubeMX RS485接口使用
一、基本知识 TTL(Transistor-Transistor Logic): 电平范围: 逻辑1对应于2.4V–5V,逻辑0对应于0V–0.5V。通信特点: 全双工。特点: 常见于单片机和微控制器的IO电平,USB转TTL模块通常…...
ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析
文章目录 PostgreSQL创建一张表实施细节用法示例 资料分享参考文章 PostgreSQL PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询. 创建一张表 CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster] (name…...
R304S 指纹识别模块功能实现示例
1 基本通信流程 1.1 UART 命令包的处理过程 1.2 UART 数据包的发送过程 UART 传输数据包前,首先要接收到传输数据包的指令包,做好传输准备后发送成功应答包,最后才开始传输数据包。数据包主要包括:包头、设备地址、包标识、包长…...
2、Excel:基础概念、表格结构与常见函数
数据来源:八月成交数据 数据初探 业务背景 数据来源行业:金融行业(根据应收利息和逾期金额字段来判断) 可以猜测: 业务主体:某互联网金融公司(类似支付宝)也业务模式:给…...
鱼类识别Python+深度学习人工智能+TensorFlow+卷积神经网络算法
一、介绍 鱼类识别系统。使用Python作为主要编程语言开发,通过收集常见的30种鱼类(‘墨鱼’, ‘多宝鱼’, ‘带鱼’, ‘石斑鱼’, ‘秋刀鱼’, ‘章鱼’, ‘红鱼’, ‘罗非鱼’, ‘胖头鱼’, ‘草鱼’, ‘银鱼’, ‘青鱼’, ‘马头鱼’, ‘鱿鱼’, ‘鲇…...
ThreadLocal线程重用导致用户信息错乱的 Bug
在生产上遇到一个诡异的问题,有时获取到的用户信息是别人的。查看代码后,我发现他使用了 ThreadLocal 来缓存获取到的用户信息。 我们知道,ThreadLocal 适用于变量在线程间隔离,而在方法或类间共享的场景。如果用户信息的获取比较…...
洛谷——P1143 进制转换
文章目录 一、题目进制转换题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 二、题解基本思路: 一、题目 进制转换 题目描述 请你编一程序实现两种不同进制之间的数据转换。 输入格式 共三行,第一行是一个正整数,表示需要转换的…...
linux stop_machine 停机机制应用及一次触发 soft lockup 分析
文章目录 stop_mchine 引起的 soft lockup触发 soft lockup 原因分析(一):触发 soft lockup 原因分析(二)触发 soft lockup 原因分析(三) stop_mchine 引起的 soft lockup 某次在服务器上某节点…...
ARM 链接器优化功能介绍
消除公共部分组 链接器可以检测节组的多个副本,并丢弃其他副本。 Arm Compiler for Embedded 生成用于链接的完整对象。因此: 如果 C 和 C 源代码中存在内联函数,则每个对象都包含该对象所需的内联函数的外联副本。如果在 C 源代码中使用…...
动手学深度学习之卷积神经网络之池化层
池化层 卷积层对位置太敏感了,可能一点点变化就会导致输出的变化,这时候就需要池化层了,池化层的主要作用就是缓解卷积层对位置的敏感性 二维最大池化 这里有一个窗口,来滑动,每次我们将窗口中最大的值给拿出来 还是上…...
HackTheBox - Medium - Linux - Ambassador
Ambassador Ambassador 是一台中等难度的 Linux 机器,用于解决硬编码的明文凭据留在旧版本代码中的问题。首先,“Grafana”CVE (“CVE-2021-43798”) 用于读取目标上的任意文件。在研究了服务的常见配置方式后,将在其…...
嵌入式——循环队列
循环队列 (Circular Queue) 是一种数据结构(或称环形队列、圆形队列)。它类似于普通队列,但是在循环队列中,当队列尾部到达数组的末尾时,它会从数组的开头重新开始。这种数据结构通常用于需要固定大小的队列,例如计算机内存中的缓冲区。循环队列可以通过数组或链表实现,…...
2024.1.7-实战-docker方式给自己网站部署prometheus监控ecs资源使用情况-2024.1.7(测试成功)
实战-docker方式给自己网站部署prometheus监控ecs资源使用情况-2024.1.7(测试成功) 目录 最终效果 原文链接 https://onedayxyy.cn/docs/prometheus-grafana-ecs 参考模板 https://i4t.com/ https://grafana.frps.cn 🔰 额,注意哦: 他这个是通过frp来…...
20240107 SQL基础50题打卡
20240107 SQL基础50题打卡 1978. 上级经理已离职的公司员工 表: Employees ----------------------- | Column Name | Type | ----------------------- | employee_id | int | | name | varchar | | manager_id | int | | salary | int | -…...
阿里云公网带宽出网和入网是什么?上行和下行是什么?
什么是阿里云服务器ECS的入网带宽和出网带宽?以云服务器为中心,流入云服务器占用的带宽是入网带宽,流量从云服务器流出的带宽是出网带宽。阿里云服务器网aliyunfuwuqi.com分享入网带宽和出网带宽说明表: 带宽类别说明入网带宽&am…...
eureka工作原理是什么
EUREKA 是一个基于 RESTful 风格的服务发现系统,它主要用于帮助实现在微服务架构中的服务自动发现与注册。其工作原理主要包括以下几个步骤: 注册中心:EUREKA 中有一个集中的注册中心,所有的服务都将在此注册和发现。注册中心可以…...
Leetcode 3576. Transform Array to All Equal Elements
Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现 题目链接:3576. Transform Array to All Equal Elements 1. 解题思路 这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。 至于每一种情况是否可以达到…...
linux arm系统烧录
1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 (忘了有没有这步了 估计有) 刷机程序 和 镜像 就不提供了。要刷的时…...
对WWDC 2025 Keynote 内容的预测
借助我们以往对苹果公司发展路径的深入研究经验,以及大语言模型的分析能力,我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际,我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测,聊作存档。等到明…...
第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
Psychopy音频的使用
Psychopy音频的使用 本文主要解决以下问题: 指定音频引擎与设备;播放音频文件 本文所使用的环境: Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...
JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案
JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停 1. 安全点(Safepoint)阻塞 现象:JVM暂停但无GC日志,日志显示No GCs detected。原因:JVM等待所有线程进入安全点(如…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
安卓基础(aar)
重新设置java21的环境,临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的: MyApp/ ├── app/ …...
C++课设:简易日历程序(支持传统节假日 + 二十四节气 + 个人纪念日管理)
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏介绍:《编程项目实战》 目录 一、为什么要开发一个日历程序?1. 深入理解时间算法2. 练习面向对象设计3. 学习数据结构应用二、核心算法深度解析…...
STM32HAL库USART源代码解析及应用
STM32HAL库USART源代码解析 前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...
