Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。
2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助,显著提高了模型在目标领域的准确性,实现了68%的相对改进。
一、研究背景:
在电影、电视和其他媒体制作中,多摄像机系统的作用不可或缺。选择合适的摄像机视角对于提高制作质量和满足观众偏好至关重要。基于学习的视角推荐框架可以帮助专业人士做出决策,但这些框架在训练领域之外往往表现不佳,而标记好的多摄像机视角推荐数据集的稀缺加剧了这一问题。
目前遇到困难和挑战:
1、多摄像机视角推荐模型在未见过的领域中泛化能力差,导致准确率显著下降。
2、现有的多摄像机编辑数据集(如TVMCE)仅限于特定场景和类型,无法覆盖更广泛的领域。
3、收集相同领域的数据需要多个同步摄像机捕捉同一事件,且需要专业的电影制作专家进行标记,这在实际操作中非常困难。
数据集地址:多摄像头视图推荐数据集|模型泛化数据集
二、让我们一起来看一下Pseudo Multi-Camera Editing数据集:
Pseudo Multi-Camera Editing Dataset:通过将常规视频转换为伪标记的多摄像机视角推荐数据集,以解决标记数据稀缺的问题。研究团队利用视频编辑中的镜头转换来模拟摄像机切换,通过聚类镜头来模拟不同的摄像机,并选择每个“伪”摄像机中最相似的镜头作为候选镜头,与真实镜头一起生成伪标记数据。
数据集构建:
包括镜头检测、聚类生成伪摄像机标签、以及从每个伪摄像机中选择候选镜头。使用ResNet50预训练模型提取图像特征,并计算镜头间的视觉相似度。
数据集特点:
1、利用常规视频生成伪标记数据,无需专业标记。
2、通过聚类模拟多摄像机系统,提高模型在未知领域的泛化能力。
3、实现了68%的相对准确率提升。
研究者可以使用该数据集训练和测试多摄像机视角推荐模型。通过对比真实镜头和候选镜头的特征,模型可以学习在不同场景下选择合适的摄像机视角。
基准测试 :
在TVMCE数据集上,与现有的Temporal and Contextual Transformer (TC Transformer)模型相比,提出的框架在域内准确率上提高了11%。在未知领域(如情景喜剧场景)中,使用伪数据集训练的模型表现出显著更好的泛化能力。
(a) 在特定域的标记多相机编辑数据集上训练的模型对前所未见的域的泛化效果不佳,准确性显着下降。(b) 我们提出的方法利用常规视频为目标域生成伪标记数据集并提高模型的准确性
模型架构。(a) 过去的编码器将所有过去的特征编码为单个特征向量。然后,应用对比损失以最大化过去特征和真实特征之间的余弦相似性。(b) 特征提取器通过向图像特征添加位置嵌入来对帧进行编码。
伪数据集生成管道。(a) 在输入视频中检测到镜头,以及 (b) 分组。同一群集中的快照被视为来自同一“伪”摄像机。(c) 选择镜头作为锚点。后续镜头是地面实况,而其他每个 N-1 伪相机中最相似的镜头被选为候选镜头。
与基线的比较。多摄像头视图推荐模型对前所未见的领域的泛化效果不佳。ID:域内,OOD:域外。
视频场景的影响。在与测试集不同的场景中训练的模型准确率较低。绿色和红色表示相同和不同。
视频场景和类型(情景喜剧)的影响。更显著的域差异(视频场景 + 视频类型)会严重影响准确性。来自广泛视频的伪数据集可以覆盖目标视频场景和类型,从而获得更高的准确性。绿色、橙色和红色表示相同、有遮盖和不同。
三、让我们一起展望Pseudo Multi-Camera Editing数据集应用
比如,我是一名电影剪辑师。
我日常的工作:坐在剪辑室里,我得盯着屏幕,看那些复杂的实验室场景,或者是太空船的驾驶舱。每个摄像机都捕捉了不同的角度,有的可能是全景,有的可能是特写,还有的可能聚焦在某个重要的仪器上。我得决定什么时候切换到哪个镜头,才能让观众感受到那种紧张刺激的气氛,同时又不能错过任何重要的细节。这就像是在做一道复杂的数学题,你得把所有的元素都考虑到,还得保证最后的结果让观众满意。
现在有了这个Pseudo Multi-Camera Editing Dataset数据集训练的系统,我的眼睛得到更好的休息。
比如,我在剪辑一个太空船即将进入黑洞的紧张场景。这个系统就能帮我分析出,哪个镜头最能展现太空船的动态,哪个镜头最能捕捉到宇航员脸上的紧张表情。它会告诉我,现在可以切换到一个全景镜头,让观众感受到太空船在黑洞面前的渺小;然后,再切换到宇航员的特写,因为他的眼神中透露出坚定和决心。
这个系统就像是我的智能剪辑助手,它通过学习大量的视频资料,已经知道在这种科技电影中,哪些镜头最能打动人心。比如,在剪辑一个科学家在实验室里做实验的场景时,它会建议我切换到一个特写镜头,聚焦在科学家手中的那个即将引爆的装置上,因为那个装置的每一个细节都可能关系到整个实验的成败。
而且,这个系统还能帮我处理那些特别复杂的特效场景。比如,太空船在太空中爆炸的场景,它能够分析出哪个镜头最能捕捉到爆炸的震撼效果,哪个切换最能带动观众的情绪。这样,我就可以把更多的精力放在故事的叙述上,而不是纠结于每个镜头的选择。
有了Pseudo Multi-Camera Editing Dataset数据集训练的系统,让我在剪辑科技电影时,能够更加专注于创意和故事的讲述,而不用担心错过那些重要的细节。它帮我捕捉到每一个精彩的瞬间,让我的工作变得更加高效和有趣。
来吧,让我们走进多摄像头视图推荐数据集|模型泛化数据集
相关文章:

Pseudo Multi-Camera Editing 数据集:通过常规视频生成的伪标记多摄像机推荐数据集,显著提升模型在未知领域的准确性。
2024-10-19,由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法,通过将常规视频转换成伪标记的多摄像机视角推荐数据集,有效解决了在未知领域中模型泛化能力差的问题。数据集的创建,为电影、电视和其他媒体…...

认识一下 Mochi-1--最新的免费开源人工智能视频模型
Genmo 是一家专注于视频生成的人工智能公司,该公司宣布发布 Mochi 1 的研究预览版。Mochi 1 是一种新的开源模型,可根据文本提示生成高质量视频,其性能可与 Runway 的 Gen-3 Alpha、Luma AI 的 Dream Machine、Kuaishou 的 Kling、Minimax 的…...
Spring 的事务传播机制
Spring 的事务传播机制定义了一个事务方法在遇到已经存在的事务时如何处理。事务传播属性(Propagation)提供了七种机制,以适应不同的业务需求和事务边界管理。 1. Spring 的事务传播机制的类型 (1)REQUIREDÿ…...
线性代数(1)——线性方程组的几何意义
线性代数的基本问题是求解个未知数的个线性方程; 例如:(方程1)。 在线性代数的第一讲中,我们从Row Picture、Column Picture、Matrix Picture三个角度来看这个问题。 上面的系统是二维的。通过添加第三个变量&#…...
写给自己的一些心得体会
为什么是CSDN??? 最近跑实验跑得绝望,感觉自己兜兜转转走了太多太多的弯路,我不知道这样的弯路什么时候是个尽头,就像在USJ排队,看似好像要到入口了,实则一转头还是无尽绵延的队伍。走了这么多弯路,总要…...

论文阅读(二十九):Multi-scale Interactive Network for Salient Object Detection
文章目录 Abstract1.Introduction2.Scale VariationProposed Method3.1Network Overview3.2Aggregate Interaction Module3.3 Self-Interaction Module3.4Consistency-Enhanced Loss 4.Experiments4.1Implementation Details4.2 Comparison with State-of-the-arts4.3Ablation …...
常见存储器及其特点
: 一、只读存储器(ROM)及其类型 1. ROM 特点:存储的数据固定不变,只能读出不能写入,且断电后数据不丢失。应用:通常用于存储系统程序,如BIOS等。 2. PROM(可编程只读…...

《向量数据库指南》——text-embedding-3-large与Mlivus Cloud打造语义搜索新纪元
使用text-embedding-3-large生成向量并将向量插入Mlivus Cloud实现高效语义搜索的深度解析与实战操作 在数字化时代,数据的处理和存储方式正在经历前所未有的变革。特别是随着大数据和人工智能技术的快速发展,向量数据库作为一种新型的数据存储和查询方式,正逐渐受到越来越…...

通过 Bytebase API 查看数据库审计日志
原文地址代码库 Bytebase 是一款数据库 DevOps 和 CI/CD 工具,专为开发者、DBA 和平台工程团队设计。虽然它提供了直观的 GUI 来管理数据库 schema 变更和访问控制,但有些团队可能希望使用 Bytebase API 将 Bytebase 集成到现有的 DevOps 平台中。 在之…...
# 渗透测试# 1.安全见闻(6)通讯协议
安全见闻6 通讯协议 ##B站陇羽Sec## 潜在的安全问题所涉及的领域 无线电安全,协议分析,web渗透,逆向分析 通讯协议涉及的安全主要包括以下几个方面: 1.1 保密性问题 …...
[Gdiplus/Gdi]_[中级]_[实现多行文本的多种颜色绘制-富文本绘制]
场景 在开发WTL/WIN32界面程序时,有时候需要绘制多行的段落文本,但是文本里的数值需要设置红色以便能让人第一时间关注到它。这种文本可以称之为富文本。GDI的DrawText和GDIPlus的DrawString方法都只能连续绘制某个颜色的文本。怎么实现?说明 在《绘图实现单行文本的多种颜色…...

Ubuntu如何创建一个子用户并赋与管理员权限
在Ubuntu操作系统中,如何创建一个子用户并赋与管理员权限 一、创建用户 sudo useradd -m -s /bin/bash test详细解释: sudo:以超级用户(root)权限执行该命令。useradd 命令通常需要管理员权限,因此需要加上 sudo。 useradd:创建新用户的命令。 -m:指示系统为新用户创建…...

【Linux | IO多路复用】epoll的底层原理详解
epoll 是一种高效的 I/O 多路复用机制,广泛用于 Linux 系统中,用于处理大量并发的文件描述符。它比传统的 select 和 poll 方法具有更好的性能,特别是在处理大量并发连接时。 1.epoll的设计思路 epoll是在select 出现 N 多年后才被发明的&a…...

npm run serve 提示异常Cannot read property ‘upgrade‘ of undefined
npm run serve 提示Cannot read property ‘upgrade’ of undefined 一般是proxy的target代理域名问题导致的,如下: 解决方案: proxy: { “/remoteDealerReportApi”: { target: ‘http://demo-.com.cn’, //此域名有问题,会导致…...
Muggle OCR 是一个高效的本地OCR(光学字符识别)模块
Muggle OCR 是一个高效的本地OCR(光学字符识别)模块,专为“麻瓜”设计,用于简化文本识别的过程。这个模块特别适用于处理印刷文本和解析验证码1。 以下是一些关于 Muggle OCR 的主要特点和使用方法: 特点:…...
【SpringBoot】万字源码解析——启动流程
Spring Boot启动流程 Spring Boot 的入口类: SpringBootApplication public class IntelGradingApplication {public static void main(String[] args) {SpringApplication.run(IntelGradingApplication.class, args);} }Spring Boot 的启动过程可以分为两方面&am…...

Nginx 配置初步 下
Nginx 配置初步(下) 一行代表一个指令; 每个指令有其上下文环境,比如 listen 指令只能在 http 指令块中出现,不能单独出现。1. Http 服务配置初步 1.1 常用指令 Nginx 的所有模块,打开模块我们就能看到模块中支持的指令。最常用…...

可视化ETL平台-Kettle的安装及简单使用
本章知识简介 主线A: 自连接查询; 主线B: 安装JDK与Kettle; 主线C: 使用Kettle工具. 本章目标: 1: 知道使用一张表可以实现自连接查询; [了解]注意: 左表、右表都是同一张表 2: 了解Kettle环境的安装流程; [了解]a.安装JDKb.安装Kettle 3: 熟悉使用kettle将txt数…...
java8 动态加载jar包至系统的classpath
1. io.test包 创建MyMain.java类,创建addJarToClasspath方法将jar包动态加载进系统的classpath中 package io.test;import java.io.File; import java.net.URL; import java.net.URLClassLoader; import java.lang.reflect.Method;public class MyMain {public st…...
C++二级题 计算好数:1数大于0数(二进制的位运算)
1、题目 若将一个正整数化为二进制数,在此二进制数中,我们将数字1的个数多于数字0的个数的这类二进制数称为好数。 例如: (13)10 (1101)2,其中1的个数为3,0的个数为1,则此数是好数; (10)10 (1…...

调用支付宝接口响应40004 SYSTEM_ERROR问题排查
在对接支付宝API的时候,遇到了一些问题,记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

【大模型RAG】Docker 一键部署 Milvus 完整攻略
本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

Vue2 第一节_Vue2上手_插值表达式{{}}_访问数据和修改数据_Vue开发者工具
文章目录 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染2. 插值表达式{{}}3. 访问数据和修改数据4. vue响应式5. Vue开发者工具--方便调试 1.Vue2上手-如何创建一个Vue实例,进行初始化渲染 准备容器引包创建Vue实例 new Vue()指定配置项 ->渲染数据 准备一个容器,例如: …...
VTK如何让部分单位不可见
最近遇到一个需求,需要让一个vtkDataSet中的部分单元不可见,查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行,是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示,主要是最后一个参数,透明度…...

永磁同步电机无速度算法--基于卡尔曼滤波器的滑模观测器
一、原理介绍 传统滑模观测器采用如下结构: 传统SMO中LPF会带来相位延迟和幅值衰减,并且需要额外的相位补偿。 采用扩展卡尔曼滤波器代替常用低通滤波器(LPF),可以去除高次谐波,并且不用相位补偿就可以获得一个误差较小的转子位…...

从物理机到云原生:全面解析计算虚拟化技术的演进与应用
前言:我的虚拟化技术探索之旅 我最早接触"虚拟机"的概念是从Java开始的——JVM(Java Virtual Machine)让"一次编写,到处运行"成为可能。这个软件层面的虚拟化让我着迷,但直到后来接触VMware和Doc…...
Python 高级应用10:在python 大型项目中 FastAPI 和 Django 的相互配合
无论是python,或者java 的大型项目中,都会涉及到 自身平台微服务之间的相互调用,以及和第三发平台的 接口对接,那在python 中是怎么实现的呢? 在 Python Web 开发中,FastAPI 和 Django 是两个重要但定位不…...

算法—栈系列
一:删除字符串中的所有相邻重复项 class Solution { public:string removeDuplicates(string s) {stack<char> st;for(int i 0; i < s.size(); i){char target s[i];if(!st.empty() && target st.top())st.pop();elsest.push(s[i]);}string ret…...
游戏开发中常见的战斗数值英文缩写对照表
游戏开发中常见的战斗数值英文缩写对照表 基础属性(Basic Attributes) 缩写英文全称中文释义常见使用场景HPHit Points / Health Points生命值角色生存状态MPMana Points / Magic Points魔法值技能释放资源SPStamina Points体力值动作消耗资源APAction…...

aurora与pcie的数据高速传输
设备:zynq7100; 开发环境:window; vivado版本:2021.1; 引言 之前在前面两章已经介绍了aurora读写DDR,xdma读写ddr实验。这次我们做一个大工程,pc通过pcie传输给fpga,fpga再通过aur…...