当前位置：首页 > news >正文

Pseudo Multi-Camera Editing 数据集：通过常规视频生成的伪标记多摄像机推荐数据集，显著提升模型在未知领域的准确性。

news 2026/2/8 15:25:34

2024-10-19，由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法，通过将常规视频转换成伪标记的多摄像机视角推荐数据集，有效解决了在未知领域中模型泛化能力差的问题。数据集的创建，为电影、电视和其他媒体制作中的摄像机选择提供了有力的辅助，显著提高了模型在目标领域的准确性，实现了68%的相对改进。

一、研究背景：

在电影、电视和其他媒体制作中，多摄像机系统的作用不可或缺。选择合适的摄像机视角对于提高制作质量和满足观众偏好至关重要。基于学习的视角推荐框架可以帮助专业人士做出决策，但这些框架在训练领域之外往往表现不佳，而标记好的多摄像机视角推荐数据集的稀缺加剧了这一问题。

目前遇到困难和挑战:

1、多摄像机视角推荐模型在未见过的领域中泛化能力差，导致准确率显著下降。

2、现有的多摄像机编辑数据集（如TVMCE）仅限于特定场景和类型，无法覆盖更广泛的领域。

3、收集相同领域的数据需要多个同步摄像机捕捉同一事件，且需要专业的电影制作专家进行标记，这在实际操作中非常困难。

数据集地址：多摄像头视图推荐数据集|模型泛化数据集

二、让我们一起来看一下Pseudo Multi-Camera Editing数据集：

Pseudo Multi-Camera Editing Dataset：通过将常规视频转换为伪标记的多摄像机视角推荐数据集，以解决标记数据稀缺的问题。研究团队利用视频编辑中的镜头转换来模拟摄像机切换，通过聚类镜头来模拟不同的摄像机，并选择每个“伪”摄像机中最相似的镜头作为候选镜头，与真实镜头一起生成伪标记数据。

数据集构建：

包括镜头检测、聚类生成伪摄像机标签、以及从每个伪摄像机中选择候选镜头。使用ResNet50预训练模型提取图像特征，并计算镜头间的视觉相似度。

数据集特点：

1、利用常规视频生成伪标记数据，无需专业标记。

2、通过聚类模拟多摄像机系统，提高模型在未知领域的泛化能力。

3、实现了68%的相对准确率提升。

研究者可以使用该数据集训练和测试多摄像机视角推荐模型。通过对比真实镜头和候选镜头的特征，模型可以学习在不同场景下选择合适的摄像机视角。

基准测试：

在TVMCE数据集上，与现有的Temporal and Contextual Transformer (TC Transformer)模型相比，提出的框架在域内准确率上提高了11%。在未知领域（如情景喜剧场景）中，使用伪数据集训练的模型表现出显著更好的泛化能力。

（a）在特定域的标记多相机编辑数据集上训练的模型对前所未见的域的泛化效果不佳，准确性显着下降。（b）我们提出的方法利用常规视频为目标域生成伪标记数据集并提高模型的准确性

模型架构。（a）过去的编码器将所有过去的特征编码为单个特征向量。然后，应用对比损失以最大化过去特征和真实特征之间的余弦相似性。（b）特征提取器通过向图像特征添加位置嵌入来对帧进行编码。

伪数据集生成管道。（a）在输入视频中检测到镜头，以及（b）分组。同一群集中的快照被视为来自同一“伪”摄像机。（c）选择镜头作为锚点。后续镜头是地面实况，而其他每个 N-1 伪相机中最相似的镜头被选为候选镜头。

与基线的比较。多摄像头视图推荐模型对前所未见的领域的泛化效果不佳。ID：域内，OOD：域外。

视频场景的影响。在与测试集不同的场景中训练的模型准确率较低。绿色和红色表示相同和不同。

视频场景和类型（情景喜剧）的影响。更显著的域差异（视频场景 + 视频类型）会严重影响准确性。来自广泛视频的伪数据集可以覆盖目标视频场景和类型，从而获得更高的准确性。绿色、橙色和红色表示相同、有遮盖和不同。

三、让我们一起展望Pseudo Multi-Camera Editing数据集应用

比如，我是一名电影剪辑师。

我日常的工作：坐在剪辑室里，我得盯着屏幕，看那些复杂的实验室场景，或者是太空船的驾驶舱。每个摄像机都捕捉了不同的角度，有的可能是全景，有的可能是特写，还有的可能聚焦在某个重要的仪器上。我得决定什么时候切换到哪个镜头，才能让观众感受到那种紧张刺激的气氛，同时又不能错过任何重要的细节。这就像是在做一道复杂的数学题，你得把所有的元素都考虑到，还得保证最后的结果让观众满意。

现在有了这个Pseudo Multi-Camera Editing Dataset数据集训练的系统，我的眼睛得到更好的休息。

比如，我在剪辑一个太空船即将进入黑洞的紧张场景。这个系统就能帮我分析出，哪个镜头最能展现太空船的动态，哪个镜头最能捕捉到宇航员脸上的紧张表情。它会告诉我，现在可以切换到一个全景镜头，让观众感受到太空船在黑洞面前的渺小；然后，再切换到宇航员的特写，因为他的眼神中透露出坚定和决心。

这个系统就像是我的智能剪辑助手，它通过学习大量的视频资料，已经知道在这种科技电影中，哪些镜头最能打动人心。比如，在剪辑一个科学家在实验室里做实验的场景时，它会建议我切换到一个特写镜头，聚焦在科学家手中的那个即将引爆的装置上，因为那个装置的每一个细节都可能关系到整个实验的成败。

而且，这个系统还能帮我处理那些特别复杂的特效场景。比如，太空船在太空中爆炸的场景，它能够分析出哪个镜头最能捕捉到爆炸的震撼效果，哪个切换最能带动观众的情绪。这样，我就可以把更多的精力放在故事的叙述上，而不是纠结于每个镜头的选择。

有了Pseudo Multi-Camera Editing Dataset数据集训练的系统，让我在剪辑科技电影时，能够更加专注于创意和故事的讲述，而不用担心错过那些重要的细节。它帮我捕捉到每一个精彩的瞬间，让我的工作变得更加高效和有趣。

来吧，让我们走进多摄像头视图推荐数据集|模型泛化数据集

Pseudo Multi-Camera Editing 数据集：通过常规视频生成的伪标记多摄像机推荐数据集，显著提升模型在未知领域的准确性。

2024-10-19，由伊利诺伊大学厄巴纳-香槟分校和香港城市大学的研究团队提出了一种创新方法，通过将常规视频转换成伪标记的多摄像机视角推荐数据集，有效解决了在未知领域中模型泛化能力差的问题。数据集的创建，为电影、电视和其他媒体…...

编程日记 2024/10/27 10:22:35

认识一下 Mochi-1--最新的免费开源人工智能视频模型

Genmo 是一家专注于视频生成的人工智能公司，该公司宣布发布 Mochi 1 的研究预览版。Mochi 1 是一种新的开源模型，可根据文本提示生成高质量视频，其性能可与 Runway 的 Gen-3 Alpha、Luma AI 的 Dream Machine、Kuaishou 的 Kling、Minimax 的…...

编程日记 2024/10/27 10:21:33

Spring 的事务传播机制

Spring 的事务传播机制定义了一个事务方法在遇到已经存在的事务时如何处理。事务传播属性（Propagation）提供了七种机制，以适应不同的业务需求和事务边界管理。 1. Spring 的事务传播机制的类型 （1）REQUIRED&#xff…...

编程日记 2024/10/27 10:18:29

线性代数（1）——线性方程组的几何意义

线性代数的基本问题是求解个未知数的个线性方程； 例如：（方程1）。在线性代数的第一讲中，我们从Row Picture、Column Picture、Matrix Picture三个角度来看这个问题。上面的系统是二维的。通过添加第三个变量&#…...

编程日记 2024/10/27 10:17:28

写给自己的一些心得体会

为什么是CSDN??? 最近跑实验跑得绝望，感觉自己兜兜转转走了太多太多的弯路，我不知道这样的弯路什么时候是个尽头，就像在USJ排队，看似好像要到入口了，实则一转头还是无尽绵延的队伍。走了这么多弯路，总要…...

编程日记 2024/10/27 10:16:26

论文阅读（二十九）：Multi-scale Interactive Network for Salient Object Detection

文章目录 Abstract1.Introduction2.Scale VariationProposed Method3.1Network Overview3.2Aggregate Interaction Module3.3 Self-Interaction Module3.4Consistency-Enhanced Loss 4.Experiments4.1Implementation Details4.2 Comparison with State-of-the-arts4.3Ablation …...

编程日记 2024/10/27 10:15:25

常见存储器及其特点

： 一、只读存储器（ROM）及其类型 1. ROM 特点：存储的数据固定不变，只能读出不能写入，且断电后数据不丢失。应用：通常用于存储系统程序，如BIOS等。 2. PROM（可编程只读…...

编程日记 2024/10/27 10:13:23

《向量数据库指南》——text-embedding-3-large与Mlivus Cloud打造语义搜索新纪元

使用text-embedding-3-large生成向量并将向量插入Mlivus Cloud实现高效语义搜索的深度解析与实战操作在数字化时代，数据的处理和存储方式正在经历前所未有的变革。特别是随着大数据和人工智能技术的快速发展，向量数据库作为一种新型的数据存储和查询方式，正逐渐受到越来越…...

编程日记 2024/10/27 10:12:22

通过 Bytebase API 查看数据库审计日志

原文地址代码库 Bytebase 是一款数据库 DevOps 和 CI/CD 工具，专为开发者、DBA 和平台工程团队设计。虽然它提供了直观的 GUI 来管理数据库 schema 变更和访问控制，但有些团队可能希望使用 Bytebase API 将 Bytebase 集成到现有的 DevOps 平台中。在之…...

编程日记 2024/10/27 10:11:20

# 渗透测试# 1.安全见闻（6）通讯协议

安全见闻6 通讯协议 ##B站陇羽Sec## 潜在的安全问题所涉及的领域无线电安全，协议分析，web渗透，逆向分析通讯协议涉及的安全主要包括以下几个方面： 1.1 保密性问题 …...

编程日记 2024/10/27 10:10:19

[Gdiplus/Gdi]_[中级]_[实现多行文本的多种颜色绘制-富文本绘制]

场景在开发WTL/WIN32界面程序时，有时候需要绘制多行的段落文本，但是文本里的数值需要设置红色以便能让人第一时间关注到它。这种文本可以称之为富文本。GDI的DrawText和GDIPlus的DrawString方法都只能连续绘制某个颜色的文本。怎么实现？说明在《绘图实现单行文本的多种颜色…...

编程日记 2024/10/27 10:06:12

Ubuntu如何创建一个子用户并赋与管理员权限

在Ubuntu操作系统中，如何创建一个子用户并赋与管理员权限一、创建用户 sudo useradd -m -s /bin/bash test详细解释： sudo：以超级用户（root）权限执行该命令。useradd 命令通常需要管理员权限，因此需要加上 sudo。 useradd：创建新用户的命令。 -m：指示系统为新用户创建…...

编程日记 2024/10/27 10:05:01

【Linux | IO多路复用】epoll的底层原理详解

epoll 是一种高效的 I/O 多路复用机制，广泛用于 Linux 系统中，用于处理大量并发的文件描述符。它比传统的 select 和 poll 方法具有更好的性能，特别是在处理大量并发连接时。 1.epoll的设计思路 epoll是在select 出现 N 多年后才被发明的&a…...

编程日记 2024/10/27 10:02:55

npm run serve 提示异常Cannot read property ‘upgrade‘ of undefined

npm run serve 提示Cannot read property ‘upgrade’ of undefined 一般是proxy的target代理域名问题导致的，如下： 解决方案： proxy: { “/remoteDealerReportApi”: { target: ‘http://demo-.com.cn’, //此域名有问题，会导致…...

编程日记 2024/10/27 10:01:50

Muggle OCR 是一个高效的本地OCR（光学字符识别）模块

Muggle OCR 是一个高效的本地OCR（光学字符识别）模块，专为“麻瓜”设计，用于简化文本识别的过程。这个模块特别适用于处理印刷文本和解析验证码1。以下是一些关于 Muggle OCR 的主要特点和使用方法： 特点：…...

编程日记 2024/10/27 10:00:44

【SpringBoot】万字源码解析——启动流程

Spring Boot启动流程 Spring Boot 的入口类： SpringBootApplication public class IntelGradingApplication {public static void main(String[] args) {SpringApplication.run(IntelGradingApplication.class, args);} }Spring Boot 的启动过程可以分为两方面&am…...

编程日记 2024/10/27 9:58:39

Nginx 配置初步下

Nginx 配置初步(下) 一行代表一个指令； 每个指令有其上下文环境，比如 listen 指令只能在 http 指令块中出现，不能单独出现。1. Http 服务配置初步 1.1 常用指令 Nginx 的所有模块，打开模块我们就能看到模块中支持的指令。最常用…...

编程日记 2024/10/27 9:56:34

可视化ETL平台-Kettle的安装及简单使用

本章知识简介主线A: 自连接查询; 主线B: 安装JDK与Kettle; 主线C: 使用Kettle工具. 本章目标： 1: 知道使用一张表可以实现自连接查询; [了解]注意: 左表、右表都是同一张表 2: 了解Kettle环境的安装流程; [了解]a.安装JDKb.安装Kettle 3: 熟悉使用kettle将txt数…...

编程日记 2024/10/27 9:55:32

java8 动态加载jar包至系统的classpath

1. io.test包创建MyMain.java类，创建addJarToClasspath方法将jar包动态加载进系统的classpath中 package io.test;import java.io.File; import java.net.URL; import java.net.URLClassLoader; import java.lang.reflect.Method;public class MyMain {public st…...

编程日记 2024/10/27 9:54:31

C++二级题计算好数：1数大于0数(二进制的位运算)

1、题目若将一个正整数化为二进制数，在此二进制数中，我们将数字1的个数多于数字0的个数的这类二进制数称为好数。例如： (13)10 (1101)2，其中1的个数为3，0的个数为1，则此数是好数； (10)10 (1…...

编程日记 2024/10/27 9:53:30

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

借阿里云中企出海大会的东风，以**「云启出海，智联未来｜打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办，现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...

编程新知 2026/1/30 0:00:28

定时器任务——若依源码分析

分析util包下面的工具类schedule utils： ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类，封装了定时任务的创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz，先构建任务的 JobD…...

编程新知 2026/1/26 14:24:46

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/8/11 1:05:59

Axios请求超时重发机制

Axios 超时重新请求实现方案在 Axios 中实现超时重新请求可以通过以下几种方式： 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

编程新知 2025/10/13 2:26:14

【C语言练习】080. 使用C语言实现简单的数据库操作

080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码：使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出：5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作在…...

编程新知 2025/9/22 21:37:01

c#开发AI模型对话

AI模型前面已经介绍了一般AI模型本地部署，直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。微软提供了ML.NET来开发和使用AI模型，但是目前国内可能使用不多，至少实践例子很少看见。开发训练模型就不介绍了&am…...

编程新知 2026/2/1 8:59:45

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/8/13 13:40:18

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘一、系统概述本电子通讯录系统采用Java Swing开发桌面应用，结合SQLite数据库实现联系人管理功能，并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能，同时可以最小化到系统…...

编程新知 2025/10/4 20:58:43

return this；返回的是谁

一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请，不同级别的经理有不同的审批权限： // 抽象处理者：审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

编程新知 2026/1/28 21:45:43

破解路内监管盲区：免布线低位视频桩重塑停车管理新标准

城市路内停车管理常因行道树遮挡、高位设备盲区等问题，导致车牌识别率低、逃费率高，传统模式在复杂路段束手无策。免布线低位视频桩凭借超低视角部署与智能算法，正成为破局关键。该设备安装于车位侧方0.5-0.7米高度，直接规避树枝遮…...

编程新知 2026/2/1 15:29:27