当前位置：首页 > news >正文

CV每日论文--2024.7.24

news 2026/2/9 13:40:26

1 、AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description

中文标题：T2V-CompBench：组合文本到视频生成的综合基准AutoAD-Zero：零样本音频描述的免训练框架

简介：我们的目标是以无需训练的方式为电影和电视剧生成音频描述(AD)。我们利用现成的视觉-语言模型(VLM)和大型语言模型(LLM)的能力,并为此任务开发了视觉和文本提示策略。

我们的主要贡献包括:

我们证明了VLM可以成功地命名和指称角色,只需直接通过视觉提示提供角色信息,而无需进行任何微调。

我们开发了一个两阶段的过程来生成AD。第一阶段要求VLM全面描述视频,第二阶段利用LLM将密集的文本信息总结成一个简洁的AD句子。

我们制定了一个新的电视音频描述数据集。

我们提出的方法名为AutoAD-Zero,在电影和电视剧的AD生成中表现出色,甚至可与一些基于真实AD进行微调的模型相竞争,实现了最先进的CRITIC分数。

2、BoostMVSNeRFs: Boosting MVS-based NeRFs to Generalizable View Synthesis in Large-scale Scenes

中文标题：BoostMVSNeRFs：将基于 MVS 的 NeRFs 提升到大规模场景中的可泛化视图合成

简介：虽然神经辐射场(NeRF)展示了出色的质量,但其漫长的训练时间仍然是一个限制因素。虽然可减少训练时间的通用和基于多视角重建的NeRF可以缓解这一问题,但往往会在质量上产生权衡。

本文提出了一种名为BoostMVSNeRFs的新方法,以提高大规模场景中基于多视角重建的NeRF的渲染质量。首先,我们确定了基于多视角重建的NeRF方法的局限性,例如受限的视口覆盖范围和由于有限输入视图而产生的伪影。

为了解决这些限制,我们提出了一种新方法,在体积渲染期间选择和组合多个代价体。我们的方法不需要训练,可以以前馈方式适应任何基于多视角重建的NeRF方法以提高渲染质量。此外,我们的方法也可以进行端到端的训练,允许在特定场景中进行微调。

我们通过对大规模数据集进行实验来展示我们方法的有效性,在大规模场景和无限制的户外场景中显示出显著的渲染质量改进。我们在https://su-terry.github.io/BoostMVSNeRFs/发布了BoostMVSNeRFs的源代码。

3、Reconstructing Training Data From Real World Models Trained with Transfer Learning

中文标题：从经过迁移学习训练的真实世界模型重建训练数据

简介：本文提出了一种新方法,使得在高分辨率图像上训练的模型能够在现实场景中进行数据重建。与之前的方法相比,我们的方法具有以下优点:

适应性强:我们将先前的重建方案(arXiv:2206.07758)迁移到现实场景中,特别针对使用大型预训练模型(如DINO-ViT和CLIP)进行迁移学习训练的模型。

适用性广泛:我们的方法在嵌入空间而不是图像空间中进行数据重建,展示了它在视觉数据之外的适用性。

识别改进:我们引入了一种新的基于聚类的方法,从成千上万个候选项中识别出好的重建结果,显著改进了以往依赖于训练集知识的方法。

隐私风险揭示:我们的研究结果揭示了使用迁移学习训练的模型可能存在数据泄露的潜在隐私风险。

与此前方法相比,我们的方法在现实场景中展现出了更强的适应性和广泛性,并提出了更优秀的结果识别机制,为该领域的进一步发展提供了有价值的研究洞见。

CV每日论文--2024.7.24

相关文章：

CV每日论文--2024.7.24

大语言模型的简易可扩展增量预训练策略

python学习之异常

多张图像实现全景无痕拼接操作

在阿里云ecs上构建一个WordPress博客网站

安卓应用开发学习：查看手机传感器信息

C语言字符串缺陷

分布式场景中的常见的技术问题及解决，如分布式锁、分布式事务、分布式 session、分布式任务调度

Android笔试面试题AI答之Kotlin（9）

C# 不一样的洗牌算法---Simd指令

LVGL系列3--纯物理(外部)按键，数字键盘控制控件

FPGA开发——UART回环实现之接收模块的设计

Debezium系列之：记录一次SQLServer数据库数据不采集，恢复采集造成下游承压的情况，以及相对应的详细解决方案

Linux线程基础学习记录

【Python学习-UI界面】PyQt5 小部件12-QStackedWidget 多页显示

Mybatis中好用的元对象反射工具类 - MetaObject

javaEE WebServlet、SpringWebMVC、SpringBoot实现跨域访问的4种方式及优先级，nginx配置跨域

深入理解JavaScript性能优化：从基础到高级

java+springboot实现定时任务

1.3 数据库的发展历史与演变

应用升级/灾备测试时使用guarantee 闪回点迅速回退

进程地址空间（比特课总结）

【力扣数据库知识手册笔记】索引

【入坑系列】TiDB 强制索引在不同库下不生效问题

java 实现excel文件转pdf | 无水印 | 无限制

vscode（仍待补充）

在四层代理中还原真实客户端ngx_stream_realip_module

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

初学 pytest 记录

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？