当前位置: 首页 > news >正文

每日学术速递5.21

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Going Denser with Open-Vocabulary Part Segmenta

标题:通过开放式词汇部分分割变得更密集

作者:Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan

文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf

项目代码:https://rl-at-scale.github.io/

摘要:

        对象检测已经从有限的类别扩展到开放的词汇。展望未来,一个完整的智能视觉系统需要理解更细粒度的对象描述、对象部分。在本文中,我们提出了一种能够预测开放词汇对象及其部分分割的检测器。这种能力来自两种设计。首先,我们在部分级、对象级和图像级数据的联合上训练检测器,以构建语言和图像之间的多粒度对齐。其次,我们通过与基础对象的密集语义对应将新对象解析成它的部分。这两种设计使检测器能够在很大程度上受益于各种数据源和基础模型。在开放词汇部分分割实验中,我们的方法在 PartImageNet 的跨数据集泛化中优于基线 3.3 ∼ 7.3 mAP,在跨类别泛化中将基线提高 7.3 novel AP 50 在帕斯卡部分。最后,我们训练了一个检测器,它可以泛化到范围广泛的部分分割数据集,同时实现比特定于数据集的训练更好的性能。

2.CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-training(ACL 2023)

标题:CLAPSpeech:通过对比语言-音频预训练从文本上下文中学习韵律

作者:Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao

文章链接:https://arxiv.org/abs/2305.10763

项目代码:https://clapspeech.github.io/

摘要:

        改进文本表示已经引起了很多关注,以实现富有表现力的文本到语音(TTS)。然而,现有作品仅通过掩码标记重建任务隐式学习韵律,导致训练效率低下且韵律建模困难。我们提出了 CLAPSpeech,这是一种跨模态对比预训练框架,可显式学习不同上下文下相同文本标记的韵律差异。具体来说,1)我们鼓励模型通过编码器输入和对比损失的精心设计,在联合多模态空间中将文本上下文与其相应的韵律模式联系起来;2) 我们引入了多尺度预训练管道来捕获多个级别的韵律模式。我们展示了如何将 CLAPSpeech 整合到现有的 TTS 模型中以获得更好的韵律。在三个数据集上的实验不仅表明 CLAPSpeech 可以改进现有 TTS 方法的韵律预测,而且还展示了其适应多种语言和多说话人 TTS 的泛化能力。我们还深入分析了 CLAPSpeech 性能背后的原理。消融研究证明了我们方法中每个组件的必要性。此 https URL 提供源代码和音频样本。

3.OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding

标题:OpenShape:将 3D 形状表示放大以实现对开放世界的理解

作者:Minghua Liu, Ruoxi Shi, Kaiming Kuang, Yinhao Zhu, Xuanlin Li, Shizhong Han, Hong Cai, Fatih Porikli, Hao Su

文章链接:https://arxiv.org/abs/2305.10764

项目代码:https://colin97.github.io/OpenShape/

摘要:

        我们介绍了 OpenShape,一种用于学习文本、图像和点云的多模态联合表示的方法。我们采用常用的多模态对比学习框架来进行表示对齐,但特别关注放大 3D 表示以实现开放世界 3D 形状理解。为实现这一目标,我们通过集成多个 3D 数据集来扩大训练数据,并提出了几种策略来自动过滤和丰富嘈杂的文本描述。我们还探索和比较了扩展 3D 骨干网络的策略,并引入了一种新的 hard negative 挖掘模块,以实现更高效的训练。我们在零样本 3D 分类基准上评估 OpenShape,并展示其在开放世界识别方面的卓越能力。具体而言,OpenShape 在 1,156 类 Objaverse-LVIS 基准测试中实现了 46.8% 的零样本准确率,而现有方法的准确率不到 10%。OpenShape 在 ModelNet40 上的准确率也达到了 85.3%,比之前的零样本基线方法高出 20%,与一些全监督方法的表现相当。此外,我们展示了我们学习到的嵌入编码了广泛的视觉和语义概念(例如,子类别、颜色、形状、样式),并促进了细粒度的文本 3D 和图像 3D 交互。由于它们与 CLIP 嵌入对齐,我们学习的形状表示也可以与现成的基于 CLIP 的模型集成,用于各种应用,例如点云字幕和点云条件图像生成。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

相关文章:

每日学术速递5.21

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Going Denser with Open-Vocabulary Part Segmenta 标题:通过开放式词汇部分分割变得更密集 作者:Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Pi…...

【SpringBoot】SpringBoot 纯后端项目如何自定义异常页面(Whitelabel Error Page)

文章目录 背景安排方案步骤 验证 背景 一个短链服务,业务将长链接给我,我转换成短地址,用户访问短地址时,我再做redirect;没有前端,纯后端项目短链会有过期时间,过期后将返回错误信息某一天一个…...

Netty核心技术三--NIO编程

1. JAVA NIO基本介绍 Java NIO 全称 java non-blocking IO,是指 JDK 提供的新API。从 JDK1.4 开始,Java 提供了一系列改进的输入/输出的新特性,被统称为 NIO(即 New IO),是同步非阻塞的 NIO 相关类都被放在 java.nio 包及子包下&…...

机器人的运动范围:DFS

Problem: 剑指 Offer 13. 机器人的运动范围 文章目录 思路解题方法复杂度Code 思路 首先定义好地图,上下左右四个方向也就是{{1,0},{0,1},{-1,0},{0,-1}},然后我们另外定义一个方法来判断题目要求的下标位数和是否大于k, boolean check(int x…...

Rshiny编写ui中具有web依赖项的控件{该问题的具体阐述请看引言}

Rshiny编写ui中具有web依赖项的控件{该问题的具体阐述请看引言} 引言conditionalPanel函数update*函数系列总结引言 问题说明:在汇报的过程中我们想添加具有web依赖项的控件,比如ui中有两个控件:第一个控件标签为m,其取值为:1、2;第二个控件标签为m0,m0的取值依赖于m,即…...

1700页,卷S人的 软件测试《八股文》PDF手册,涨薪跳槽拿高薪就靠它了

大家好,最近有不少小伙伴在后台留言,又得准备面试了,不知道从何下手! 不论是跳槽涨薪,还是学习提升!先给自己定一个小目标,然后再朝着目标去努力就完事儿了! 为了帮大家节约时间&a…...

bundle的常用命令

Bundle 是 Ruby 的一个包管理器,用于管理 Ruby 应用程序所需的依赖项。下面是一些常用的 Bundle 命令: 以下是常用的 Bundle 命令: 1. bundle install:安装所有在 Gemfile 中列出的 gem 包及其依赖项。 2. bundle update&#x…...

一、数据字典介绍

文章目录 一、数据字典介绍1、页面效果2、表设计3、数据分析4、根据页面效果分析数据接口 一、数据字典介绍 何为数据字典?数据字典就是管理系统常用的分类数据或者一些固定数据,例如:省市区三级联动数据、民族数据、行业数据、学历数据等&a…...

常见的SQL优化

索引优化:通过创建合适的索引来加快查询速度。查询优化:使用合适的查询语句和查询条件,避免全表扫描。比如: 避免使用SELECT *避免使用子查询避免使用OR操作符避免使用LIKE操作符使用LIMIT限制结果集大小优化查询语句的顺序 数据库…...

Sonic新生态Sonic IDE体验

背景 Sonic:免费开源的云真机测试平台,用心打造更好的使用体验。 之前在做APP的日常测试和UI自动化的时候,一直在使用Sonic 没有切换到平台上进行自动化测试的原因是由于现有脚本框架已经成熟,并且有很多自定义的拓展,所以Sonic的更多是一个设备管理员的角色 在Soni…...

[VRTK4.0]安装VRTKv4Tilia软件包导入程序

学习目标: 演示如何从Unitv资源商店安装VRTKv4Tilia包导入器,以轻松访问VRTKv4Tilia包,这些包为构建XR体验提供了各种有用的功能. 简述: 推荐使用2022.2.11F1以上版本来进行VRTK使用,我们可以从Unity资产商店导入Tilia包管理器&am…...

SpringBoot开发实用篇2---与数据层技术有关的替换和整合

四、数据层解决方案 1.SQL 现有数据层解决方案技术选型:DruidMyBatis-plusMySQL 数据源:DruidDataSource 持久化技术:MyBatis-plus/MyBatis 数据库:MySql 内置数据源: SpringBoot提供了3种内嵌的数据源对象供开发者选…...

科普ChatGPT

ChatGPT是什么? ChatGPT是一款基于人工智能技术的聊天机器人,可以进行自然语言的交互。它是由OpenAI公司开发的,其名称中的GPT是“Generative Pre-trained Transformer”的缩写,即基于预训练的转换器。ChatGPT使用预训练的神经网络模型来理…...

Spring MVC的核心类和注解

DispatcherServlet DispatcherServlet作用 DispatcherServlet是Spring MVC的核心类,也是Spring MVC的流程控制中心,也称为Spring MVC的前端控制器,它可以拦截客户端的请求。拦截客户端请求之后,DispatcherServlet会根据具体规则…...

Java 创建一个大文件

有时候,我们在对文件进行测试的时候,可能需要创建一个临时的大文件。 那么问题来了,在 Java 中如何创建大文件呢? 问题和解决 有些人想到的办法就是定义一个随机的字符串,然后重复很多次,然后将这个字符…...

董小姐大意了

阅读本文大概需要 1.17 分钟。 董小姐跟孟羽童的事情,想必大家或多或少都听说了。 事情的经过我就不多做赘述了,实际上并不复杂。 董小姐不是善茬,孟年轻做不来事,不能给格力带来价值,那可以归为双方没缘分&#xff0c…...

Java高并发核心编程—内置锁原理篇

注:本笔记是阅读《Java高并发核心编程卷2》整理的笔记! 导致并发修改的原因 基本概念 synchronized 关键字 方法声明synchronized synchronized 同步块 消费者生产者问题 Java对象结构与内置锁 四种内置锁 偏向锁原理 偏向锁的撤销 偏向锁的膨胀 全局安全…...

opencv文字识别

OpenCV(开源计算机视觉库)是一个用于实现计算机视觉和机器学习的开源库。它包含了许多预先训练的模型和算法,可以帮助开发者快速实现图像处理、对象检测和识别等功能。在文字识别方面,OpenCV也有一些实用的工具和方法。 要在OpenC…...

bool、python集合

目录 1、使用bool判断某一数据类型是否为空 2、Python集合(数组) 1、列表 2、元组 3、集合 4、字典 1、使用bool判断某一数据类型是否为空 如果有某种内容,则几乎所有值都将评估为 True。 除空字符串外,任何字符串均为 Tr…...

从零开始学架构——可扩展架构模式

可扩展架构模式的基本思想和模式 软件系统与硬件和建筑系统最大的差异在于软件是可扩展的,一个硬件生产出来后就不会再进行改变、一个建筑完工后也不会再改变其整体结构 例如,一颗 CPU 生产出来后装到一台 PC 机上,不会再返回工厂进行加工以…...

终极指南:如何使用Everything Claude Code实现Laravel验证循环的AI自动化

终极指南:如何使用Everything Claude Code实现Laravel验证循环的AI自动化 【免费下载链接】everything-claude-code The agent harness performance optimization system. Skills, instincts, memory, security, and research-first development for Claude Code, C…...

Redis持久化:从AOF到RDB,如何实现数据不丢失?耐

Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...

Kubernetes集群的自动化运维实践

Kubernetes集群的自动化运维实践 🔥 硬核开场 各位技术老铁,今天咱们聊聊Kubernetes集群的自动化运维实践。别跟我扯那些理论,直接上干货!在云原生时代,Kubernetes已经成为容器编排的事实标准,但随着集群规…...

进口水漆全屋定制,亲测这家源头厂

一、行业痛点分析在进口水漆全屋定制领域,存在诸多核心技术挑战。首先是环保标准方面,数据显示,部分传统油漆中挥发性有机化合物(VOCs)含量可高达每升几百克,远高于国际先进标准的每升几十克以内。这不仅对…...

Tushare 快速入门:Python 获取 A 股日线数据最简教程

Tushare 是国内非常稳定、易用的财经数据接口库,非常适合量化学习、股票复盘、数据分析使用。 本文给大家分享**最简单、可直接运行**的入门用法,新手也能 1 分钟上手。## 1. 安装 Tushare pip install tushare ## 2. 获取 Token 1. 打开官网&#xff1…...

终极mdp教程:如何用命令行轻松创建精美Markdown幻灯片

终极mdp教程:如何用命令行轻松创建精美Markdown幻灯片 【免费下载链接】mdp A command-line based markdown presentation tool. 项目地址: https://gitcode.com/gh_mirrors/md/mdp mdp是一款基于命令行的Markdown演示工具,它让你能够直接在终端中…...

Thiserror终极性能优化指南:避开5大常见陷阱的最佳实践

Thiserror终极性能优化指南:避开5大常见陷阱的最佳实践 【免费下载链接】thiserror derive(Error) for struct and enum error types 项目地址: https://gitcode.com/gh_mirrors/th/thiserror Thiserror是Rust生态中一款强大的错误处理工具,通过d…...

.NET 9容器化调试黄金三角(dotnet-monitor + OpenTelemetry + VS Code Dev Containers),2024 Q3微软内部培训绝密资料首次公开

第一章:.NET 9容器化调试黄金三角全景图.NET 9 容器化调试的“黄金三角”由 **源码映射(Source Link)**、**容器内调试代理(vsdbg in container)** 和 **Docker Compose 集成调试配置** 三者构成,三者协同实…...

概率论作业救星:用科学计算器5分钟搞定样本标准差与方差(含S和σ区分指南)

概率论作业救星:科学计算器5分钟速成样本标准差与方差实战指南 深夜赶概率论作业时,你是否也曾在样本标准差(S)和总体标准差(σ)的选项前犹豫不决?面对卡西欧fx-82ES计算器密密麻麻的按键&…...

硬件散热的智能管家:FanControl全维度调控指南

硬件散热的智能管家:FanControl全维度调控指南 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanCon…...