当前位置：首页 > news >正文

每日学术速递2.21

news 2026/2/9 15:01:45

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

标题：T2I-Adapter：学习Adapter，为Text-to-Image扩散模型挖掘更多可控能力

作者：Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, XiaoHu Qie

文章链接：https://arxiv.org/abs/2302.08453v1

项目代码：hhttps://github.com/tencentarc/t2i-adapter

摘要：

大规模文本到图像 (T2I) 模型令人难以置信的生成能力已经证明了学习复杂结构和有意义的语义的强大能力。然而，仅仅依靠文本提示并不能充分利用模型学到的知识，尤其是在需要灵活准确的结构控制时。在本文中，我们的目标是“挖掘”出 T2I 模型隐式学习的能力，然后显式地使用它们来更细粒度地控制生成。具体来说，我们建议学习简单和小型的 T2I-Adapters 以对齐内部知识具有外部控制信号的T2I模型，同时冻结原有的大型T2I模型。这样，我们可以根据不同的条件训练各种适配器，实现丰富的控制和编辑效果。此外，所提出的T2I-Adapters具有实用价值的吸引人的特性，例如可组合性和泛化能力。大量实验表明，我们的 T2I-Adapter 具有良好的生成质量和广泛的应用范围。

2.3D Human Pose Lifting with Grid Convolution

标题：网格卷积的 3D 人体姿态提升

作者：Yangyuxuan Kang, Yuyang Liu, Anbang Yao, Shandong Wang, Enhua Wu

文章链接：https://arxiv.org/abs/2302.08760v1

项目代码：https://github.com/osvai/gridconv

摘要：

现有的用于从 2D 单视图姿势回归 3D 人体姿势的提升网络通常是用基于图结构表示学习的线性层构建的。与它们形成鲜明对比的是，本文提出了网格卷积 (GridConv)，它模仿了图像空间中常规卷积运算的智慧。GridConv 基于一种新颖的语义网格变换 (SGT)，它利用二进制分配矩阵将不规则图形结构的人体姿势逐个关节映射到规则的编织状网格姿势表示，从而通过 GridConv 操作实现逐层特征学习。我们提供两种实现 SGT 的方法，包括手工设计和可学习设计。令人惊讶的是，这两种设计都取得了有希望的结果，而且可学习的设计更好，证明了这种新的提升表示学习公式的巨大潜力。为了提高 GridConv 编码上下文线索的能力，我们在卷积核上引入了一个注意力模块，使网格卷积操作依赖于输入、空间感知和网格特定。我们表明，我们的全卷积网格提升网络优于最先进的方法，在 (1) Human3.6M 的常规评估和 (2) MPI-INF-3DHP 的交叉评估下具有明显的利润率。

Subjects: cs.LG

3.MiDi: Mixed Graph and 3D Denoising Diffusion for Molecule Generation

标题：MiDi：用于分子生成的混合图和 3D 去噪扩散

作者：Clement Vignac, Nagham Osman, Laura Toni, Pascal Frossard

文章链接：https://arxiv.org/abs/2302.09048v1

项目代码：https://github.com/cvignac/midi

摘要：

这项工作介绍了 MiDi，这是一种用于联合生成分子图和相应的 3D 构象异构体的扩散模型。与使用预定义规则从构象中导出分子键的现有模型相比，MiDi 使用端到端可微分模型简化了分子生成过程。实验结果证明了这种方法的好处：在复杂的 GEOM-DRUGS 数据集上，我们的模型生成的分子图明显优于基于 3D 的模型，甚至超过了直接优化键顺序有效性的专门算法。我们的代码可在 github.com/cvignac/MiDi 获得。

更多Ai资讯：公主号AiCharm
在这里插入图片描述

每日学术速递2.21

Subjects: cs.CV

1.T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models

2.3D Human Pose Lifting with Grid Convolution

Subjects: cs.LG

3.MiDi: Mixed Graph and 3D Denoising Diffusion for Molecule Generation

相关文章：

每日学术速递2.21

网络安全之认识挖矿木马

OpenCV实战——基于分水岭算法的图像分割

YOLOv8模型调试记录

算法刷题打卡第97天：删除字符串两端相同字符后的最短长度

WebGPU学习（3）---使用IndexBuffer（索引缓冲区）

Java代码加密混淆工具有哪些?

华为OD机试 - 高效的任务规划（Python） | 机试题+算法思路+考点+代码解析【2023】

ChatGPT写程序如何？

编译链接实战（9）elf符号表

React合成事件的原理是什么

Arduino-交通灯

【论文笔记】Manhattan-SDF == ZJU == CVPR‘2022 Oral

好消息！Ellab（易来博）官方微信公众号开通了！携虹科提供专业验证和监测解决方案

想要去字节跳动面试Android岗，给你这些面试知识点

Java的Lambda表达式的使用

Spring MVC 源码 - HandlerMapping 组件（三）之 AbstractHandlerMethodMapping

超店有数，为什么商家要使用tiktok达人进行营销推广呢？

【分享】订阅万里牛集简云连接器同步企业采购审批至万里牛系统

C++类和对象_02----对象模型和this指针

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

【第二十一章 SDIO接口(SDIO)】

JVM垃圾回收机制全解析

相机从app启动流程

在WSL2的Ubuntu镜像中安装Docker

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

怎么让Comfyui导出的图像不包含工作流信息，

stm32wle5 lpuart DMA数据不接收

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG