当前位置：首页 > news >正文

每日学术速递4.4

news 2026/3/29 16:12:01

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CL

1.Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

标题：Baize：一种对自聊天数据进行参数高效调优的开源聊天模型

作者：Canwen Xu, Daya Guo, Nan Duan, Julian McAuley

文章链接：https://arxiv.org/abs/2304.01196

项目代码：https://t.co/yRCl9Z4v0z

摘要：

ChatGPT 等聊天模型已显示出令人印象深刻的功能，并已在众多领域迅速采用。然而，这些模型只能通过受限的 API 访问，这为该领域的新研究和进步创造了障碍。我们提出了一种管道，可以通过利用 ChatGPT 与自己进行对话来自动生成高质量的多轮聊天语料库。随后，我们采用参数有效调整来增强开源大型语言模型 LLaMA。由此产生的名为 Baize 的模型在带有护栏的多轮对话中展示了良好的性能，可以最大限度地减少潜在风险。

Subjects: cs.CV

2.ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model

标题：ReMoDiffuse：检索增强运动扩散模型

作者：Mingyuan Zhang, Xinying Guo, Liang Pan, Zhongang Cai, Fangzhou

文章链接：https://arxiv.org/abs/2304.01116

项目代码：https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html

摘要：

3D 人体运动生成对于创意产业至关重要。最近的进展依赖于具有领域知识的生成模型来生成文本驱动的动作，从而在捕捉常见动作方面取得了实质性进展。然而，在更多样化的运动上的表现仍然不尽如人意。在这项工作中，我们提出了 ReMoDiffuse，这是一种基于扩散模型的运动生成框架，它集成了检索机制以改进去噪过程。ReMoDiffuse 通过三个关键设计增强了文本驱动运动生成的普遍性和多样性：1) 混合检索在语义和运动学相似性方面从数据库中找到适当的参考。2) Semantic-Modulated Transformer 有选择地吸收检索知识，适应检索样本和目标运动序列之间的差异。3）条件混合在推理过程中更好地利用检索数据库，克服了无分类器指导中的尺度敏感性。大量实验表明，ReMoDiffuse 通过平衡文本运动一致性和运动质量，优于最先进的方法，尤其是对于更多样化的运动生成。

3.Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

标题：我们在哪里寻找用于体现智能的人工视觉皮层？

作者：Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain.etc

文章链接：https://arxiv.org/abs/2303.18240

项目代码：https://eai-vc.github.io/

摘要：

我们对 Embodied AI 的预训练视觉表示 (PVR) 或视觉“基础模型”进行了最大、最全面的实证研究。首先，我们策划了 CortexBench，它由 17 项不同的任务组成，涵盖运动、导航、灵巧和移动操作。接下来，我们系统地评估现有的 PVR，发现没有一个具有普遍优势。为了研究预训练数据规模和多样性的影响，我们将来自 7 个不同来源（超过 560 万张图像）的超过 4,000 小时的以自我为中心的视频与 ImageNet 相结合，使用掩码自动编码 (MAE) 在切片上训练不同大小的视觉转换器这个数据。与之前工作的推论相反，我们发现扩展数据集的大小和多样性并不能普遍提高性能（但平均而言）。我们最大的模型，名为 VC-1，平均优于所有先前的 PVR，但也没有普遍占据优势。最后，我们证明了 VC-1 的任务或特定领域的适应性带来了实质性的收益，VC-1（适应性的）比 CortexBench 中所有基准测试中最知名的结果具有竞争力或更优越的性能。这些模型需要 10,000 多个 GPU 小时来训练，并且可以在我们的网站上找到以供研究社区使用。

更多Ai资讯：公主号AiCharm
在这里插入图片描述

每日学术速递4.4

Subjects: cs.CL

1.Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on Self-Chat Data

Subjects: cs.CV

2.ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model

3.Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

相关文章：

每日学术速递4.4

ChatGPT将引发大量而普遍的网络安全隐患

购买学生护眼台灯几瓦最好？有哪些推荐护眼灯

什么是 SYN 攻击？如何避免 SYN 攻击？

数据分析练习——学习一般分析步骤

Linux环境下挂载exfat格式U盘，以及安装exfat文件系统

网格布局grid

《扬帆优配》环境更优！这类资金，迎利好！

RK3568平台开发系列讲解（内存篇）内存管理的相关结构体

如何理解二叉树与递归的关系

CSS 高级技巧

ToBeWritten之MIPS汇编基础铺垫

MySQL数据库对数据库表的创建和DML操作

【PCB专题】PCB 阻焊层（solder mask）与助焊层（paste mask）有什么区别

ThreeJS-纹理旋转、重复（十一）

CSDN——Markdown编辑器——官方指导

DN-DETR调试记录

ASP消防网上考试系统设计与实现

MongoDB - 数据模型的设计模式

3D格式转换工具助力Shapr3D公司产品实现了 “无障碍的用户体验”，可支持30多种格式转换！

视频内容自动打标：基于Emotion2Vec+ Large的语音情绪分析方案

3分钟，零代码！让Arduino看懂你的手势——Teachable Machine硬件魔法揭秘

Qwen2.5-VL视觉定位模型优化升级：GPU加速、批量处理、提示词技巧

VDisk技术详解：原理、应用与优化实践指南

探索开源字体商用解决方案：思源宋体TTF的多场景应用与价值解析

Lua代码混淆实战：基于Prometheus的Unity项目保护指南

Python MCP服务部署成本飙升？5个被90%团队忽略的隐性开销及实时监控方案

3步实现专业级字幕去除：面向视频创作者的AI处理工具全指南

终极指南：如何用F3工具3分钟识别U盘和SD卡的真实容量

Youtu-VL-4B-Instruct图文理解效果集锦：源码部署后生成100+张高质量图片描述样例