当前位置: 首页 > news >正文

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 论文解读

目录

一、概述

二、相关工作

1、LLMs到多模态

2、3D对象生成

3、自回归的Mesh生成

三、LLaMA-Mesh

1、3D表示

2、预训练模型

3、有监督的微调数据集

4、数据集演示

四、实验

1、生成的多样性

2、不同模型text-to-Mesh的比较

3、通用语境的评估


一、概述

        该论文首次提出了一个通过大语言模型(LLM)来生成3D对象的模型LLaMA-Mesh,扩展了在文本上预训练的LLM的能力,来生成一个3D Mesh,有效地统一了3D和文本,并且仍然保持了原有LLaMA的文本生成性能。

(1)将3D Mesh表示为纯文本形式,实现LLM与3D Mesh的直接集成,避免了量化带来的几何细节损失,使LLM能够直接处理和生成3D Mesh。

(2)构建了包含3D Mesh生成、理解和文本生成任务的有监督微调(SFT)数据集,使得预训练的LLM能够学习复杂的空间知识,实现文本到3D网格的统一生成。

(3)在微调LLM以进行3D Mesh生成的同时,也保持了模型在文本生成任务上的优秀性能,实现了两种模态的统一。

二、相关工作

1、LLMs到多模态

        将LLM扩展到一个统一的模型处理和生成多模态信息,例如视觉和语言,近期的大模型工作包括多模态的理解视觉如Qwen,Blip,Vila等,使用视觉分词器来统一图像和文本的生成例如Emu3,Chameleon等。而该论文考虑修改分词器,来实现生成3D模型。

        以往的LLM只有生成预定义对象的布局方式(类似于编辑),而本论文是第一个允许LLM直接生成3D Mesh作为OBJ文件。

2、3D对象生成

        DreamFusion、Magic3D、ProlificDreamer等考虑使用SDS来实现文本到3D对象。

        LRM、CRM、InstantMesh等考虑使用前馈方法无需测试是优化来生成3D对象。

        但是这些方法通常将3D对象转变为数值场,并通过marching cubes或者其他类似变体来提取mesh,但不容易引入分词器作为离散标记。

3、自回归的Mesh生成

        类似于PolyGen、MeshGPT、MeshXL等奖3D对象表示为一个标记坐标的离散序列,并使用自回归transformer来生成具有艺术性的对象。

        MeshAnything、PivotMesh、EdgeRunner通过点云作为输入特征来优化限制,但这些工作都从0开始训练,缺乏语言能力。

三、LLaMA-Mesh

        LLaMA-Mesh模型分为三个模块:将3D Mesh转换为文本,预训练带有3D对象多模态的LLaMA-Mesh,创建有监督的3D对话数据集。

1、3D表示

        LLaMA-Mesh采用obj文件格式来表示3D网格模型,obj文件包含顶点(v)坐标和面(f)定义两个信息,如下图左侧的表示,顶点v就是x,y,z坐标,f就是v_1,v_2,v_3三个顶点坐标索引。

        对于坐标存在浮点数的问题,由于超出LLM上下文,所以论文进行量化,通过定义一个固定的[0,64]的范围,每一个顶点都在整数点上,降低了精度但保证了能够进行正常训练,提供可行性。

2、预训练模型

        使用LLaMA3.1-8B-Instruct作为基础模型,但原有的模型效果不佳,缺少对3D对象的理解,所以我们考虑在自己创建的数据集上进行微调,实现模型能够学习OBJ格式的模式和语义,生成文本描述的有效3D网格。下图为ChatGPT 4o和LLaMA的预训练模型对3D OBJ文件的固有理解。

3、有监督的微调数据集

        对于建立有监督微调(SFT)数据集用于训练,使用Objaverse数据集中的mesh,一个可描述的通用3D数据集。并且过滤Objaverse数据集选择最多500个面的网格,并且转换为Obj格式,并将顶点坐标量化到64个箱子。文本使用Cap3D来生成每个网格的文本描述,并在[0^o,90^o,180^o,270^o]四个角度进行随机旋转。并且将Obj文件中的格式为[z,y,x],顶点坐标按照顶点低到高排序,面按照顶点索引从低到高排序,将LLM长度设置为8K个token。

        为了建立对话数据集,引入两种方法,基于规则的方法和基于LLM的增强

        基于规则的方法中设计了一些简单的模式,如用于理解3D模型:“(user) {obj} What is this?(assistant){caption}."  用于创造3D模型:“(user)Create a 3D model of {caption}.(assistant) {obj}” 对于每个对象随机选择一个模式,学习文本到3D表示之间的对应关系。

        对于增强方法,我们设计了复杂对话,实现3D to text的交错对话。

        这个对话包括了:3D模型创建和理解,数学理解,代码生成和物体的分解等工作。

        最后我们随机选择这两种方法,来随机构建对话,并且使用UltraChat创建通用对话数据集。

4、数据集演示

四、实验

1、生成的多样性

2、不同模型text-to-Mesh的比较

         其实LLaMA-Mesh的生成还是很 抽象的,由于使用网格生成而导致对于过于形象的物体会产生失真。

3、通用语境的评估

        再经过text-to-Mesh后,不可避免的就是对于原有的语境的性能下降,LLaMA-Mesh更适应对话3D对象问题,而对于原有的数学能力,常识推理等能力有所下降,但相比于LLaMA3.2(3B)更优,为什么不试8B?(hhhhh)

         对于上面的测试Metric的解释:

  • MMLU (Massive Multitask Language Understanding) 是一个评估模型一般知识的基准测试集。
  • PIQA (Physical Intuition QA) 是一个评估模型常识推理能力的基准测试集。
  • HellaSwag 是一个评估模型常识推理能力的基准测试集。
  • GSM8K (Grade School Math) 是一个评估模型数学问题解决能力的基准测试集。

参考文献:LLaMA-Mesh

相关文章:

LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models 论文解读

目录 一、概述 二、相关工作 1、LLMs到多模态 2、3D对象生成 3、自回归的Mesh生成 三、LLaMA-Mesh 1、3D表示 2、预训练模型 3、有监督的微调数据集 4、数据集演示 四、实验 1、生成的多样性 2、不同模型text-to-Mesh的比较 3、通用语境的评估 一、概述 该论文首…...

【ESP32CAM+Android+C#上位机】ESP32-CAM在STA或AP模式下基于UDP与手机APP或C#上位机进行视频流/图像传输

前言: 本项目实现ESP32-CAM在STA或AP模式下基于UDP与手机APP或C#上位机进行视频流/图像传输。本项目包含有ESP32源码(arduino)、Android手机APP源码以及C#上位机源码,本文对其工程项目的配置使用进行讲解。实战开发,亲测无误。 AP模式,就是ESP32发出一个WIFI/热点提供给电…...

ESP-KeyBoard:基于 ESP32-S3 的三模客制化机械键盘

概述 在这个充满挑战与机遇的数字化时代,键盘已经成为我们日常学习、工作、娱乐生活必不可少的设备。而在众多键盘中,机械键盘,以其独特的触感、清脆的敲击音和经久耐用的特性,已经成为众多游戏玩家和电子工程师的首选。本文将为…...

28.UE5游戏框架,事件分发器,蓝图接口

3-3 虚幻游戏框架拆解,游戏规则基础_哔哩哔哩_bilibili 目录 1.游戏架构 2.事件分发器 2.1UI控件中的事件分发器 2.2Actor蓝图中的事件分发器 2.2.1动态决定Actor的分发事件 2.2.2父类中定义事件分发器,子类实现事件分发器 2.3组件蓝图中实现事件…...

Puppeteer 和 Cheerio 在 Node.js 中的应用

Puppeteer 和 Cheerio 在 Node.js 中的应用 引言 在现代 Web 开发中,自动化测试、数据抓取和页面分析是常见的需求。Node.js 提供了丰富的工具和库来满足这些需求。本文将介绍两个在 Node.js 中常用的库:Puppeteer 和 Cheerio,它们分别用于…...

Unity2D 关于N方向俯视角 中 角色移动朝向的问题

通常对俯视角2d游戏的角色移动我们使用简单2d混合树的方式,但是其不移动时的朝向该如何定义? 十分简单:移动和不移动之间形成逻辑自锁 详细说明思路就是再创建一个简单2d混合树 定义其N方向的idle 并用lastDirc二维向量保存玩家输入,当玩家输…...

pytorch 和tensorflow loss.item()` 只能用于只有一个元素的张量. 防止显存爆炸

loss.item() 是 PyTorch 中的一个方法,它用于从一个只包含单个元素的张量(tensor)中提取出该元素的值,并将其转换为一个 Python 标量(即 int 或 float 类型)。这个方法在训练神经网络时经常用到&#xff0c…...

链表刷题|判断回文结构

题目来自于牛客网,本文章仅记录学习过程的做题理解,便于梳理思路和复习 我做题喜欢先把时间复杂度和空间复杂度放一边,先得有大概的解决方案,最后如果时间或者空间超了再去优化即可。 思路一:要判断是否为回文结构则…...

海盗王集成网关和商城服务端功能golang版

之前用golang把海盗王的商城服务端和网关服务端都重写了一次。 后来在同时开启网关和商城服务时,发现窗口数量有点多,有时要找到商城窗口比较麻烦。 既然2个都是用golang govcl写的,是不是可以集成到一起,方便使用呢?…...

SCI 中科院分区中位于4区,JCR分区位于Q2 是什么水平?

环境: ACM Transactions on Interactive Intelligent Systems 《Acm Transactions On Interactive Intelligent Systems》(《交互式智能系统上的 Acm 事务》)是一本由ASSOC COMPUTING MACHINERY (ACM)出版的Computer Interaction-Computer Science-Human学术刊物&…...

微知-Mellanox网卡的另外一种升级方式mlxup?(mlxup -d xxx -i xxx.bin)

背景 一般升级Mellanox网卡使用flint,还有另外一种叫做mlxup。 NVIDIA 提供了两种固件工具来更新和查询适配器固件: MLXUP - 固件更新和查询实用程序。该实用程序允许扫描服务器计算机以查找可用的 NVIDIA 适配器,并指示每个适配器是否需要…...

《Shader入门精要》透明效果

代码以及实例图可以看github :zaizai77/Shader-Learn: 实现一些书里讲到的shader 在实时渲染中要实现透明效果,通常会在渲染模型时控制它的透明通道(Alpha Channel)​。当开启透明混合后,当一个物体被渲染到屏幕上时&…...

Linux之SELinux与防火墙

一、SELinux的说明 开发背景与目的: SELinux由美国国家安全局(NSA)开发,旨在避免资源的误用。传统的Linux基于自主访问控制(DAC),通过判断进程所有者/用户组与文件权限来控制访问,对…...

深度学习使用LSTM实现时间序列预测

大家好,LSTM是一种特殊的循环神经网络(RNN)架构,它被设计用来解决传统RNN在处理长序列数据时的梯度消失和梯度爆炸问题,特别是在时间序列预测、自然语言处理和语音识别等领域中表现出色。LSTM的核心在于其独特的门控机…...

Vue第一篇:组件模板总结

前言 本文希望读者有一定的Vue开发经验&#xff0c;样例采用vue中的单文件组件&#xff0c;也是我的个人笔记&#xff0c;欢迎一起进步 必须有根元素 这是一个最简单的vue单文件组件&#xff0c;<template></template>被称为模板&#xff0c;模板中必须有一个根元素…...

时钟使能、

时钟使能 如果正确使用&#xff0c;时钟使能能够显著地降低系统功耗&#xff0c;同时对面积或性能的影响极小。但是如果不正确地使用时钟使能&#xff0c; 可能会造成下列后果&#xff1a; • 面积增大 • 密度减小 • 功耗上升 • 性能下降 在许多使用大量控制集的…...

1. Autogen官网教程 (Introduction to AutoGen)

why autogen The whole is greater than the sum of its parts.(整体的功能或价值往往超过单独部分简单相加的总和。) -Aristotle autogen 例子 1. 导入必要的库 首先&#xff0c;导入os库和autogen库中的ConversableAgent类。 import os from autogen import Conversable…...

开源账目和账单

开源竞争&#xff1a; 开源竞争&#xff08;当你无法彻底掌握技术的时候&#xff0c;你就开源这个技术&#xff0c;让更多的人了解这个技术&#xff0c;形成更多的技术依赖&#xff0c;你会说这不就是在砸罐子吗&#xff1f;一个行业里面总会有人砸罐子&#xff0c;你不如先砸…...

vue2面试题10|[2024-11-24]

问题1&#xff1a;vue设置代理 如果你的前端应用和后端API服务器没有运行在同一个主机上&#xff0c;你需要在开发环境下将API请求代理到API服务器。这个问题可以通过vue.config.js中的devServer.proxy选项来配置。 1.devServer.proxy可以是一个指向开发环境API服务器的字符串&…...

c语言与c++到底有什么区别?

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///C爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于c语言与c区别的相关内容&#xff01; 关…...

信创中间件深度解析:东方通TongWeb vs 金蝶天燕 vs 宝兰德,企业级选型指南

&#x1f4da; 信创中间件 &#x1f527; 企业级部署 &#x1f680; 国产化替代 ⏱️ 阅读约15分钟开篇导读&#xff1a;你是否在信创改造中不知道用什么替代WebLogic或WebSphere&#xff1f;网上搜到的中间件资料要么只讲产品功能不讲迁移方案&#xff0c;要么直接给配置却不解…...

卖轴承怎么找客户?下游工厂在哪里

卖轴承找客户&#xff0c;本质是找用轴承的下游工厂&#xff0c;核心难点是拿到这些下游厂的名单和联系人。轴承是机械传动的通用基础件&#xff0c;消耗量大、采购频繁&#xff0c;但下游行业分散、各自聚集在不同产业带&#xff0c;如果没有系统盘过下游版图&#xff0c;销售…...

ComfyUI-Impact-Pack V8进阶实战:掌握AI图像智能修复的3大核心场景与性能优化

ComfyUI-Impact-Pack V8进阶实战&#xff1a;掌握AI图像智能修复的3大核心场景与性能优化 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more…...

将 Hermes Agent 工具链接入 Taotoken 的配置要点解析

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 将 Hermes Agent 工具链接入 Taotoken 的配置要点解析 Hermes Agent 是一款功能强大的 AI 智能体开发框架&#xff0c;支持通过自定…...

CatServer深度解析:构建高性能Minecraft模组与插件一体化服务端实战指南

CatServer深度解析&#xff1a;构建高性能Minecraft模组与插件一体化服务端实战指南 【免费下载链接】CatServer 高性能和高兼容性的1.12.2/1.16.5/1.18.2版本ForgeBukkitSpigot服务端 (A high performance and high compatibility 1.12.2/1.16.5/1.18.2 version ForgeBukkitSp…...

为什么你的DeepSeek流式接口总在TP99处陡增?揭秘TCP_NODELAY误配+LLM输出熵突变双重陷阱

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;为什么你的DeepSeek流式接口总在TP99处陡增&#xff1f;揭秘TCP_NODELAY误配LLM输出熵突变双重陷阱 当 DeepSeek-R1 或 DeepSeek-V3 的流式响应&#xff08;如 /v1/chat/completions 启用 streamtrue&a…...

EASY-HWID-SPOOFER:3步掌握硬件标识伪装技术,保护数字隐私安全

EASY-HWID-SPOOFER&#xff1a;3步掌握硬件标识伪装技术&#xff0c;保护数字隐私安全 【免费下载链接】EASY-HWID-SPOOFER 基于内核模式的硬件信息欺骗工具 项目地址: https://gitcode.com/gh_mirrors/ea/EASY-HWID-SPOOFER 在当今数字时代&#xff0c;硬件标识&#x…...

Calibre-Web豆瓣API插件终极指南:5分钟恢复智能元数据获取

Calibre-Web豆瓣API插件终极指南&#xff1a;5分钟恢复智能元数据获取 【免费下载链接】calibre-web-douban-api 新版calibre-web已经移除douban-api了&#xff0c;添加一个豆瓣api实现 项目地址: https://gitcode.com/gh_mirrors/ca/calibre-web-douban-api 还在为Cali…...

Sobolev学习代理加速优化:激活函数与径向基函数选择鲁棒性分析

1. 项目概述与核心思路在工程优化和科学计算领域&#xff0c;我们常常会遇到一个令人头疼的问题&#xff1a;目标函数的每一次评估都极其昂贵。比如&#xff0c;一次评估可能意味着运行一次耗时数小时的流体力学仿真&#xff0c;或者调用一次复杂的有限元分析。传统的无导数优化…...

三步改造智能音箱:让普通设备拥有ChatGPT级别对话能力的零代码方案

三步改造智能音箱&#xff1a;让普通设备拥有ChatGPT级别对话能力的零代码方案 【免费下载链接】mi-gpt &#x1f3e0; 将小爱音箱接入 ChatGPT 和豆包&#xff0c;改造成你的专属语音助手。 项目地址: https://gitcode.com/GitHub_Trending/mi/mi-gpt 您是否曾觉得家中…...