当前位置：首页 > news >正文

【生成式AI】ProlificDreamer论文阅读

news 2025/11/16 15:00:57

ProlificDreamer 论文阅读

Project指路：https://ml.cs.tsinghua.edu.cn/prolificdreamer/
论文简介：截止2023/8/10，text-to-3D的baseline SOTA，提出了VSD优化方法

前置芝士:text-to-3D任务简介

text-to-3D Problem

text-to-3D 解决的问题就是给定一段话，生成视角一致的3D场景，如果了解过这个领域的可以略过不看

在这里插入图片描述

研发路线大概是dreamfeild->dreamfusion->polificdreamer

Diffusion Model

text-to-image领域Diffusion Model很厉害，所以基本上就是Extend Diffusion Model to 3D，想看Diffusion Model简介可以看我之前的博文：

生成模型的Basic Idea就是真实图片作为随机分布，每个text是条件。

Diffusion Model训练出了一个条件分布 $p(\mathbf x|y)$ ，x是图片，y是条件（text），其Loss Function可以表达为 $\mathcal L_{Diff}(\phi) := \mathbb E_{x_0\sim q(x_0),t\sim \mathcal U(0,1),\epsilon \sim \mathcal N(0,1)}[w(t)\|\epsilon_\phi(\alpha_tx_0+\sigma_t\epsilon)-\epsilon\|^2_2]$

text-to-3D 基本思路

$\theta$ 是3D表达的参数， $c$ 是参数，那么3D渲染的本质是 $\mathbf{x}=g(\theta, c)$ ，如果过程是可微的，称为DIP(differentiable image parameterization)
对于2D， $x_0\sim q(x_0)$ 代表Sample过程，是真实图片的分布，而text-to-3D就是把Loss变成 $\mathcal L_{Diff}(\phi,\mathbf{x}=g(\theta, c))$ ，去优化 $\theta$

Prolific Dreamer Basic Idea

符号

prolific dreamer这篇文章进一步研究，认为一个合理的3D表达也是一个分布，也就是 $\theta\sim \mu(\theta|y)$
渲染出来的图片： $q_0^\mu(x_0|c,y):=\int q_0^\mu(x_0|c,y)p(c)dc$
diffusion model渲染出来的图片： $p_0(x_0|y)$

优化目标

优化一个参数分布，使得它和Diffusion Model生成的结果接近（pretrained）
$\min_\mu D_{KL}(q_0^\mu(x_0|y)\| p_0(x_0|y))$

算法

Loss Function

根据上述优化目标，可以提出如下的Loss

BTW，为什么这个等号成立我是不太理解的（原论文说是KL Divergence的性质），占个坑

我认为这个步骤其实就是cover Diffusion Model的步骤， $q_t^\mu(x_t|y):=\int q_0^\mu(x_0|c,y)p_{t0}(x_t|x_0)dx_0$ ，也就是给定camera，把某张图片渲染出来之后拿去上t步高斯噪声的分布，让这个分布和Diffsuion Model 第t步的图片分布尽可能接近。

这已经是一个非常形式化的优化目标了。接下来考虑优化手段。

Optimization

采用Wasserstein gradient flow of VSD，简单理解就是，用 $\set\theta_{i=1}^n$ 这n个参数“粒子”去模拟 $\mu(\theta|y)$ ，然后优化的时候就是优化每个粒子参数。

基于此，问题转化解如下的一个ODE：
在这里插入图片描述
第一项是Diffusion Model生成的带噪音的真实图片的score function，所以它由预训练好的 $\epsilon_{pretrain}(x_t,t,y)$ 生成
第二项是渲染出来图片生成的带噪声的图片的score function，它由根据一个新网络 $\epsilon_\phi(x_t,t,c,y)$ 生成，这个网络采用LoRA 技术，微调 $\epsilon_{pretrain}$ 再embedding一个c进去。

所以进一步转化：
在这里插入图片描述
并得到了如下的算法

在这里插入图片描述

这篇文章的做法到这里介绍完毕。

数学原理

占坑代填，孩子暂时不会泛函推不了

【生成式AI】ProlificDreamer论文阅读

ProlificDreamer 论文阅读 Project指路：https://ml.cs.tsinghua.edu.cn/prolificdreamer/ 论文简介：截止2023/8/10，text-to-3D的baseline SOTA，提出了VSD优化方法前置芝士:text-to-3D任务简介 text-to-3D Problem text-to-3D…...

编程日记 2023/8/15 2:33:52

C++元编程——模拟javascript异步执行

javascript有一个期约调用，就是利用内部的一种协程机制实现的类似并行的操作。以下是用ChatGPT搞出来的一块演示代码： // 异步任务 function asyncTask() {return new Promise((resolve, reject) > {setTimeout(() > {const randomNumber Math.f…...

编程日记 2023/8/15 2:32:50

【JavaEE】懒人的福音-MyBatis框架—复杂的操作-动态SQL

【JavaEE】MyBatis框架要点总结（3） 文章目录【JavaEE】MyBatis框架要点总结（3）1. 多表查询1.1 映射表resultMap1.2 只有部分属性跨表查询1.2.1 依照常规去写代码1.2.2 用标签去实现接口 1.3 分多步的解决方案1.4 与多线程的结合 …...

编程日记 2023/8/15 2:31:49

Springboot 默认路径说明

Spring Boot基本上是Spring框架的扩展，它消除了设置Spring应用程序所需的样板配置，极大的方便了开发者，其默认识别路径如下： Spring Boot 作为Spring默认将 /** 所有访问映射到以下目录： 1、classpath:/static 用于加…...

编程日记 2023/8/15 2:30:48

springboot注册拦截器与返回统一标准响应格式

响应对象ResultVO package com.example.poi.utils;import io.swagger.annotations.ApiModel; import io.swagger.annotations.ApiModelProperty; import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor;import java.io.Serializable;/*** A…...

编程日记 2023/8/15 2:29:47

卷王特斯拉又全网降价了，卷死车企们

哈喽,大家好,今天媒介盒子小编又来跟大家分享软文推广的干货知识了,本篇分享的主要内容是：特斯无孔不入的营销手段。 1、特斯拉Model Y降价车企要打架自2023 年 8 月 14 日起，Model Y 长续航版起售价从 31.39 万元调整为 29.99 万元，Mode…...

编程日记 2023/8/15 2:28:45

wiley：revision 流程

1 上传修改后的word文件注意：包括没标注修改位置的word文件和标注了修改位置的word文件 2 上传response回复文件 Your Author Response should include relevant comments that you have copied from the decision letter, along with your comments detailing …...

编程日记 2023/8/15 2:27:44

【论文阅读】基于深度学习的时序预测——Pyraformer

系列文章链接论文一：2020 Informer：长时序数据预测论文二：2021 Autoformer：长序列数据预测论文三：2022 FEDformer：长序列数据预测论文四：2022 Non-Stationary Transformers：非平…...

编程日记 2023/8/15 2:26:43

玩转IndexedDB，比localStorage、cookie还要强大的网页端本地缓存

随着浏览器的功能不断增强，越来越多的网站开始考虑，将大量数据储存在客户端，这样可以减少从服务器获取数据，直接从本地获取数据。现有的浏览器数据储存方案，都不适合储存大量数据：Cookie 的大小不超过 4K…...

编程日记 2023/8/15 2:25:42

RedisDesktopManager连不上redis问题解决（小白版）

常见问题就是 redis.conf配置文件 a.将port 127.0.0.1这一行注释掉 b.protected-mode保护模式改为no 这个可以看到很多博主都说了，相信都搜到这里来了你们都弄了，我就不详细说了防火墙开放端口我说明我自己的问题以及解决方法 1、执行telnet 虚拟…...

编程日记 2023/8/15 2:24:41

蓝帽杯取证2022

网站取证网站取证_1 下载附件并解压得到了一个文件以及一个压缩包解压压缩包用火绒查病毒发现后门打开文件路径之后发现了一句话木马解出flag 网站取证_2 让找数据库链接的明文密码打开www文件找找查看数据库配置文件/application/database.php（CodeI…...

编程日记 2023/8/15 2:23:40

MyBatis and or使用列表控制or条件

背景：最近项目需要，师傅可以查找订单，而师傅是指定可以服务2到3个区域，故需要使用到and, or条件的组合，以下记一下代码。最重要的代码是： 1、构建List<Consumer<LambdaQueryWrapper<T>>&g…...

编程日记 2023/8/15 2:22:37

C语言刷题训练【第11天】

大家好，我是纪宁。今天是C语言笔试刷题训练的第11天，加油！ 文章目录 1、声明以下变量，则表达式: ch/i (f*d – i) 的结果类型为（ ）2、关于代码的说法正确的是（ ）3、已知有如下各变…...

编程日记 2023/8/15 2:21:36

正则表达式的使用

1、正则表达式-教程正则表达式：文本模式，包括普通字符（例如，a到z之间的字母）和特殊字符（称为元字符）。正则表达式使用单个字符串来描述，匹配一系列匹配某个句法规则的字符串。 2、…...

编程日记 2023/8/15 2:20:34

PHP 求解两字符串所有公共子序列及最长公共子序列支持多字节字符串

/*** 获取两字符串所有公共子序列【不连续的】例：abc ac > ac** param string $str1 字符串1* param string $str2 字符串2** return array*/ function public_sequence(string $str1, string $str2): array {$data [[-1, -1, , 0, ]]; // 子序列容器【横坐标 …...

编程日记 2023/8/15 2:19:31

linux内核bitmap之setbit汇编实现

内核版本：kernel 0.12 首先看一段代码，下面这段代码来自内核版本0.12的mm/swap.c中： // mm/swap.c #define bitop(name,op) \static inline int name(char * addr,unsigned int nr) \ { \int __res; \__asm__ __volatile__("bt" …...

编程日记 2023/8/15 2:18:30

Golang设计模式

Golang设计模式 Golang设计模式简介Golang工厂设计模式Golang单例设计模式Golang抽象工厂设计模式Golang建造者模式 (Builder Pattern)Golang 原型模式(Prototype Pattern)Golang适配器模式Golang 桥接模式（Bridge Pattern）Golang装饰器模式(Decorator …...

编程日记 2023/8/15 2:17:28

leetcode151. 反转字符串中的单词

题目：leetcode151. 反转字符串中的单词描述： 给你一个字符串 s ，请你反转字符串中单词的顺序。单词是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的单词分隔开。返回单词顺序颠倒且单词之间用单个空格连接的结…...

编程日记 2023/8/15 2:16:27

【BASH】回顾与知识点梳理（十七）

【BASH】回顾与知识点梳理十七十七. 什么是 Shell scripts17.1 干嘛学习 shell scripts自动化管理的重要依据追踪与管理系统的重要工作简单入侵检测功能连续指令单一化简易的数据处理跨平台支持与学习历程较短 17.2 第一支 script 的撰写与执行撰写第一支 script 17.3 撰写 s…...

编程日记 2023/8/15 2:15:26

时序预测-Informer简介

文章目录 Informer介绍1. Transformer存在的问题2. Informer研究背景3. Informer 整体架构3.1 ProbSparse Self-attention3.2 Self-attention Distilling3.3 Generative Style Decoder 4. Informer的实验性能5. 相关资料 Informer介绍 1. Transformer存在的问题 Informer实质…...

编程日记 2023/8/15 2:14:25

云计算——弹性云计算器（ECS）

弹性云服务器：ECS 概述云计算重构了ICT系统，云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台，包含如下主要概念。 ECS（Elastic Cloud Server）：即弹性云服务器，是云计算…...

编程新知 2025/8/16 21:50:27

c++ 面试题(1)-----深度优先搜索（DFS）实现

操作系统：ubuntu22.04 IDE:Visual Studio Code 编程语言：C11 题目描述地上有一个 m 行 n 列的方格，从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子，但不能进入行坐标和列坐标的数位之和大于 k 的格子。例…...

编程新知 2025/11/5 20:18:24

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/9/24 13:35:36

七、数据库的完整性

七、数据库的完整性主要内容 7.1 数据库的完整性概述 7.2 实体完整性 7.3 参照完整性 7.4 用户定义的完整性 7.5 触发器 7.6 SQL Server中数据库完整性的实现 7.7 小结 7.1 数据库的完整性概述数据库完整性的含义正确性指数据的合法性有效性指数据是否属于所定…...

编程新知 2025/11/12 15:21:52

Unity UGUI Button事件流程

场景结构测试代码 public class TestBtn : MonoBehaviour {void Start(){var btn GetComponent<Button>();btn.onClick.AddListener(OnClick);}private void OnClick(){Debug.Log("666");}}当添加事件时 // 实例化一个ButtonClickedEvent的事件 [Formerl…...

编程新知 2025/11/12 21:36:56

SpringAI实战：ChatModel智能对话全解

一、引言：Spring AI 与 Chat Model 的核心价值 🚀 在 Java 生态中集成大模型能力，Spring AI 提供了高效的解决方案 🤖。其中 Chat Model 作为核心交互组件，通过标准化接口简化了与大语言模型（LLM&#xff0…...

编程新知 2025/9/27 0:41:04

在鸿蒙HarmonyOS 5中使用DevEco Studio实现指南针功能

指南针功能是许多位置服务应用的基础功能之一。下面我将详细介绍如何在HarmonyOS 5中使用DevEco Studio实现指南针功能。 1. 开发环境准备确保已安装DevEco Studio 3.1或更高版本确保项目使用的是HarmonyOS 5.0 SDK在项目的module.json5中配置必要的权限 2. 权限配置在mo…...

编程新知 2025/10/8 8:04:56