当前位置：首页 > article >正文

影像生成模型的数学原理

article 2026/4/20 6:25:21

1.z是生成一个feature特征2.Network相当于是一个函数G(z)x,通过输入z特征来生成x目标图注意:输入network中的z不一定是向量图片可以是任何形式因为最后都会通过encoder来提取特征输入到模型中。3.最后这个x预测值要与真实的图片real image)进行对比看二者之间的差距。注意feature是通过real image提取出来的然后通过提取出来的特征来预测原来的real image.测量model 预测出来的Image与实际的Image之间的差距Maximum Likelihood Estimation(极大似然估计这里的x是feature(特征θ是model Pθ(x)是特征经过model后生成出来的东西 Pdata(x)是real image中的图片1.从真实图中提取几张图片2.计算θmodel)可以生成出目标真实图的概率然后相乘看最后有多大概率就是对θ的评价。θ*就是那个生成原图相似度最高的那个network就是最优的model有点像SDG记录保存最好的那个model。一些对θ*的数学推导推导到KL散度1.原来的θ*的量级有点高所以将其下降量级到log。2.第一个等号log(ab)logalogb第二个约等号相加就是在算期望EExPdata的意思是从Pdata真实值中取出xPθ(x)是用θ去预测x最后取期望。3.前半部分期望的定义积分的形式后半部分完全与θmodel)无关对模型的性能评价是没有关系的只与拿到的原始数据有关而这一步的原因是为了合并两项loga-logbloga/b)4.这两项合并后就是KL散度在对预测的数据对的积分下用原始数据的概率乘以log下x经过模型的概率除以原始数据的概率KL散度就是评价真实值与预则值之间不一样的程度。5.所以从推导的形式上看极大似然估计是找出预测效果最好的那个modelKL散度的找出预测的图片与实际图片相近的那个model.VAE : 计算Pθ(x)逻辑也是与上面生成类影像的模型差不多。预测模型的公式就是这样相当于求期望x是feature问题在于这个Pθ(x|z)要看G(x)的表现如果预测出来的图片与真实的图片一样才会设置为1否则为0.这种过于严苛的设定会导致评价模型的指标经常为0所以要适当放宽要求。所以从01的函数分布转向求预测值G(x)与真实值x之间的距离(也就是期望。VAE的指标评价--用logP(x)[logP(x)是VAE评价指标的下限但可以通过提高其下限来提高VAE的总体水平]转化第一步是经过贝叶斯定理【P(A|B)P(AB)/P(B)--在B发生的概率下发生A在发生B的概率下同时发生A和B】第二步是为了拆开loglogablogalogb)此时后面这一项是KL散度并且KL散度的大于0的所以说这里的下限就是这个期望而这个Eq(z|x)就是encoder本质就是为了提高这个lowe bound从而提高整体的logP(x)。DDPM计算Pθ(x)扩散模型的rever process就是将噪声图一次次去噪从而生成出与原图相近的预测图。在模的前面少一个负号。评价的方式与VAE类似就是计算预测值与真实值之间的距离也就是期望。这里的x1:xT就是指x1到xT之间的所有图片而这个公式就是马尔可夫链只看当下对未来的影响而不看过去对未来的影响。这里要明确P是反向传播[变清晰]从模糊xT-原图x0),q是前向处理[变模糊]从原图x0-模糊xT而DDPM评价指标的提高方式也是与VAE的一样都是通过提高其下限来提高整体的性能。同时DDPM的评价指标是在Forward Process中产生的也就是在从原图生成噪声的过程中。在计算前向的过程中主要计算的是q(x1:xT|x0)【意思是在x0原图的基础上去生成x1到xT】而这里是全连接的转化从x0到xT相当于是从x0到x1到x2.....到xT。而这里的每一步前向处理就是以一定的权重将清晰图与噪声图相加合成为一张模糊图。这里的两张图片标反了生成出来的是XT因为越往xT越模糊而理论上x0到xT就是一步步串行的生成。将每一步分解一下每一次的生成都是用不同的β同时每一个噪声图的正态分布N也是不同的。如此将1式的x1带入到2式的x1中就可以变成这样这样的好处在于可以只用一个噪声图就可以完成前面两步的工作。继续推导延续最后的XT就只是X0乘以一个参数加上噪声图乘以另一个参数。这里的所有β相乘可以直接用一个α来代替这样参数量也可以减少。这就是为什么理论上要多步完成但是实际操作则只需要一步就可以完成。DDPM的下限第一项的计算容易但是x1hi是需要netwoek(model)来预测的但只需要预测一次。第二项的KL散度x0是原图xT是噪声图一头一尾是已经定义好的了与要训练的network(model)无关所以可以无视。第三项是最重要的也是最难计算的因为Xt-1是需要network来训练的。而这一项的重点在于这个q(xt-1|xt,x0)理解一下q是前向传播加Noise的过程就是以一定比例将xt和高斯分布混合得到xt1),但是这里是从xt去推xt-1这本来应该是P反向传播的过程因为是从噪声图变成无噪声图的过程相当于去噪。而前向的过程中我们是这道这三项的关系的。所以如图就是要通过x0与xt通过贝叶斯公式回头计算出xt-1的关系。这里的前两项主要是通过条件概率的定义链式法则还有马尔可夫链的定义来转化的。而且这里的Xt-1,Xt,X0在使用链式法则的时候可以不管前后的关系也就是可以无视谁前谁后的问题可以解决Xt-1在Xt之前的问题。可以无视掉Xn往后的所有元素Xn-1--X0)。所以变成这个后就可以经过数学推导推出其distribution(xt-1),而这个分布的mean均值和Variance(方差)需要记住的是这里的Mean的αt-1,x0,βt都是已经设定好的了(fixed)是不需要训练的了。也就是与Xnetwork)无关。但是我们好回到这里的总目标我们是要计算q(xt-1|xt,x0)与P(xt-1|xt)这两个的KL散度。第一项已经确定mean与variance都不动。而第二项是反向传播去噪。这里的u均值是受t步长的影响的但是这个方差是不变的。所以总体来说这两个分布q和p之后p的Mean是会改变的其余的三项都是不变的。所以唯一能让KL散度下降的方式就是将P的均值项q的均值的方向靠近就可以让KL散度下降了。而让P的mean下降的方式就是优化Denoise因为Denoise是反向去噪的关键训练的对象。总体解释Sampling去噪过程的推导记住下面这个式子需要后续的推导。可以通过上面的式子可以求出X0(原图是多少用Xt.α等来表示。是噪声图的意思。在全面计算q(Xt-1|xt,x0)的分布时这个时候就是算出的Mean就是整一个去噪过程中每一步去噪过程的Mean。最后把转化出来的x0带入到这个分布的Mean中然后经过一些转化就可以得到最后的均值的表达式。。而这个式子中αβ都是手动一次次试出来的在Sampling(去噪)的过程中实际只有是需要network来训练predict的也就是说network只需要train噪声图即可这也与最出理论学习原理的时候一样。最后所推导出来的就是每一个去噪后图片的数学表达式一次次从Xt铜通过此公式推导到X0.

影像生成模型的数学原理

1.z是生成一个feature（特征） 2.Network相当于是一个函数G(z)x,通过输入z特征来生成x（目标图） 注意:输入network中的z不一定是向量，图片，可以是任何形式，因为最后都会通过encoder来提取特征&…...

编程日记 2026/4/20 6:25:21

构建基于千问3.5-2B的AI Agent：从理论到实现

构建基于千问3.5-2B的AI Agent：从理论到实现 1. 什么是AI Agent？ AI Agent（人工智能代理）是一种能够自主感知环境、做出决策并执行行动的智能系统。不同于传统AI模型仅能完成单一任务，AI Agent更像是一个"数字员…...

编程日记 2026/4/20 6:23:17

TVA在齿轮箱零部件及其装配质检中的应用（六）

前沿技术背景介绍：AI 智能体视觉检测系统（TVA，全称为 Transformer-based Vision Agent），是基于 Transformer 架构与 “因式智能体” 范式构建的高精度视觉智能体。它区别于传统机器视觉软件及早期 AI 视觉技术&#xf…...

编程日记 2026/4/20 6:23:16

Qwen3-TTS-1.7B部署教程：systemd服务封装与开机自启配置方法

Qwen3-TTS-1.7B部署教程：systemd服务封装与开机自启配置方法本文介绍如何将Qwen3-TTS-1.7B语音合成模型封装为systemd服务，实现一键启动、自动重启和开机自启，让AI语音服务像系统服务一样稳定运行。 1. 项目概述与环境准备 Qwen3-TTS-1.7B是…...

编程日记 2026/4/20 6:23:14

SDMatte效果对比展示：普通抠图vs SDMatte+，叶片锯齿消除与羽化自然度

SDMatte效果对比展示：普通抠图vs SDMatte，叶片锯齿消除与羽化自然度 1. 效果展示概览 SDMatte作为一款专业级AI抠图工具，在处理复杂边缘和半透明物体方面展现出显著优势。本文将重点对比标准版SDMatte与增强版SDMatte在处理叶片锯齿和羽化效…...

编程日记 2026/4/20 6:23:12

爬虫对抗：ZLibrary 反爬机制实战分析

引言ZLibrary 作为全球规模领先的数字文献共享平台，累计收录超千万册电子书籍与学术文献，在知识传播与资源获取领域具备广泛影响力，同时也因海量公开可访问数据成为网络爬虫的重点目标。网络爬虫作为自动化数据采集的核心工具，可高…...

编程日记 2026/4/20 6:22:47

网络分析仪去嵌方法

一、去嵌目的 VNA 校准参考平面在同轴端口，而 DUT 通过夹具、探针、转接器、PCB 走线连接。这些中间环节会引入：额外损耗、相位偏移、阻抗失配、串扰、色散。不去嵌，测得的是「DUT + 中间网络」的混合特性，无法得到 DUT 真实性能；去嵌入对象：夹具板的 Lead-ins 和 Lea…...

编程日记 2026/4/20 6:20:46

把 ABAP CDS 看透，DDL 与 DCL 如何一起撑起语义数据模型

今天把这张图放在旁边看，很多原本容易混在一起的概念，一下子就清楚了。左边是 DDL，右边是 DCL，上面两个蓝色框像是入口，下面两大片留白反而很有意思，它提醒我们，ABAP CDS 不是一条单纯的查询语法，而是一套把数据模型、语义信息、访问控制同时装进同一个设计面里的语言体…...

编程日记 2026/4/20 6:20:46

LiuJuan Z-Image Generator实操教程：transformer.键名自动清洗机制原理与验证

LiuJuan Z-Image Generator实操教程：transformer.键名自动清洗机制原理与验证 1. 引言如果你尝试过将自定义的模型权重加载到现有的扩散模型框架里，大概率会遇到一个让人头疼的问题：权重不匹配。控制台报出一堆“Missing keys”和“Unexpe…...

编程日记 2026/4/20 6:20:46

0003.无重复字符的最长子串

题目链接3. 无重复字符的最长子串 - 力扣（LeetCode）### 题目描述给定一个字符串 s, ，请你找出其中不含有重复字符的最长子串的长度。### 题目示例示例 1 :plain输入: s "abcabcbb"输出: 3 解释: 因为无重复字符的最长子串是 &qu…...

编程日记 2026/4/20 6:20:46

SonarQube安装下载及代码覆盖率使用

SonarQube安装与使用指南大纲一、引言介绍SonarQube及其作用使用场景和优势二、下载安装SonarQube 下载与解压运行与登录安全设置语言包安装三、通过SonarQube进行代码扫描创建项目生成令牌安装扫描工具运行扫描命令四、查看运行结果结果预览详细报告分析 …...

编程日记 2026/4/20 6:20:46

Qwen-Image-2512-SDNQ在VSCode中的开发环境配置全攻略

Qwen-Image-2512-SDNQ在VSCode中的开发环境配置全攻略想在VSCode中快速搭建Qwen-Image-2512-SDNQ的开发环境？这篇教程将手把手带你完成从零开始的配置过程，让你在10分钟内就能开始AI图像生成的开发工作。 1. 环境准备与基础配置在开始之前&#xff0c…...

编程日记 2026/4/20 6:18:46

打卡第七天环形链表判定

判断是否有环：使用快慢指针，快指针每次走两步，慢指针每次走一步。如果两者相遇，说明有环。寻找环入口：当快慢指针相遇后，将其中一个指针（例如慢指针）重置回链表头部，然后…...

编程日记 2026/4/20 6:18:46

S2-Pro前端面试题智能解析：基于Vue技术栈的实战演练

S2-Pro前端面试题智能解析：基于Vue技术栈的实战演练 1. 前端面试的痛点与解决方案前端开发者求职过程中，Vue技术栈的面试题往往是重点考察对象。许多候选人虽然具备实际项目经验，但在面对系统性的原理题、优化题时，常常出现&qu…...

编程日记 2026/4/20 6:18:46

PyTorch从零开始

欢迎来到 PyTorch 的世界！如果你正准备踏入深度学习的大门，PyTorch 是你绕不开的工具。别被它看似高深的名字吓到，其实它非常 Pythonic（符合 Python 的编程风格），上手难度并不高。这篇文章将带你从零开始&…...

编程日记 2026/4/20 6:18:46

千问3.5-27B部署教程：从实例创建→镜像拉取→端口映射→Web访问全流程

千问3.5-27B部署教程：从实例创建→镜像拉取→端口映射→Web访问全流程 1. 前言：认识Qwen3.5-27B模型 Qwen3.5-27B是Qwen官方发布的视觉多模态理解模型，它不仅支持高质量的文本对话，还能理解图片内容。这个模型在4张RTX 4090 D 2…...

编程日记 2026/4/20 6:18:46

HunyuanVideo-Foley 与Ollama对比分析：专精模型与通用大模型的音效生成能力

HunyuanVideo-Foley 与Ollama对比分析：专精模型与通用大模型的音效生成能力 1. 音效生成技术概览音效生成作为AI音频领域的重要分支，正在影视制作、游戏开发、虚拟现实等场景中发挥越来越大的作用。当前主流技术路线可分为两类：专精于音频…...

编程日记 2026/4/20 6:16:46

小红的完全二叉树构造【牛客tracker 每日一题】

小红的完全二叉树构造时间限制：1秒空间限制：256M 网页链接牛客tracker 牛客tracker & 每日一题，完成每日打卡，即可获得牛币。获得相应数量的牛币，能在【牛币兑换中心】，换取相应奖品&#xff01…...

编程日记 2026/4/20 6:16:45

Java开发者快速上手：Phi-4-mini-reasoning本地API调用集成教程

Java开发者快速上手：Phi-4-mini-reasoning本地API调用集成教程 1. 开篇：为什么选择Phi-4-mini-reasoning 如果你是一名Java开发者，最近可能已经注意到AI模型集成正在成为后端开发的新常态。Phi-4-mini-reasoning作为一款轻量级推理模型&…...

编程日记 2026/4/20 6:16:45

BGE-Large-Zh效果展示：天气预报查询与气象文档匹配的语义精准度验证

BGE-Large-Zh效果展示：天气预报查询与气象文档匹配的语义精准度验证 1. 工具简介 BGE-Large-Zh是一款专为中文语义理解设计的本地化向量化工具，基于先进的BAAI/bge-large-zh-v1.5模型开发。这个工具能够将中文文本转换为高维语义向量，并通过…...

编程日记 2026/4/20 6:16:45

PP-DocLayoutV3法律文书应用：合同/判决书/公证材料非规则排版智能分割

PP-DocLayoutV3法律文书应用：合同/判决书/公证材料非规则排版智能分割 1. 引言：法律文档处理的智能化突破在日常的法律工作中，我们经常需要处理各种复杂的文档格式。传统的合同、判决书、公证材料往往采用非规则排版，包含表格、…...

编程日记 2026/4/20 6:16:38

基于java的叙事之眼系统自动化测试

1.公共类（Utils）这是一个叙事之眼写小说自动化测试的公共工具类，进行Selenium 自动化测试，所有测试用例都可以共用它，统一创建、管理 Chrome 浏览器驱动，打开测试页面，设置等待时间，…...

编程日记 2026/4/20 6:14:38

Ostrakon-VL-8B嵌入式部署初探：轻量级餐饮设备端视觉应用构想

Ostrakon-VL-8B嵌入式部署初探：轻量级餐饮设备端视觉应用构想最近在琢磨一个挺有意思的事儿：那些餐厅里的智能点餐屏、后厨的智能识别设备，能不能变得更“聪明”一点？比如，顾客把一盘菜放到摄像头前，设备…...

编程日记 2026/4/20 6:14:38

启发式算法WebApp实验室：从搜索策略到群体智能的能力进阶（十一）

一、引言：从“求解问题”到“设计搜索策略”在复杂优化问题中，我们往往面对一个根本性困境：问题可以形式化，但最优解难以在可接受时间内获得例如：上百节点的路径规划（旅行商问题）大规模组合选择…...

编程日记 2026/4/20 6:14:38

Alpamayo-R1-10B保姆级教学：WebUI中Trajectory Visualization坐标系解读

Alpamayo-R1-10B保姆级教学：WebUI中Trajectory Visualization坐标系解读 1. 引言：从鸟瞰图到方向盘，看懂自动驾驶的“导航地图” 当你第一次打开Alpamayo-R1-10B的WebUI，点击“开始推理”后，最吸引眼球的可能就是右侧…...

编程日记 2026/4/20 6:14:38

HunyuanVideo-Foley镜像免配置：彻底告别torch版本冲突与依赖地狱

HunyuanVideo-Foley镜像免配置：彻底告别torch版本冲突与依赖地狱 1. 镜像概述与核心优势 HunyuanVideo-Foley私有部署镜像是一款专为视频生成与音效生成任务深度优化的解决方案。基于RTX 4090D 24GB显存和CUDA 12.4环境构建，它彻底解决了AI开发者最头疼…...

编程日记 2026/4/20 6:14:34

构建企业级AI助手：Phi-4-mini-reasoning与SpringBoot微服务集成

构建企业级AI助手：Phi-4-mini-reasoning与SpringBoot微服务集成 1. 企业AI助手的价值与挑战在数字化转型浪潮中，智能助手正成为企业提升效率的关键工具。传统客服系统每天需要处理大量重复性咨询，人工成本居高不下；内部知识库检…...

编程日记 2026/4/20 6:12:33

Wan2.2-I2V-A14B十分钟部署：Windows系统下Docker快速启动指南

Wan2.2-I2V-A14B十分钟部署：Windows系统下Docker快速启动指南 1. 准备工作：环境检查与安装在开始之前，我们需要确保你的Windows系统满足基本要求。这个教程适用于Windows 10和11的64位系统，建议使用专业版或企业版以获得最佳体…...

编程日记 2026/4/20 6:12:33

Z-Image-Turbo-rinaiqiao-huiyewunv 与QT框架集成：开发跨平台桌面AI图像工具

Z-Image-Turbo-rinaiqiao-huiyewunv 与QT框架集成：开发跨平台桌面AI图像工具你是不是也遇到过这样的情况？在网上看到一个很酷的AI图像生成模型，兴致勃勃地下载下来，结果发现只能在命令行里敲代码调用，参数调整全靠猜…...

编程日记 2026/4/20 6:12:33

[特殊字符] MoviePy 报错：配置了 ImageMagick 环境变量却不好使？

.This error can be due to the fact that ImageMagick is not installed on your computer, or (for Windows users) that you didnt specify the path to the ImageMagick binary in file conf.py, or that the path you specified is incorrect在使用 Python 的 MoviePy 库制…...

编程日记 2026/4/20 6:12:33

相关文章：