当前位置: 首页 > news >正文

扩散模型学习

第一章

1.1

的原理

给定一批训练数据X,假设其服从某种复杂的真实 分布p(x),则给定的训练数据可视为从该分布中采样的观测样本x。

生成模型就是估计训练数据的真实分布,使得估计的分布q(x)和真实分布p(x)差距尽可能能的小。

使得所有训练数据样本采样自q(x)的概率最大。

DDPM假设扩散过程是马尔可夫过程(即每一个时间步状态的概率分布仅由上一个时间步状态的概率分布加上当前时间步的高斯噪声得到),以及假设扩散过程的逆过程是高斯分布等

DDPM推导见DDPM推导.pdf

1.2 扩散模型的发展

论 文 “Score-Based Generative Modeling through Stochastic Differential Equations”证明了DDPM的采样过程是更普遍的随机微分方程,因此只要能够更离散化地求解该随机微分方程,就可以将1000步的采样过程缩减至50步、20步甚至更少的步数。

在这里插入图片描述

很多基于现有的扩散模型进行“再学习”的技术自然而然地涌现,这也使得个人在消费级显卡上训练自己的扩散模型成为可能。

DreamBooth可以实现使用现有模型再学习到指定主体图像的功 能,只要通过少量训练将主体绑定到唯一的文本标识符后,就可以通过输入文本提示语来控制自己的主体以生成不同的图像。

在这里插入图片描述

LoRA可以实现使用现有模型再学习到自己指定数据集风格或人物 的功能,并且还能够将其融入现有的图像生成中。

ControlNet可以再学习到更多模态的信息,并利用分割图、边缘 图等功能更精细地控制图像的生成。

1.3 扩散模型的应用
1.3.1 计算机视觉
  • 图像分割与目标检测
    Meta AI 的SegDiff分割扩散模型可以生成分割Mask图(如图1-14所示),检测扩散模型DiffusionDet同样可以端到端地从随机矩形框逐步生成检测框(如图1-15所示)。
    不过,扩散模型仍然存在生成速度慢的问题,在应用于一些需要实时检测的场景时还需继续优化。

在这里插入图片描述

  • 图像超分辨率
    图像超分辨率是一项能够将低分辨率图像重建 为高分辨率图像,同时保证图像布局连贯的技术。
    CDM(Cascaded Diffusion Model,级联扩散模型)通过采用串联多个扩散模型的方 式,分级式地逐步放大分辨率,实现了图像超分辨率。
    在这里插入图片描述

  • 图像修复、图像翻译和图像编辑

图像修复、图像翻译和图像编辑是对图像的部分或全部区域执行的操作,包括缺失部分修补、风 格迁移、内容替换等。Palette是一个集成了图像修复、图像翻译和图像编辑等功能的扩散模型,它可以在一个模型中完成不同的图像级任务。

在这里插入图片描述

1.3.2 时序数据预测

时序数据预测旨在根据历史观测数据预测未来可能出现的数据。
TimeGrad是首个在多元概率时序数据预测任务中加入扩散思想 的自回归模型。
为了将扩散过程添加到历史数据中,TimeGrad首先 使用RNN(Recurrent Neural Network,循环神经网络)处理历史 数据并保存到隐空间中,然后对历史数据添加噪声以实现扩散过程, 由此处理数千维度的多元数据并完成预测任务。

在这里插入图片描述

1.3.3 自然语言

只要将自然语言类的句子分词并转换为词向量之后,就可以通过扩散的方法来学 习自然语言的语句生成,进而完成自然语言领域一些更复杂的任务, 如语言翻译、问答对话、搜索补全、情感分析、文章续写等。
Diffusion-LM是首个将扩散模型应用到自然语言领域的扩散语言模型。该模型旨在解决如何将连续的扩散过程应用到离散的非连续化文本的问题,由此实现语言类的高细粒度可控生成。

1.3.4 基于文本的多模态
  • 文本生成图像
    文本生成图像是扩散模型最流行、最成熟的应 用,输入文本提示语或仅仅输入几个词,扩散模型就能根据文字描述 生成对应的图片。
    DALLE-2、Imagen以及完全开源的Stable Diffusion
  • 文本生成视频
    文本生成视频扩散模型能够将输入的文本提示语转换为相应的视频流。
    不同的是,视频的前 后帧需要保持极佳的连贯性。
    Meta AI的Make-A-Video以及能够精细控制视频 生成的ControlNet Video。
  • 文本生成3D
    3D物体的表征有多种方式,如 点云、网格、NeRF等。
    DiffRF提出了通过扩散的方法实现从文本生成3D辐射场的扩散模型,3DFuse实现了基于二维图像生成对应的3D点云。
1.3.5 AI基础科学

SMCDiff创建了一种扩散模型,该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质。
CDVAE则提出了一种扩散晶体变分自编码器模 型,旨在生成和优化具有固定周期性原子结构的材料。

第二章

Gradio是一个开源的Python库,由Hugging Face推出,用于构建机器学习和数据科学演示以及Web应用。
借助Gradio,你可以快速 为机器学习模型或数据科学工作流创建美观的用户界面,让用户能够 通过浏览器拖放自己的图片、粘贴文本、录制自己的声音并与你的演 示互动。交互式应用。
![[Pasted image 20231015210739.png]]

  • 使用pip安装Gradio

  • 以经典的“Hello World!”程序为例,输入代码。
    在这里插入图片描述

  • 使用gradio命令运行Gradio应用脚本
    在这里插入图片描述

“Hello World!”程序代码,可以看出,我们 调用了gr.Interface接口。
fn:目标函数的名称(我们将要为该目标函数创建用户界 面)。
inputs:用于输入的组件(如"text" “image"或"audio”)。
outputs:用于输出的组件(如"text" “image"或"label”)。

相关文章:

扩散模型学习

第一章 1.1 的原理 给定一批训练数据X,假设其服从某种复杂的真实 分布p(x),则给定的训练数据可视为从该分布中采样的观测样本x。 生成模型就是估计训练数据的真实分布,使得估计的分布q(x)和真实分布p(x)差距尽可能能的小。 使得所有训练…...

解决方法:从客户端(---<A href=“http://l...“)中检测到有潜在危险的 Request.Form 值。

从客户端(-----<A href"http://l...")中检测到有潜在危险的 Request.Form 值。 解决方法&#xff1a;应该是不同的.net Framework版本对代码的校验不同&#xff0c;造成在高版本操作系统&#xff08;即高.net Framework版本校验&#xff09;不兼容&#xff0c;可…...

Linux shell编程学习笔记14:编写和运行第一个shell脚本hello world!

* 20231020 写这篇博文断断续续花了好几天&#xff0c;为了说明不同shell在执行同一脚本文件时的差别&#xff0c;我分别在csdn提供线上Linux环境 &#xff08;使用的shell是zsh&#xff09;和自己的电脑上&#xff08;使用的shell是bash&#xff09;做测试。功夫不负有心人&am…...

隐式类型转换

什么是隐式类型转换&#xff0c;多参数的造函数隐式类型转换&#xff0c;和单参数的构造函数隐式类型转换有什么区别 C中有三种主要的隐式类型转换&#xff1a; 1:多参数的构造函数隐式类型转换 2:单参数的构造函数隐式类型转换 3:成员函数隐式类型转换。…...

单例模式:饿汉式、懒汉式

一、单例模式 定义&#xff1a;一个类中的对象只能有一个&#xff0c;它在内存中只会创建一次对象的设计模式。 用法&#xff1a;在程序中如果多次用到同一个类中的方法进行操作时&#xff0c;在使用时就会创建多个对象。为了防止频繁创建对象造成内存资源浪费&#xff0c;就可…...

“人间烟火”背后,长沙招商引资再出圈

连续多年&#xff0c;长沙荣膺全国最具幸福感城市。同时&#xff0c;长沙也被誉为“中部崛起的引擎城市”。长沙不仅有网红城市的人间烟火气&#xff0c;更以创新的精神&#xff0c;优质的营商环境&#xff0c;高效的政府服务&#xff0c;丰富的人才资源和深厚的产业基础&#…...

操作系统【OS】中断和异常

异常&#xff08;内中断&#xff09; 中断&#xff08;外中断&#xff09; 基本概念 由CPU执行指令内部产生的事件内中断都是不可屏蔽中断&#xff0c;一旦出现&#xff0c;就要立即处理。 由来自CPU外部的设备发出的中断请求&#xff08;常用于输入输出&#xff09;典型的由…...

[AutoSAR系列] 1.1 AutoSar 发展历史

AUTOSAR,全称为Automotive Open System Architecture,即汽车开放系统架构。 AutoSar 是一项开源的汽车软件标准,旨在提高汽车电子系统的互操作性和可重用性。AutoSar 成员通常是汽车制造商、电子元件制造商、软件供应商和工具供应商等公司,他们在共同开发和推进 AutoSar 标…...

【vscode编辑器插件】前端 php unity自用插件分享

文章目录 一篇一句前言前端vuegitphpunity后端其他待续完结 一篇一句 “思考是最困难的工作&#xff0c;这也许是为什么很少有人这样做。” - 亨利福特&#xff08;Henry Ford&#xff09; 前言 无论是什么语言&#xff0c;我都会选择使用vscode进行开发&#xff0c;我愿称v…...

【企业级SpringBoot单体项目模板 】—— 项目代码管理

&#x1f61c;作 者&#xff1a;是江迪呀✒️本文关键词&#xff1a;SpringBoot项目模版、企业级、模版、代码管理☀️每日 一言&#xff1a;生命力顽强的种子&#xff0c;从不对瘠土唱诅咒的歌。 文章目录 一、第一种&#xff1a;先创建仓库1.1 创建仓库1.2 clone…...

Python读取Excel文件中指定的列数并生成CSV文件

0x00 安装Pandas和OpenPyXL pip install pandaspip install openpyxl0x01 Encoding import os import pandas as pd import openpyxl from openpyxl import load_workbook import csvdef write_dict_to_csv(dict_data, fileName):df pd.DataFrame.from_dict(dict_data)# 将D…...

MySQl有哪些索引(种类)?索引特点?为什么要使用索引?

普通索引&#xff1a;仅加速查询唯一索引&#xff1a;加速查询 列值唯一&#xff08;可以有null&#xff09;主键索引&#xff1a;加速查询 列值唯一&#xff08;不可以有null&#xff09; 表中只有一个组合索引&#xff1a;多列值组成一个索引&#xff0c;专门用于组合搜索&…...

49数码论坛系统设计与实现

大家好✌&#xff01;我是CZ淡陌。一名专注以理论为基础实战为主的技术博主&#xff0c;将再这里为大家分享优质的实战项目&#xff0c;本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目&#xff0c;希望你能有所收获&#xff0c;少走一些弯路…...

蓝桥杯每日一题2023.10.19

题目描述 完全二叉树的权值 - 蓝桥云课 (lanqiao.cn) 题目分析 我们以每一个节点的坐标来将这一深度的权值之和相加从而算出权值和 要清楚每一个深度的其实节点和末尾节点&#xff0c;使用双指针将这个深度节点的权值和计算出来&#xff0c;记录所 需要的深度即可 #includ…...

NIO IN:技术蔚来的首次「大阅兵」

宝山&#xff0c;上海第一钢铁厂旧址。 上周&#xff0c;蔚来在这里点亮金色炉台&#xff0c;2500 立方米高炉&#xff0c;浓重的工业气质与古典凝重的光影交织&#xff0c;蔚来 NIO IN 用科技的进步呼应那个火红的年代。 这是蔚来第一次开科技发布会&#xff0c;为了全方位展…...

Android推送问题排查

针对MobPush智能推送服务在使用过程中可能出现的问题&#xff0c;本文为各位开发者们带来了针对MobPush安卓端推送问题的解决办法。 TCP在线推送排查 排查TCP在线收不到推送时&#xff0c;我们先通过客户端的RegistrationId接口获取设备的唯一标识 示例&#xff1a; MobPush…...

轻量级导出 Excel 标准格式

一般业务系统中都有导出到 Excel 功能&#xff0c;其实质就是把数据库里面一条条记录转换到 Excel 文件上。Java 常用的第三方类库有 Apache POI 和阿里巴巴开源的 EasyExcel 等。另外也有通过 Web 模板技术渲染 Excel 文件导出&#xff0c;这实质是 MVC 模式的延伸&#xff0c…...

蓝桥杯 (年号字串 C++)

思路&#xff1a; 1、看成10进制转化成26进制 。 2、A表示1、B表示2。以此类推&#xff0c;Z表示26. 代码&#xff1a; #include <iostream> using namespace std; int main() {char str[10]; int sum 2019, n, i 0; while (sum > 0) {str[i] sum % 26 64;sum / …...

软件测试01

一、认识软件及测试 1、什么是软件 控制计算机硬件工作的工具 2、软件的基本组成 页面客户端------请求----->代码服务器-------请求------>数据服务器 3、软件产生过程 需求产生------->需求文档------->设计效果图------->产品开发-------->产品测试 …...

【IBIS 模型与仿真 - IBISWriter and Write_IBIS】

本文将介绍如何从用户设计中编写自定义IBIS模型。 本文是 SelectIO 解决方案中心&#xff08;Xilinx 答复 50924&#xff09;的设计助手部分&#xff08;Xilinx 答复 50926&#xff09;的一部分。 原文链接&#xff1a;https://support.xilinx.com/s/article/50957?languagee…...

Rust 所有权系统:借用检查器与生命周期

# Rust异步编程&#xff1a;Tokio运行时深度解析> **版本说明**&#xff1a;本文基于 Tokio 1.x 版本和 Rust 1.75 编写&#xff0c;所有代码示例均经过测试验证。## &#x1f4da; 引言异步编程是现代高性能服务的基石&#xff0c;而 Tokio 作为 Rust 生态中最成熟的异步运…...

【MCP 2026多模态实战白皮书】:首发3大工业级数据对齐范式与实时推理加速方案

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;MCP 2026多模态数据处理全景概览 MCP 2026&#xff08;Multimodal Cognitive Processing 2026&#xff09;是新一代面向异构感知输入的统一处理框架&#xff0c;支持图像、语音、文本、时序传感器信号及…...

Dream-Creator:基于Stable Diffusion的本地AI图像生成工作站部署与实战

1. 项目概述&#xff1a;一个面向未来的AI图像生成工具最近在GitHub上闲逛&#xff0c;发现了一个名为“Dream-Creator”的项目&#xff0c;作者是Xianyu33666。这个项目名本身就挺有意思的&#xff0c;“梦想创造者”&#xff0c;听起来就充满了想象力。点进去一看&#xff0c…...

CT1832 Real.Pi开发板:边缘AI与计算机视觉实战指南

1. CT1832 Real.Pi开发板深度解析Centron Design推出的CT1832 Real.Pi开发板&#xff0c;采用Realtek RTD1619B SoC&#xff0c;完美兼容树莓派3 Model B的外形尺寸。这块板子最吸引我的地方在于它专为边缘AI和计算机视觉应用优化&#xff0c;1.6 TOPS的NPU算力配合4K多媒体处理…...

【限时开源】VS Code Copilot Next 自动化工作流配置模板库(含12个生产环境验证的.jsonc配置+动态变量注入方案),仅开放72小时下载权限

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;VS Code Copilot Next 自动化工作流配置概述 VS Code Copilot Next 是微软与 GitHub 联合推出的下一代智能编程助手&#xff0c;它深度集成于 VS Code 编辑器中&#xff0c;支持上下文感知的代码生成、…...

如何5分钟快速部署GreaterWMS:终极开源仓库管理系统指南

如何5分钟快速部署GreaterWMS&#xff1a;终极开源仓库管理系统指南 【免费下载链接】GreaterWMS This Inventory management system is the currently Ford Asia Pacific after-sales logistics warehousing supply chain process . After I leave Ford , I start this projec…...

上市公司-政府采购合同公告相关数据(2016-2024年)

01、数据简介本地创新采购、中央创新采购以及大学和研究机构创新采购对企业的创新激励作用更显著&#xff1b;政府创新采购对战略性新兴行业企业、民营企业和中小企业的创新激励作用更强。进一步分析发现&#xff0c;总体上需求侧的创新采购和供给侧的创新补贴对企业创新具有相…...

GRETNA脑网络分析终极指南:5步掌握MATLAB图论计算全流程

GRETNA脑网络分析终极指南&#xff1a;5步掌握MATLAB图论计算全流程 【免费下载链接】GRETNA A Graph-theoretical Network Analysis Toolkit in MATLAB 项目地址: https://gitcode.com/gh_mirrors/gr/GRETNA 你是否曾经面对海量的fMRI数据感到无从下手&#xff1f;想要…...

数据科学思维导图:从工具链到实战心法

1. 数据科学的达芬奇密码&#xff1a;掌握数据科学思维导图数据科学就像一场精心编排的交响乐&#xff0c;需要统计学家的严谨、工程师的务实和艺术家的创造力。作为一名从业十余年的数据科学家&#xff0c;我发现真正优秀的数据分析项目往往遵循着相似的底层逻辑 - 就像达芬奇…...

RAGFlow与Open WebUI集成:构建美观私有知识库问答系统

1. 项目概述&#xff1a;当RAG遇上颜值&#xff0c;一次优雅的集成实践如果你正在寻找一个既能利用私有知识库进行精准问答&#xff0c;又能拥有媲美ChatGPT Plus那样丝滑、美观交互界面的解决方案&#xff0c;那么你找对地方了。今天要聊的这个项目&#xff0c;正是为了解决这…...