当前位置：首页 > news >正文

深度学习入门教程（2）：使用预训练模型来文字生成图片TextToImageGenerationWithNetwork

news 2026/2/10 22:52:33

本深度学习入门教程是在polyu HPCStudio 启发以及资源支持下进行的，在此也感谢polyu以及提供支持的老师。

本文内容：在GoogleColab平台上使用预训练模型来文字生成图片Text To Image Generation With Network

（1）你会学到什么：

了解什么是从文本生成图像以及如何使用它。使用预先训练的模型来创造你的艺术以及如何让它变得更好

（2）大纲outline：

1:什么是文本到图像生成？
2:什么是稳定扩散？
3:快速工程prompt project
4:使用预训练模型生成图像的示例代码

1：什么是文本到图像生成？

文本到图像模型是一种机器学习模型，它将自然语言描述作为输入并生成与该描述匹配的图像。由于深度神经网络的进步，此类模型于 2010 年代中期开始开发。 2022 年，最先进的文本到图像模型的输出，例如 OpenAI 的 DALL-E 2、Google Brain 的 Imagen、Midjourney 和 StabilityAI 的 Stable Diffusion 的输出开始接近真实照片和人类绘制艺术的质量。

文本到图像模型通常结合了语言模型和生成图像模型，其中语言模型将输入文本转换为潜在表示，生成图像模型生成以该表示为条件的图像。最有效的模型通常是根据抓取的大量图像和文本数据进行训练的来自网络。
在这里插入图片描述

2：什么是稳定扩散 stable diffusion

Stable Diffusion 是 2022 年发布的深度学习文本到图像模型。它主要用于生成以文本描述为条件的详细图像，但它也可以应用于其他任务，例如修复、外绘和生成，由文本提示引导的图像到图像的翻译。

超分辨率 - 对输入图像进行去噪
潜在扩散模型 - 一次又一次地去噪
模拟出全新形象

Stable diffusion 的结构
A text encoder文本编码器，可将您的提示转换为潜在向量。

A diffusion model扩散模型，反复对 64x64 潜在图像块进行“去噪”。

A decoder 解码器，将最终的 64x64 潜在补丁转换为更高分辨率512x512 图像。

3：快速工程 prompt project？

Prompt project是一种用特定措辞创作出优秀艺术作品或指示人工智能（机器人）提供所需输出（一般而言）的技能。

核心提示——主要主题。例如主角男孩、女孩、老人、动物等，多一些描述和形容词就更好了。
风格 - 例如铅笔画、油画、照片等。
. 艺术家 - 例如 Vincent Van Gogh、Leonardo DaVinci、Greg Rutkowski 等
收尾工作 - 例如 artstation、unreal engine 等上的趋势。 https://beta.dreamstudio.ai/prompt-guide
您还可以要求 AI 帮助完善您的提示。

下面是微软为优化提示而构建的模型

https://huggingface.co/spaces/microsoft/Promptist

4:使用预训练模型生成图像的示例代码

4.1
百度搜索GoogleColab，进去后登陆账号，注册一个notebook就可以，然后点击连接到GPU
在这里插入图片描述

4.2
依次导入需要的库

!pip install diffusers!pip install setuptools-rust!pip install transformers

from diffusers import StableDiffusionPipeline

#setup pipeline to pretrained model  下载预训练模型
pipe = StableDiffusionPipeline.from_pretrained("IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1").to("cuda")

# 测试
prompt = '远上寒山石径斜，白云深处有人家。'
image = pipe(prompt, guidance_scale=7.5).images[0]  
image.save("白云深处.png")

在这里插入图片描述

prompt = '罨畫清溪上, 蓑笠扁舟一隻, 油畫'
image = pipe(prompt, guidance_scale=7.5).images[0]  
image.save("罨畫清溪上.png")

在这里插入图片描述

深度学习入门教程（2）：使用预训练模型来文字生成图片TextToImageGenerationWithNetwork

（1）你会学到什么：

（2）大纲outline：

1：什么是文本到图像生成？

2：什么是稳定扩散 stable diffusion

3：快速工程 prompt project？

4:使用预训练模型生成图像的示例代码

相关文章：

深度学习入门教程（2）：使用预训练模型来文字生成图片TextToImageGenerationWithNetwork

ORA-38760: This database instance failed to turn on flashback database

避免低级错误：深入解析Java的ConcurrentModificationException异常

7.28

java线程中的常见方法（详解）

线程池参数配置

Spread for Winform 16.2.20231.0 (SP2) Crack

Go程序结构

JAVA面试总结-Redis篇章(四)——双写一致性

赋能医院数字化转型，医院拍摄VR全景很有必要

Vue3项目中没有配置 TypeScript 支持,使用 TypeScript 语法

数据可视化大屏拼接屏开发实录:屏幕分辨率测试工具

每日一题7.28 209

Python + Playwright 无头浏览器Chrome找不到元素

C++信号量与共享内存实现进程间通信

[Tools: Camera Conventions] NeRF中的相机矩阵估计

【sgUpload】自定义上传组件，支持上传文件夹及其子文件夹文件、批量上传，批量上传会有右下角上传托盘出现，支持本地上传图片转换为Base64image

Kafka 实时处理Stream与Batch的对比分析

Andriod开发性能优化实践

linux环境安装mysql数据库

【网络安全产品大调研系列】2. 体验漏洞扫描

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

MySQL 主从同步异常处理

DeepSeek源码深度解析 × 华为仓颉语言编程精粹——从MoE架构到全场景开发生态

GraphQL 实战篇：Apollo Client 配置与缓存

【深度学习新浪潮】什么是credit assignment problem？

Monorepo架构: Nx Cloud 扩展能力与缓存加速

React核心概念：State是什么？如何用useState管理组件自己的数据？

DeepSeek越强，Kimi越慌？

2025.6.9总结（利与弊）