当前位置：首页 > article >正文

Stable Diffusion 四重调参优化——项目学习记录

article 2026/2/8 9:15:22

学习记录还原：在本次实验中，我基于 Stable Diffusion v1.5模型，通过一系列优化方法提升生成图像的质量，最终实现了图像质量的显著提升。实验从基础的 Img2Img 技术入手，逐步推进到参数微调、DreamShaper 模型和 ControlNet 的应用，最终优化了图像细节和结构一致性。以下是实验的详细过程。
两效果图：

1. 实验环境

为了确保实验可复现，以下是实验所用的环境配置：

操作系统：Windows 10
GPU：NVIDIA GeForce RTX 4070（8GB 显存）
Python 版本：3.11
深度学习框架：PyTorch 1.12.1
核心库：
- diffusers==0.29.2
- transformers==4.44.2
- opencv-python==4.10.0.84
模型：
- 基础模型：runwayml/stable-diffusion-v1-5
- 优化模型：Lykon/dreamshaper-8
- ControlNet：lllyasviel/sd-controlnet-canny

2. 优化一：Img2Img 技术

优化动机与原因

基础的 Stable Diffusion 模型在生成图像时，细节和结构一致性较弱，尤其是在服装生成任务中，难以保留原始结构。通过引入 Img2Img 技术，可以在生成过程中保留更多原始图像的结构信息，提升一致性。

优化思路

以原始服装图像作为输入，结合文本提示，生成与原图结构相似但具有新细节的图像。通过调整 strength 参数，平衡原图结构保留与生成创意之间的关系。

优化过程

代码实现：

from diffusers import StableDiffusionImg2ImgPipeline
pipe = StableDiffusionImg2ImgPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", torch_dtype=torch.float16)
init_image = Image.open(image_path).convert("RGB")
image = pipe(prompt, image=init_image, strength=0.75, num_inference_steps=50).images[0]

参数调整：设置 strength=0.75，使生成图像在保留原图结构的基础上，融入提示词描述的细节。

结果

Img2Img 技术有效提升了图像的结构一致性，但细节表现仍然不足，整体质量有待提高。

3. 优化二：微调 Stable Diffusion 参数

优化动机与原因

尽管 Img2Img 改善了结构一致性，但生成的图像细节和感知质量仍不理想。微调 Stable Diffusion 的生成参数可以进一步优化细节表现，提升图像的清晰度和真实感。

优化思路

通过增强提示词的描述性和调整生成参数（如 num_inference_steps 和 guidance_scale），提高图像的细节质量和与提示词的匹配度。

优化过程

提示词增强：

enhanced_prompt = f"{prompt}, highly detailed, realistic textures, sharp edges"

参数调整：
```
image = pipe(enhanced_prompt, negative_prompt="blurry, low resolution", num_inference_steps=75, guidance_scale=10.0).images[0]
```
- 增加 num_inference_steps 至 75，提升生成过程的精细度。
- 设置 guidance_scale=10.0，增强提示词对生成结果的引导作用。

结果

参数微调后，图像细节和清晰度有所提升，但结构一致性仍然有限，整体效果仍未达到最佳。

4. 优化三：DreamShaper 模型

优化动机与原因

基础模型在细节和美感上的表现存在局限，尤其在服装生成中难以生成高质量的纹理和人物细节。DreamShaper 模型（Lykon/dreamshaper-8）在细节生成上的表现优异，是进一步优化的选择。

优化思路

替换基础模型为 DreamShaper，结合优化后的提示词和参数设置，提升图像的细节表现和视觉美感。

优化过程

模型加载：

from diffusers import StableDiffusionPipeline
model_id = "Lykon/dreamshaper-8"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)

图像生成：

image = pipe(enhanced_prompt, negative_prompt="blurry, low resolution", num_inference_steps=50, guidance_scale=7.5).images[0]

结果

DreamShaper 模型显著提升了图像的细节表现和感知质量，生成的服装纹理更加真实，但结构精确性仍需改进。

5. 优化四：SD v1.5 + ControlNet

优化动机与原因

尽管 DreamShaper 在细节上表现出色，但服装的轮廓和结构一致性仍不完美。ControlNet 通过引入边缘图约束，能够有效提升生成图像的结构精确性，特别适用于服装生成任务。

优化思路

使用 Canny 边缘检测生成控制图像，结合 Stable Diffusion v1.5 和 ControlNet，约束生成过程以保留服装的轮廓和结构。

优化过程

ControlNet 集成：

from diffusers import StableDiffusionControlNetPipeline, ControlNetModel
controlnet = ControlNetModel.from_pretrained("lllyasviel/sd-controlnet-canny", torch_dtype=torch.float16)
pipe = StableDiffusionControlNetPipeline.from_pretrained("runwayml/stable-diffusion-v1-5", controlnet=controlnet, torch_dtype=torch.float16)

边缘图生成与图像生成：

canny_image = cv2.Canny(cv2.imread(image_path, cv2.IMREAD_GRAYSCALE), 100, 200)
image = pipe(prompt, image=canny_image, controlnet_conditioning_scale=1.0).images[0]

结果

ControlNet 的引入显著提升了图像的结构一致性和细节质量，服装轮廓更加精确，整体效果最佳。

DreamShaper

6. 总结

通过四次优化，我逐步提升了 Stable Diffusion 生成图像的质量：

Img2Img：奠定了结构一致性的基础，但细节不足。
参数微调：增强了细节和清晰度，但结构仍需优化。
DreamShaper：显著提升了细节和美感，表现优于基础模型。
SD v1.5 + ControlNet：通过边缘约束，实现了结构与细节的全面提升。

最终，ControlNet 在服装生成任务中展现了最优效果，兼顾结构精确性和感知质量。
基础模型：
深度学习项目记录·Stable Diffusion从零搭建、复现笔记-CSDN博客

深度仔细记录：
基于 Stable Diffusion 的图像生成优化与评估：从 SDXL 到 ControlNet 的探索——项目学习记录-CSDN博客强相关：
Stable Diffusion+Pyqt5：实现图像生成与管理界面（带保存 + 历史记录 + 删除功能）——我的实验记录（结尾附系统效果图）-CSDN博客

1. 实验环境

2. 优化一：Img2Img 技术

优化动机与原因

优化思路

优化过程

结果

3. 优化二：微调 Stable Diffusion 参数

优化动机与原因

优化思路

优化过程

结果

4. 优化三：DreamShaper 模型

优化动机与原因

优化思路

优化过程

结果

5. 优化四：SD v1.5 + ControlNet

优化动机与原因

优化思路

优化过程

结果

6. 总结

相关文章：