当前位置：首页 > news >正文

49 样式迁移【李沐动手学深度学习v2课程笔记】

news 2025/8/25 10:47:19

1. 样式迁移（Style Transfer)

· 计算机视觉的应用之一，将样式图片中的样式（比如油画风格等）迁移到内容图片（比如实拍的图片）上，得到合成图片
· 可以理解成为一个滤镜，但相对于滤镜来讲具有更大的灵活性，一个滤镜通常只能够改变图片的某个方面，如果要达到理想中的风格，可能需要尝试大量不同的组合，这个过程的复杂程度不亚于模型调参

1.1 基于CNN的样式迁移

奠基性工作：使用神经网络修改内容图片，使其在样式上接近风格图片，上图中的内容图像为西雅图郊区的雷尼尔山国家公园风景照，样式图像为主题为秋天橡树的油画，最终输出的合成图像应用了样式图像的油画笔触让整体颜色更加鲜艳，同时保留了内容图像中物体主体的形状

1、首先初始化合成图片（例如将其初始化为内容图片）

· 输入中有一张内容图片（Content Image）和一张样式图片（Style Image）
· 模型所要训练的不是卷积神经网络的权重，而是合成图片，它是样式迁移过程中唯一需要更新的变量，即样式迁移所需迭代的参数模型

2、然后选择一个预训练的卷积神经网络来抽取图片的特征（该卷积神经网络的模型参数在训练中不用更新）

内容图片、样式图片之后和合成图片（Synthesised Image）之前各有一个卷积神经网络，上图中只画了三层，看起来有三个三层的卷积神经网络，实际上三个卷积神经网络都是一样的（它们的权重是一样的）

3、这个深度神经网络凭借多个层逐级抽取图像的特征，因此可以选择其中某些层的输出作为内容特征或者样式特征（上图中的卷积神经网络第二层输出内容特征，第一层和第三层输出样式特征）

· 对于一张输入图片来讲，每一层的卷积神经网络都会有一个输出（特征），整个基于 CNN 的样式迁移的目的是训练出一张合成图片，使得合成图片和内容图片放进同样一个卷积神经网络的时候，合成图片在某一层的输出能够匹配上内容图片在某一层的损失（内容损失，Content Loss），即它们在内容上是相近的；同理，合成图片和内容图片所使用的是同一个卷积神经网络，在某些层的输出（特征）在样式上能够匹配的上。如果训练出一张合成图片同时满足以上需求的话，就可以认为它既保留了内容图片的内容，又保留了样式图片的样式
·

一般来说，越靠近输入层，越容易抽取图片的细节信息；反之，越容易抽取图片的全局信息
为了避免合成图片过多地保留内容图片的细节，选择靠近输出的层（即内容层）来输出图片的内容特征

· 选择不同层的输出（即风格层）来匹配局部和全局的样式

· 在使用卷积神经网络抽取特征时，只需要用到从输入层到最靠近输出层的内容层或者样式层之间的所有层

· 因为在训练的时候无需改变预训练的卷积神经网络的模型参数，所以可以在训练开始之前就提取出内容特征和风格特征

4、通过前向传播（实线箭头方向）计算样式迁移的损失函数，并通过反向传播（虚线箭头方向）迭代模型参数，即不断更新合成图片

样式迁移常用的损失函数由三部分组成：

（1）内容损失通过平方误差函数衡量合成图片与内容图片在内容特征上的差异，使合成图片与内容图片在内容特征上接近；

（2）样式损失也是通过平方误差函数衡量合成图片与样式图片在样式特征上的差异，使合成图片与样式图片在样式特征上接近；

（3）全变分损失有助于减少合成图片中的噪点，有时学到的合成图像中有大量高频噪点（即有特别亮或者特别暗的颗粒像素），常用全变分去噪（Total Variation Denoising），通过降低全变分损失，能够尽可能使临近的像素值相似，来进行去噪

样式迁移的损失函数是内容损失、样式损失和总变化损失的加权和，通过调节这些权重超参数，可以权衡合成图片在保留内容、样式迁移以及去噪三方面的相对重要性

对于给定的输入，如果简单地调用前向传播函数，只能获得最后一层的输出，因为还需要中间层的输出，所以需要进行逐层计算，保留内容层和风格层的输出

在样式迁移中，合成图片是训练期间唯一需要更新的变量，因此可以将合成图片视为模型参数，模型的前向传播只需要返回模型参数即可

5、最后当模型训练结束时，输出样式迁移的模型参数即为最终的合成图片

因为合成图片是样式迁移所需迭代的模型参数，所以只能在训练的过程中抽取合成图片的内容特征和样式特征。合成图片保留了内容图片的内容，并同时迁移了样式图片的样式

13.12. 风格迁移https://zh-v2.d2l.ai/chapter_computer-vision/neural-style.html

49 样式迁移【李沐动手学深度学习v2课程笔记】

1. 样式迁移（Style Transfer)

1.1 基于CNN的样式迁移

相关文章：

49 样式迁移【李沐动手学深度学习v2课程笔记】

Linux的学习之路：4、权限

自定义类型—结构体

【JavaWeb】Jsp基本教程

外包干了25天，技术退步明显.......

C++(14): STL条件变量std::condition_variable

Harmony与Android项目结构对比

langchain 学习笔记-FunctionCalling三种方式

CNAS软件测试公司有什么好处?如何选择靠谱的软件测试公司?

Cohere推出全新升级版RAG大型AI模型：支持中文，搭载1040亿参数，现开源其权重！

搭建前后端的链接(java)

Java多路查找树（含面试大厂题和源码）

day6 | 哈希表 part-2 | 454 四数相加II 、383. 赎金信、15. 三数之和、18. 四数之和

Redis常见数据类型(2)

SparkBug解决：Type mismatch； found : org.apache.spark.sql.Column required: Double

MQ之————如何保证消息的可靠性

TrollInstallerX官方一键安装巨魔商店

生成随机图片验证码

【0280】《数据库系统概论》阅读总结（附xmind思维导图）

数据结构（二）----线性表（顺序表，链表）

stm32G473的flash模式是单bank还是双bank？

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

Qt Http Server模块功能及架构

Rust 异步编程

CMake 从 GitHub 下载第三方库并使用

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

CSS设置元素的宽度根据其内容自动调整

xmind转换为markdown

智能职业发展系统：AI驱动的职业规划平台技术解析

02.运算符