当前位置：首页 > news >正文

人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?

news 2026/2/8 23:07:18

#ai作画

一.AI绘画的概念

1. 数据集准备：

2. 模型训练：

3. 生成绘画：

二.AI绘画的应用领域

三.AI绘画的发展

四.AI绘画背后的技术剖析

1.AI绘画的底层原理

2.主流模型的发展趋势

2.1VAE — 伊始之门

2.2GAN

2.2.1GAN相较于Diffusion有什么不足?

2.3Diffusion — 当今首峰

2.4CLIP—图文匹配

2.5Lora模型

2.6Controlnet模型

五.AI绘画实例

六.未来AI的发展趋势

一.AI绘画的概念

AI 绘画是一种利用人工智能技术生成绘画作品的方法。它基于机器学习和深度学习算法，通过对大量的图像数据进行训练，模型学习到了图像的特征和规律，从而能够生成新的图像。

AI 绘画的过程通常包括以下几个步骤：

1. 数据集准备：

收集大量的图像数据，这些数据可以包括各种风格、主题的绘画作品。

2. 模型训练：

使用准备好的数据集对 AI 模型进行训练，让模型学习图像的特征和规律

3. 生成绘画：

输入一些关键词、描述或参考图像等信息，模型根据这些信息生成新的绘画作品。

AI 绘画技术可以生成各种风格的图像，例如写实、抽象、漫画、油画等。它可以帮助艺术家和设计师更快地创建概念设计、探索不同的风格，也可以为普通人提供一种创造艺术的新方式。

二.AI绘画的应用领域

- 设计行业：在广告、游戏、影视等领域，帮助设计师更快地生成概念图和原型。
- 艺术创作：艺术家可以利用 AI 绘画来探索新的风格和创意，或者与 AI 共同创作。
- 教育领域：学生可以通过 AI 绘画工具学习绘画技巧和艺术风格。
- 社交媒体：用户可以用 AI 生成的图像来装饰自己的社交媒体账号。
- 虚拟现实和增强现实：为这些应用创建虚拟场景和角色的图像。

三.AI绘画的发展

Diffusion 一般指 Diffusion Model（扩散模型），是一种基于深度学习的生成模型，常用于图像生成领域。Diffusion Model 的训练可以分为正向扩散和反向扩散两部分。

正向扩散过程逐步对输入图像加入高斯噪声，一共有 T 步，该过程将产生一系列噪声图像样本 x₁, ..., x_T。当 T → ∞ 时，最终的结果将变成一张完全包含噪声的图像。

反向扩散过程则是去除图像中的噪声。通过不断迭代去噪，模型可以学习到如何从噪声中恢复出原始图像，从而实现图像生成。

除此之外，Diffusion 还可能指 Stable Diffusion，它是一款免费、开源的 AI 图像生成器，由 Stability AI 公司于2022年8月推出。Stable Diffusion 应用于 AI 软件，用户可以随意输入自己想要的内容，然后系统就会自动生成非常优秀的艺术渲染作品。

Midjourney是一个基于人工智能技术的图像生成程序，由UISDC研究实验室开发。它可以根据用户输入的文本自动生成图片。该程序自2022年7月12日开始公开测试，主要通过Discord平台上的机器人指令进行操作，允许用户创造各种图像作品。

Midjourney利用深度学习和神经网络等先进技术，对大量图像进行学习和训练，从而提升图像的质量和准确性。

Dalle是美国人工智能非营利组织OpenAI于2021年1月份推出的一个可以根据书面文字生成图像的人工智能系统，该名称来源于著名画家达利（Dalí）和机器人总动员（Wall-E）。

四.AI绘画背后的技术剖析

1.AI绘画的底层原理

神经网络左侧输入一些列数字，神经网络会按照圆圈里的计算规则及连线的权重，把数字从左到右计算和传递，最终，从最右侧的圆圈输出一系列数字。

然后将一串数字输入到没有训练过得神经网络模型，也会生成一串数字，只不过解码后可能就是一张乱码图片，所以需要大量数据和不断调整算法参数的权重

2.主流模型的发展趋势

2.1VAE — 伊始之门

VAE（变分自编码器）是一个深度生成模型，其最终目的是生成出概率分布P(x)。在VAE中，通过高斯混合模型（Gaussian Mixture Model）来生成P(x)，也就是说P(x)是由一系列高斯分布叠加而成的，每一个高斯分布都有它自己的参数μ和σ。

为了找到隐变量Z与观察数据X之间的映射关系，VAE使用神经网络来拟合。具体来说，假设隐变量Z服从N(0, I)分布，并寻找一个映射关系将向量z映射成这一系列高斯分布的参数向量μ和σ。有了这一系列高斯分布的参数，就可以得到叠加后的P(x)的形式。

VAE模型与EM算法的推导有相似之处，但区别在于VAE模型中的隐变量Z是一个连续的无穷维向量，而EM算法中的隐变量是离散的。在VAE的参数估计中，由于隐变量数量假设是高维无限的，所以用神经网络去拟合，而不是使用极大似然估计1。

2.2GAN

GAN 是由生成器和判别器组成的网络，生成器试图生成逼真的假图像，而判别器则试图区分真假图像。在训练过程中，生成器不断地改进自己的生成能力，而判别器则不断地提高自己的识别能力。最终，生成器可以生成与真实图像难以区分的假图像。

生成器使用的是卷积神经网络（CNN），它可以对图像进行特征提取和分类。CNN 可以将图像分成不同的层，每一层都代表了图像的不同特征。生成器使用这些特征来生成新的图像。

判别器使用的是循环神经网络（RNN），它可以对序列数据进行处理，如文本描述。RNN 可以对序列中的每个元素进行处理，并将其与之前的元素进行关联，以更好地理解整个序列。

生成器使用的是卷积神经网络（CNN），它可以对图像进行特征提取和分类。CNN 可以将图像分成不同的层，每一层都代表了图像的不同特征。生成器使用这些特征来生成新的图像。

GAN的应用场景有哪些？

GAN的应用场景非常广泛，在图像生成，生成不存在的人物、物体、动物；图像修复、图像增强、风格化和艺术的图像创造等。不一一列举，想要详细了解的可以看链接：

2.2.1GAN相较于Diffusion有什么不足?

1.GAN的训练过程过程相对不稳定，生成器和判别器之间的平衡很容易打破，容易导致模型崩溃或崩塌问题;

2.判别器不需要考虑生成样品的种类，而只关注于确定每个样品是否真实，这使得生成器只需要生成少数高质量的图像就足以愚弄判别者;

3.生成的图像分辨率较低;

因此，以GAN模型难以创作出有创意的新图像，也不能通过文字提示生成新图像。

2.3Diffusion — 当今首峰

扩散模型是一种深度生成模型，主要用于图像和音频的生成。它们在生成模型领域中表现出色，例如在图像生成方面，Dalle2和稳定扩散模型就是基于扩散模型的优秀代表。扩散模型的基本思想是通过一个前向扩散过程逐渐破坏数据分布中的结构，然后通过学习反向扩散过程来恢复这些结构，从而生成高度灵活且易于处理的数据。在训练过程中，模型会学习预测每个时间步的噪声，最终能够从高斯噪声输入中生成高分辨率的图像。扩散模型由两个阶段组成：使用时间表来缩放平均值和方差，并在每个时间步添加噪声。前向过程的数学定义可以表示为：q(xₜ|xₜ₋₁) = N(xₜ; sqrt{1-βₜ}xₜ, βₜI)，其中正态分布由均值和方差参数化。

2.4CLIP—图文匹配

CLIP 模型是一项由 OpenAI 开发的预训练模型，主要用于对比语言-图像的预训练任务。以下是关于 CLIP 的一些详细信息：

1.全称：CLIP代表Contrastive Language-Image Pre-Training，即对比语言-图像预训练。

2.主要功能：CLIP旨在通过大规模的图像-文本对数据进行对比性训练，以实现图像和文本的嵌入空间的对齐，以及跨模态的语义对齐。

3.结构：CLIP包含两个模态，分别是文本模态和视觉模态。文本模态负责对文本进行编码，得到其Embedding；视觉模态负责对图片进行编码，也得到其Embedding。这两个Embedding都是单向向量的长度。

4.训练原理：在训练过程中，CLIP会将文本和图像成对地进行编码，然后计算它们的相似度。对于每个批次的训练样本，CLIP会预测出所有可能的文本-图像对的相似度，这些相似度是通过文本特征和图像特征的余弦相似性计算的。

5.应用场景：CLIP不仅在文本图像检索方面表现出色，还可以应用于Zero-Shot Learning，即在没有特定训练的情况下识别新事物的视觉概念。

6.训练数据：CLIP的训练数据主要是文本-图像对，其中包括一张图像及其对应的文本描述。这种数据形式使得CLIP能够在互联网的海量数据中发现相关联的信息。

7.性能：CLIP在多个任务上的表现达到目前最佳水平

综上所述，CLIP 模型是一个多模态预训练模型，它在自然语言理解和计算机视觉分析之间建立了联系，并在多个领域展示了出色的性能和应用潜力。

2.5Lora模型

LoRA模型全称是：Low-Rank Adaptation of Large Language Models，可以理解为Stable-Diffusion中的一个插件，仅需要少量的数据就可以进行训练的一种模型。在生成图片时，LoRA模型会与大模型结合使用，从而实现对输出图片结果的调整。

2.6Controlnet模型

Controlnet就是控制网的意思，其实就是在大模型外部通过叠加一个神经网络来达到精准控制输出的内容。很好的解决了单纯的关键词的控制方式无法满足对细节控制的需要，比微调模型更进一步对图像生成的控制。

五.AI绘画实例

宇宙之中,众星环绕,有一颗独特且耀眼的恒星

六.未来AI的发展趋势

未来AI绘画可能会有以下发展趋势：

- 个性化创作：AI绘画将能够根据用户的喜好和情绪来创作作品，通过深度学习和大数据分析，描绘出丰富多元的艺术作品。
- 人机协作：艺术家可以与AI系统合作，将人的创意与机器的计算能力结合在一起，创作出前所未有的艺术作品。这样的协作可以拓展艺术的边界，开创更多的可能性。
- 虚拟现实（VR）与增强现实（AR）的结合：AI绘画将与这些技术结合，为用户提供更加沉浸和互动的艺术体验。
- 实时艺术创作：AI绘画将实现实时创作，即艺术作品可以根据实时数据和事件进行动态的变化和调整。

人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?

#ai作画目录一.AI绘画的概念 1. 数据集准备： 2. 模型训练： 3. 生成绘画： 二.AI绘画的应用领域三.AI绘画的发展四.AI绘画背后的技术剖析 1.AI绘画的底层原理 2.主流模型的发展趋势 2.1VAE — 伊始之门 2.2GAN 2.2.1GAN相较于…...

编程日记 2024/2/25 19:20:25

[HTML]Web前端开发技术29（HTML5、CSS3、JavaScript ）JavaScript基础——喵喵画网页

希望你开心，希望你健康，希望你幸福，希望你点赞！最后的最后，关注喵，关注喵，关注喵，佬佬会看到更多有趣的博客哦！！！喵喵喵，你对我真的很重要！目录前言上一节的课后练习...

编程日记 2024/2/25 19:19:24

文本编辑器markdown语法

markdown语法 1.介绍 Markdown是一种使用一定的语法将普通的文本转换成HTML标签文本的编辑语言，它的特点是可以使用普通的文本编辑器来编写，只需要按照特定的语法标记就可以得到丰富多样的HTML格式的文本。 2.标题分级 "# " -> 一级标题 &…...

编程日记 2024/2/25 19:18:23

【C++】类和对象之拷贝构造函数篇

个人主页 ： zxctscl 文章封面来自：艺术家–贤海林如有转载请先通知文章目录 1. 前言2. 传值传参和传引用传参3. 概念4. 特征 1. 前言在前面学习了6个默认成员函数中的构造函数和析构函数【C】构造函数和析构函数详解，接下来继续往后看拷…...

编程日记 2024/2/25 19:16:22

Mybatisplus 传参参数为自定义sql，使用条件构造器作为参数

1 pom依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.3.1</version> </dependency> 2 mapper 接口文件 List<TBookOrder> searchDiy(Param(Const…...

编程日记 2024/2/25 19:12:18

C#与VisionPro联合开发——TCP/IP通信

TCP/IP（传输控制协议/互联网协议）是一组用于在网络上进行通信的通信协议。它是互联网和许多局域网的基础，为计算机之间的数据传输提供了可靠性、有序性和错误检测。在软件开发中，TCP/IP 通信通常用于实现网络应用程序之间的数据交…...

编程日记 2024/2/25 19:11:17

spring Boot快速入门

快速入门为主主要届介绍java web接口API的编写 java编辑器首选IntelliJ IDEA 官方链接：https://www.jetbrains.com/idea/ IEDA 前言实例项目主要是web端API接口的使用，项目使用mysql数据库，把从数据库中的数据的查询出来后通过接口json数…...

编程日记 2024/2/25 19:08:12

FPGA SERDESE2 (SDR收发仿真)

高速 Serdes 环路测试高速串行通信优势非常巨大，只需要很少的IO引脚就可以实现高速通信，这也是当今FPGA高速接口的核心技术。比如XILINX的7代FPGA，GTX可以达到10.3125Gbps,ultrascale FPGA的GTH可以达到16Gbps。目前国产FPGA还难以达到这么高的接口速度。高速串行通信经…...

编程日记 2024/2/25 19:04:08

Java异常体系结构核心解析-Throwable

资料不在于多，而在于精。好资料、好书，我们站在巨人的肩膀上前行，可以少走很多弯路。通过搜索引擎找到自己需要的最好最权威信息，是一种很重要的能力。 Java源代码和官方资料Java™ Tutorials Java异常体系结构，是一种…...

编程日记 2024/2/25 19:02:05

Android MediaRecorder 相关

Android MediaRecorder 相关本篇文章主要介绍下MediaRecorder类. 1:创建对象 MediaRecorder mediaRecordernew MediaRecorder();MediaRecorder可以直接通过无参构造直接创建对象. 2: 音频源通过调用setAudioSource(int audio_source)来设置音频源,可以是麦克风.音频文件…...

编程日记 2024/2/25 19:01:04

Spring中关于事务的一些方方面面

事务隔离级别： 先了解一些事务隔离级别有哪些： 未提交读(Read Uncommitted)： 允许脏读，也就是可能读取到其他会话中未提交事务修改的数据提交读(Read Committed)： 只能读取到已经提交的数据。Oracle等多数数据库默…...

编程日记 2024/2/25 19:00:03

LiveQing视频点播流媒体RTMP推流服务功能-支持配置开启 HTTPS 服务什么时候需要开启HTTPS服务

LiveQing视频点播流媒体RTMP推流服务功能支持配置开启 HTTPS 服务什么时候需要开启HTTPS服务 1、配置开启HTTPS1.1、准备https证书1.1.1、选择Nginx类型证书下载 1.2、配置开启 HTTPS1.2.1 web页面配置1.2.2 配置文件配置 2、验证HTTPS服务3、为什么要开启HTTPS3.1、安全性要求…...

编程日记 2024/2/25 18:55:59

LabVIEW串口通信的激光器模块智能控制

LabVIEW串口通信的激光器模块智能控制介绍了通过于LabVIEW的VISA串口通信技术在激光器模块控制中的应用。通过研究VISA串口通信的方法和流程，实现了对激光器模块的有效控制，解决了数据发送格式的匹配问题，为激光器模块的智能控制提供了一种…...

编程日记 2024/2/25 18:54:58

全球最受欢迎的DAWFL Studio 21.2.3.4004 中文破解版强悍来袭

1997年是一个「古老」的年代，那时人们还在用「猫」上网，微信、QQ的江湖被ICQ统治，音乐编辑领域 Cool Edit 如日中天。这一年 ，FL Studio 的前身 FruityLoops 在比利时问世，26年来，FL已成长为全球最受欢迎的…...

编程日记 2024/2/25 18:51:56

【uni-app】常用组件和 API

常用组件 uni-app 为开发者提供了一系列基础组件，类似 HTML 里的基础标签元素，但 uni-app 的组件与 HTML 不同，而是与小程序相同，更适合手机端使用。虽然不推荐使用 HTML 标签，但实际上如果开发者写了div等标签&…...

编程日记 2024/2/25 18:47:52

基于springboot+vue的安康旅游网站(前后端分离)

博主主页：猫头鹰源码博主简介：Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战，欢迎高校老师\讲师\同行交流合作主要内容：毕业设计(Javaweb项目|小程序|Pyt…...

编程日记 2024/2/25 18:45:51

monaco脚本编辑器在无界中使用鼠标点击不到

背景A项目使用无界引入B项目经排查，是B使用的的monaco脚本编辑器无法在A的无界框架中引入的问题。经查询，需要修改monaco源码来使之能在无界中使用。解决方案：https://github.com/Tencent/wujie/issues/205。有三种解决方案： …...

编程日记 2024/2/25 18:44:49

// 初始化state state {personArr:[{name:张三,id:1},{name:李四,id:2},{name:王五,id:3}] }componentDidMount(){const newName 赵六const indexUpdate 1const newArr this.state.personArr.map((item,index)>{if(indexUpdate index){return {...item,name:newName}}e…...

编程日记 2024/2/25 18:41:46

在Node.js中如何实现用户身份验证和授权

当涉及到构建安全的应用程序时，用户身份验证和授权是至关重要的一环。在Node.js中，我们可以利用一些流行的库和技术来实现这些功能，确保我们的应用程序具有所需的安全性。本篇博客将介绍如何在Node.js中实现用户身份验证和授权。用户身份验…...

编程日记 2024/2/25 18:38:43

QT day2 2.21

1.使用手动连接，将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中，在自定义的槽函数中调用关闭函数代码： #include "mywidget.h" #include "ui_mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(pa…...

编程日记 2024/2/25 18:37:42

2021-03-15 iview一些问题

1.iview 在使用tree组件时，发现没有set类的方法，只有get，那么要改变tree值，只能遍历treeData，递归修改treeData的checked，发现无法更改，原因在于check模式下，子元素的勾选状态跟父节…...

编程新知 2026/2/5 3:29:13

【单片机期末】单片机系统设计

主要内容：系统状态机，系统时基，系统需求分析，系统构建，系统状态流图一、题目要求二、绘制系统状态流图题目：根据上述描述绘制系统状态流图，注明状态转移条件及方向。三、利用定时器产生时…...

编程新知 2026/1/31 12:27:36

自然语言处理——循环神经网络

自然语言处理——循环神经网络循环神经网络应用到基于机器学习的自然语言处理任务序列到类别同步的序列到序列模式异步的序列到序列模式参数学习和长程依赖问题基于门控的循环神经网络门控循环单元（GRU）长短期记忆神经网络（LSTM&#xff09…...

编程新知 2026/2/4 11:21:40

深度学习习题2

1.如果增加神经网络的宽度，精确度会增加到一个特定阈值后，便开始降低。造成这一现象的可能原因是什么？ A、即使增加卷积核的数量，只有少部分的核会被用作预测 B、当卷积核数量增加时，神经网络的预测能力会降低 C、当卷…...

编程新知 2026/1/26 5:53:30

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由：大部分的转换软件需要收费，要么功能不齐全，而开会员又用不了几次浪费钱，借用别人的又不安全。这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

编程新知 2026/1/25 14:40:59

【笔记】WSL 中 Rust 安装与测试完整记录

#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境系统：Ubuntu 24.04 LTS (WSL2)架构：x86_64 (GNU/Linux)Rust 版本：rustc 1.87.0 (2025-05-09)Cargo 版本：cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...

编程新知 2026/1/26 14:15:48

基于Springboot+Vue的办公管理系统

角色： 管理员、员工技术： 后端: SpringBoot, Vue2, MySQL, Mybatis-Plus 前端: Vue2, Element-UI, Axios, Echarts, Vue-Router 核心功能： 该办公管理系统是一个综合性的企业内部管理平台，旨在提升企业运营效率和员工管理水…...

编程新知 2026/1/31 8:55:37