人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?
#ai作画
目录
一.AI绘画的概念
1. 数据集准备:
2. 模型训练:
3. 生成绘画:
二.AI绘画的应用领域
三.AI绘画的发展
四.AI绘画背后的技术剖析
1.AI绘画的底层原理
2.主流模型的发展趋势
2.1VAE — 伊始之门
2.2GAN
2.2.1GAN相较于Diffusion有什么不足?
2.3Diffusion — 当今首峰
2.4CLIP—图文匹配
2.5Lora模型
2.6Controlnet模型
五.AI绘画实例
六.未来AI的发展趋势
一.AI绘画的概念
AI 绘画是一种利用人工智能技术生成绘画作品的方法。它基于机器学习和深度学习算法,通过对大量的图像数据进行训练,模型学习到了图像的特征和规律,从而能够生成新的图像。
AI 绘画的过程通常包括以下几个步骤:1. 数据集准备:
收集大量的图像数据,这些数据可以包括各种风格、主题的绘画作品。
2. 模型训练:
使用准备好的数据集对 AI 模型进行训练,让模型学习图像的特征和规律
3. 生成绘画:
输入一些关键词、描述或参考图像等信息,模型根据这些信息生成新的绘画作品。
![]()
AI 绘画技术可以生成各种风格的图像,例如写实、抽象、漫画、油画等。它可以帮助艺术家和设计师更快地创建概念设计、探索不同的风格,也可以为普通人提供一种创造艺术的新方式。
二.AI绘画的应用领域
- 设计行业:在广告、游戏、影视等领域,帮助设计师更快地生成概念图和原型。
- 艺术创作:艺术家可以利用 AI 绘画来探索新的风格和创意,或者与 AI 共同创作。
- 教育领域:学生可以通过 AI 绘画工具学习绘画技巧和艺术风格。
- 社交媒体:用户可以用 AI 生成的图像来装饰自己的社交媒体账号。
- 虚拟现实和增强现实:为这些应用创建虚拟场景和角色的图像。
三.AI绘画的发展

Diffusion 一般指 Diffusion Model(扩散模型),是一种基于深度学习的生成模型,常用于图像生成领域。Diffusion Model 的训练可以分为正向扩散和反向扩散两部分。
正向扩散过程逐步对输入图像加入高斯噪声,一共有 T 步,该过程将产生一系列噪声图像样本 x₁, ..., x_T。当 T → ∞ 时,最终的结果将变成一张完全包含噪声的图像。
反向扩散过程则是去除图像中的噪声。通过不断迭代去噪,模型可以学习到如何从噪声中恢复出原始图像,从而实现图像生成。
除此之外,Diffusion 还可能指 Stable Diffusion,它是一款免费、开源的 AI 图像生成器,由 Stability AI 公司于2022年8月推出。Stable Diffusion 应用于 AI 软件,用户可以随意输入自己想要的内容,然后系统就会自动生成非常优秀的艺术渲染作品。
Midjourney是一个基于人工智能技术的图像生成程序,由UISDC研究实验室开发。它可以根据用户输入的文本自动生成图片。该程序自2022年7月12日开始公开测试,主要通过Discord平台上的机器人指令进行操作,允许用户创造各种图像作品。
Midjourney利用深度学习和神经网络等先进技术,对大量图像进行学习和训练,从而提升图像的质量和准确性。
Dalle是美国人工智能非营利组织OpenAI于2021年1月份推出的一个可以根据书面文字生成图像的人工智能系统,该名称来源于著名画家达利(Dalí)和机器人总动员(Wall-E)。
四.AI绘画背后的技术剖析
1.AI绘画的底层原理
神经网络左侧输入一些列数字,神经网络会按照圆圈里的计算规则及连线的权重,把数字从左到右计算和传递,最终,从最右侧的圆圈输出一系列数字。
然后将一串数字输入到没有训练过得神经网络模型,也会生成一串数字,只不过解码后可能就是一张乱码图片,所以需要大量数据和不断调整算法参数的权重
2.主流模型的发展趋势
2.1VAE — 伊始之门
VAE(变分自编码器)是一个深度生成模型,其最终目的是生成出概率分布P(x)。在VAE中,通过高斯混合模型(Gaussian Mixture Model)来生成P(x),也就是说P(x)是由一系列高斯分布叠加而成的,每一个高斯分布都有它自己的参数μ和σ。
为了找到隐变量Z与观察数据X之间的映射关系,VAE使用神经网络来拟合。具体来说,假设隐变量Z服从N(0, I)分布,并寻找一个映射关系将向量z映射成这一系列高斯分布的参数向量μ和σ。有了这一系列高斯分布的参数,就可以得到叠加后的P(x)的形式。
VAE模型与EM算法的推导有相似之处,但区别在于VAE模型中的隐变量Z是一个连续的无穷维向量,而EM算法中的隐变量是离散的。在VAE的参数估计中,由于隐变量数量假设是高维无限的,所以用神经网络去拟合,而不是使用极大似然估计1。
2.2GAN
GAN 是由生成器和判别器组成的网络,生成器试图生成逼真的假图像,而判别器则试图区分真假图像。在训练过程中,生成器不断地改进自己的生成能力,而判别器则不断地提高自己的识别能力。最终,生成器可以生成与真实图像难以区分的假图像。
生成器使用的是卷积神经网络(CNN),它可以对图像进行特征提取和分类。CNN 可以将图像分成不同的层,每一层都代表了图像的不同特征。生成器使用这些特征来生成新的图像。
判别器使用的是循环神经网络(RNN),它可以对序列数据进行处理,如文本描述。RNN 可以对序列中的每个元素进行处理,并将其与之前的元素进行关联,以更好地理解整个序列。生成器使用的是卷积神经网络(CNN),它可以对图像进行特征提取和分类。CNN 可以将图像分成不同的层,每一层都代表了图像的不同特征。生成器使用这些特征来生成新的图像。
GAN的应用场景有哪些?
GAN的应用场景非常广泛,在图像生成,生成不存在的人物、物体、动物;图像修复、图像增强、风格化和艺术的图像创造等。不一一列举,想要详细了解的可以看链接:
2.2.1GAN相较于Diffusion有什么不足?
1.GAN的训练过程过程相对不稳定,生成器和判别器之间的平衡很容易打破,容易导致模型崩溃或崩塌问题;
2.判别器不需要考虑生成样品的种类,而只关注于确定每个样品是否真实,这使得生成器只需要生成少数高质量的图像就足以愚弄判别者;
3.生成的图像分辨率较低;
因此,以GAN模型难以创作出有创意的新图像,也不能通过文字提示生成新图像。
2.3Diffusion — 当今首峰
扩散模型是一种深度生成模型,主要用于图像和音频的生成。它们在生成模型领域中表现出色,例如在图像生成方面,Dalle2和稳定扩散模型就是基于扩散模型的优秀代表。扩散模型的基本思想是通过一个前向扩散过程逐渐破坏数据分布中的结构,然后通过学习反向扩散过程来恢复这些结构,从而生成高度灵活且易于处理的数据。在训练过程中,模型会学习预测每个时间步的噪声,最终能够从高斯噪声输入中生成高分辨率的图像。扩散模型由两个阶段组成:使用时间表来缩放平均值和方差,并在每个时间步添加噪声。前向过程的数学定义可以表示为:q(xₜ|xₜ₋₁) = N(xₜ; sqrt{1-βₜ}xₜ, βₜI),其中正态分布由均值和方差参数化。
2.4CLIP—图文匹配
CLIP 模型 是一项由 OpenAI 开发的预训练模型,主要用于对比语言-图像的预训练任务。以下是关于 CLIP 的一些详细信息:
1.全称:CLIP代表Contrastive Language-Image Pre-Training,即对比语言-图像预训练。
2.主要功能:CLIP旨在通过大规模的图像-文本对数据进行对比性训练,以实现图像和文本的嵌入空间的对齐,以及跨模态的语义对齐。
3.结构:CLIP包含两个模态,分别是文本模态和视觉模态。文本模态负责对文本进行编码,得到其Embedding;视觉模态负责对图片进行编码,也得到其Embedding。这两个Embedding都是单向向量的长度。
4.训练原理:在训练过程中,CLIP会将文本和图像成对地进行编码,然后计算它们的相似度。对于每个批次的训练样本,CLIP会预测出所有可能的文本-图像对的相似度,这些相似度是通过文本特征和图像特征的余弦相似性计算的。
5.应用场景:CLIP不仅在文本图像检索方面表现出色,还可以应用于Zero-Shot Learning,即在没有特定训练的情况下识别新事物的视觉概念。
6.训练数据:CLIP的训练数据主要是文本-图像对,其中包括一张图像及其对应的文本描述。这种数据形式使得CLIP能够在互联网的海量数据中发现相关联的信息。
7.性能:CLIP在多个任务上的表现达到目前最佳水平
综上所述,CLIP 模型是一个多模态预训练模型,它在自然语言理解和计算机视觉分析之间建立了联系,并在多个领域展示了出色的性能和应用潜力。
2.5Lora模型
LoRA模型全称是:Low-Rank Adaptation of Large Language Models,可以理解为Stable-Diffusion中的一个插件,仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA模型会与大模型结合使用,从而实现对输出图片结果的调整。
2.6Controlnet模型
Controlnet就是控制网的意思,其实就是在大模型外部通过叠加一个神经网络来达到精准控制输出的内容。很好的解决了单纯的关键词的控制方式无法满足对细节控制的需要,比微调模型更进一步对图像生成的控制。
五.AI绘画实例
宇宙之中,众星环绕,有一颗独特且耀眼的恒星

六.未来AI的发展趋势
未来AI绘画可能会有以下发展趋势:
- 个性化创作:AI绘画将能够根据用户的喜好和情绪来创作作品,通过深度学习和大数据分析,描绘出丰富多元的艺术作品。
- 人机协作:艺术家可以与AI系统合作,将人的创意与机器的计算能力结合在一起,创作出前所未有的艺术作品。这样的协作可以拓展艺术的边界,开创更多的可能性。
- 虚拟现实(VR)与增强现实(AR)的结合:AI绘画将与这些技术结合,为用户提供更加沉浸和互动的艺术体验。
- 实时艺术创作:AI绘画将实现实时创作,即艺术作品可以根据实时数据和事件进行动态的变化和调整。
相关文章:
人工智能绘画的时代下到底是谁在主导,是人类的想象力,还是AI的创造力?
#ai作画 目录 一.AI绘画的概念 1. 数据集准备: 2. 模型训练: 3. 生成绘画: 二.AI绘画的应用领域 三.AI绘画的发展 四.AI绘画背后的技术剖析 1.AI绘画的底层原理 2.主流模型的发展趋势 2.1VAE — 伊始之门 2.2GAN 2.2.1GAN相较于…...
[HTML]Web前端开发技术29(HTML5、CSS3、JavaScript )JavaScript基础——喵喵画网页
希望你开心,希望你健康,希望你幸福,希望你点赞! 最后的最后,关注喵,关注喵,关注喵,佬佬会看到更多有趣的博客哦!!! 喵喵喵,你对我真的很重要! 目录 前言 上一节的课后练习...
文本编辑器markdown语法
markdown语法 1.介绍 Markdown是一种使用一定的语法将普通的文本转换成HTML标签文本的编辑语言,它的特点是可以使用普通的文本编辑器来编写,只需要按照特定的语法标记就可以得到丰富多样的HTML格式的文本。 2.标题分级 "# " -> 一级标题 &…...
【C++】类和对象之拷贝构造函数篇
个人主页 : zxctscl 文章封面来自:艺术家–贤海林 如有转载请先通知 文章目录 1. 前言2. 传值传参和传引用传参3. 概念4. 特征 1. 前言 在前面学习了6个默认成员函数中的构造函数和析构函数 【C】构造函数和析构函数详解,接下来继续往后看拷…...
Mybatisplus 传参参数为自定义sql, 使用条件构造器作为参数
1 pom依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.3.1</version> </dependency> 2 mapper 接口文件 List<TBookOrder> searchDiy(Param(Const…...
C#与VisionPro联合开发——TCP/IP通信
TCP/IP(传输控制协议/互联网协议)是一组用于在网络上进行通信的通信协议。它是互联网和许多局域网的基础,为计算机之间的数据传输提供了可靠性、有序性和错误检测。在软件开发中,TCP/IP 通信通常用于实现网络应用程序之间的数据交…...
spring Boot快速入门
快速入门为主主要届介绍java web接口API的编写 java编辑器首选IntelliJ IDEA 官方链接:https://www.jetbrains.com/idea/ IEDA 前言 实例项目主要是web端API接口的使用,项目使用mysql数据库,把从数据库中的数据的查询出来后通过接口json数…...
FPGA SERDESE2 (SDR收发仿真)
高速 Serdes 环路测试 高速串行通信优势非常巨大,只需要很少的IO引脚就可以实现高速通信,这也是当今FPGA高速接口的核心 技术。比如XILINX的7代FPGA,GTX可以达到10.3125Gbps,ultrascale FPGA的GTH可以达到16Gbps。目前国产FPGA还难以达到这么高的接口速度。 高速串行通信经…...
Java异常体系结构核心解析-Throwable
资料不在于多,而在于精。好资料、好书,我们站在巨人的肩膀上前行,可以少走很多弯路。 通过搜索引擎找到自己需要的最好最权威信息,是一种很重要的能力。 Java源代码和官方资料Java™ Tutorials Java异常体系结构,是一种…...
Android MediaRecorder 相关
Android MediaRecorder 相关 本篇文章主要介绍下MediaRecorder类. 1:创建对象 MediaRecorder mediaRecordernew MediaRecorder();MediaRecorder可以直接通过无参构造直接创建对象. 2: 音频源 通过调用setAudioSource(int audio_source)来设置音频源,可以是麦克风.音频文件…...
Spring中关于事务的一些方方面面
事务隔离级别: 先了解一些事务隔离级别有哪些: 未提交读(Read Uncommitted): 允许脏读,也就是可能读取到其他会话中未提交事务修改的数据 提交读(Read Committed): 只能读取到已经提交的数据。Oracle等多数数据库默…...
LiveQing视频点播流媒体RTMP推流服务功能-支持配置开启 HTTPS 服务什么时候需要开启HTTPS服务
LiveQing视频点播流媒体RTMP推流服务功能支持配置开启 HTTPS 服务什么时候需要开启HTTPS服务 1、配置开启HTTPS1.1、准备https证书1.1.1、选择Nginx类型证书下载 1.2、配置 开启 HTTPS1.2.1 web页面配置1.2.2 配置文件配置 2、验证HTTPS服务3、为什么要开启HTTPS3.1、安全性要求…...
LabVIEW串口通信的激光器模块智能控制
LabVIEW串口通信的激光器模块智能控制 介绍了通过于LabVIEW的VISA串口通信技术在激光器模块控制中的应用。通过研究VISA串口通信的方法和流程,实现了对激光器模块的有效控制,解决了数据发送格式的匹配问题,为激光器模块的智能控制提供了一种…...
全球最受欢迎的DAWFL Studio 21.2.3.4004 中文破解版强悍来袭
1997年是一个「古老」的年代,那时人们还在用「猫」上网,微信、QQ的江湖被ICQ统治,音乐编辑领域 Cool Edit 如日中天。这一年 ,FL Studio 的前身 FruityLoops 在比利时问世,26年来,FL已成长为全球最受欢迎的…...
【uni-app】常用组件和 API
常用组件 uni-app 为开发者提供了一系列基础组件,类似 HTML 里的基础标签元素,但 uni-app 的组件与 HTML 不同,而是与小程序相同,更适合手机端使用。 虽然不推荐使用 HTML 标签,但实际上如果开发者写了div等标签&…...
基于springboot+vue的安康旅游网站(前后端分离)
博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 主要内容:毕业设计(Javaweb项目|小程序|Pyt…...
monaco脚本编辑器 在无界中使用 鼠标点击不到
背景A项目使用无界引入B项目 经排查,是B使用的的monaco脚本编辑器无法在A的无界框架中引入的问题。 经查询,需要修改monaco源码来使之能在无界中使用。 解决方案:https://github.com/Tencent/wujie/issues/205。 有三种解决方案: …...
react中修改state中的值无效?
// 初始化state state {personArr:[{name:张三,id:1},{name:李四,id:2},{name:王五,id:3}] }componentDidMount(){const newName 赵六const indexUpdate 1const newArr this.state.personArr.map((item,index)>{if(indexUpdate index){return {...item,name:newName}}e…...
在Node.js中如何实现用户身份验证和授权
当涉及到构建安全的应用程序时,用户身份验证和授权是至关重要的一环。在Node.js中,我们可以利用一些流行的库和技术来实现这些功能,确保我们的应用程序具有所需的安全性。本篇博客将介绍如何在Node.js中实现用户身份验证和授权。 用户身份验…...
QT day2 2.21
1.使用手动连接,将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中,在自定义的槽函数中调用关闭函数 代码: #include "mywidget.h" #include "ui_mywidget.h"MyWidget::MyWidget(QWidget *parent): QWidget(pa…...
超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...
Xshell远程连接Kali(默认 | 私钥)Note版
前言:xshell远程连接,私钥连接和常规默认连接 任务一 开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务 任务二 修改配置文件 vi /etc/ssh/ssh_config //第一…...
相机Camera日志实例分析之二:相机Camx【专业模式开启直方图拍照】单帧流程日志详解
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了: 这一篇我们开始讲: 目录 一、场景操作步骤 二、日志基础关键字分级如下 三、场景日志如下: 一、场景操作步骤 操作步…...
系统设计 --- MongoDB亿级数据查询优化策略
系统设计 --- MongoDB亿级数据查询分表策略 背景Solution --- 分表 背景 使用audit log实现Audi Trail功能 Audit Trail范围: 六个月数据量: 每秒5-7条audi log,共计7千万 – 1亿条数据需要实现全文检索按照时间倒序因为license问题,不能使用ELK只能使用…...
python爬虫:Newspaper3k 的详细使用(好用的新闻网站文章抓取和解析的Python库)
更多内容请见: 爬虫和逆向教程-专栏介绍和目录 文章目录 一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...
06 Deep learning神经网络编程基础 激活函数 --吴恩达
深度学习激活函数详解 一、核心作用 引入非线性:使神经网络可学习复杂模式控制输出范围:如Sigmoid将输出限制在(0,1)梯度传递:影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...
.Net Framework 4/C# 关键字(非常用,持续更新...)
一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...
OPENCV形态学基础之二腐蚀
一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...
Hive 存储格式深度解析:从 TextFile 到 ORC,如何选对数据存储方案?
在大数据处理领域,Hive 作为 Hadoop 生态中重要的数据仓库工具,其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式,很多开发者常常陷入选择困境。本文将从底…...
云原生玩法三问:构建自定义开发环境
云原生玩法三问:构建自定义开发环境 引言 临时运维一个古董项目,无文档,无环境,无交接人,俗称三无。 运行设备的环境老,本地环境版本高,ssh不过去。正好最近对 腾讯出品的云原生 cnb 感兴趣&…...




















