ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。
一、行业现状
1、概念界定
区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。
2、数据模态
按照模态区分,AIGC又可分为音频生成、文本生成、图像生成、视频生成及图像、视频、文本间的跨模态生成,细分场景众多,其中跨模态生成值得重点关注。
模态是指数据的存在形式,比如文本、音频、图像、视频等文件格式
跨模态,指的是像以文生成图/视频或者以图生成文这种情况
例如,百度的文心一格就是典型的以文生成图:
3、发展历程
AIGC 的发展可以大致分为以下三个阶段:
- 早期萌芽阶段:20 世纪 50 年代—90 年代中期,受限于科技水平,AIGC 仅限于小范围实验
- 沉积积累阶段:20 世纪 90 年代中期—21 世纪 10 年代中期,AIGC 从实验向实用转变,受限于算法,无法直接进行内容生成
- 快速发展阶段:21 世纪 10 年代中期—现在,深度学习算法不断迭代,AI 生成内容种类多样丰富且效果逼真
二、技术实现
AIGC 技术主要涉及两个方面:自然语言处理 NLP 和 AIGC 生成算法。
1、NLP自然语言处理
自然语言处理(NLP)赋予了AI理解和生成能力,是实现人与计算机之间如何通过自然语言进行交互的手段。
NLP技术可以分为两个方向:NLU和NLG。
1.1 自然语言理解 NLU
NLU使得计算机能够和人一样,具备正常人的语言理解能力。
过去,计算机只能处理结构化的数据,NLU 使得计算机能够识别和提取语言中的意图来实现对于自然语言的理解。
由于自然语言的多样性、歧义性、知识依赖性和上下文,计算机在理解上有很多难点,所以 NLU 至今还远不如人类的表现。
自然语言理解跟整个人工智能的发展历史类似,一共经历了 3 次迭代:基于规则的方法、基于统计的方法和基于深度学习的方法。
1.2 自然语言生成 NLG
NLG将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。
NLG 的发展经历了三个阶段,从早期的简单的数据合并到模板驱动模式再到现在的高级 NLG,使得计算机能够像人类一样理解意图,考虑上下文,并将结果呈现在用户可以轻松阅读和理解的叙述中。
自然语言生成可以分为以下六个步骤:内容确定、文本结构、句子聚合、语法化、参考表达式生成和语言实现。
1.3 神经网络 RNN
神经网络,尤其是循环神经网络 (RNN) 是当前 NLP 的主要方法的核心。
其中,2017 年由 Google 开发的 Transformer 模型现已逐步取代长短期记忆(LSTM)等 RNN 模型成为了 NLP 问题的首选模型。
Transformer 的并行化优势允许其在更大的数据集上进行训练,这也促成了 BERT、GPT 等预训练模型的发展。
相关系统使用了维基百科、Common Crawl 等大型语料库进行训练,并可以针对特定任务进行微调。
1.4 Transformer 模型
Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。
与循环神经网络(RNN)一样,Transformer 模型旨在处理自然语言等顺序输入数据,可应用于翻译、文本摘要等任务。与 RNN 不同的是,Transformer 模型能够一次性处理所有输入数据。
注意力机制可以为输入序列中的任意位置提供上下文。如果输入数据是自然语言,则 Transformer 不必像 RNN 一样一次只处理一个单词,这种架构允许更多的并行计算,并以此减少训练时间。
ChatGPT是OpenAI从GPT-3.5、GPT-4系列中的模型进行微调产生的聊天机器人模型,能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流。
2、AIGC算法
- AIGC 生成算法主流的有生成对抗网络 GAN 和扩散模型
- 扩散模型已经拥有了成为下一代图像生成模型的代表的潜力
2.1 生成对抗网络 GAN
GAN是生成模型的一种,透过两个神经网络相互博弈的方式进行学习。
GAN 被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。
2.2 扩散模型 Diffusion Model
GAN(生成对抗网络)有生成器和鉴别器,它们相互对抗,然后生成图像,由于模型本身具有对抗性,因此很难进行训练,利用扩散模型可以解决这个问题。
扩散模型也是生成模型,扩散模型背后的直觉来源于物理学。在物理学中气体分子从高浓度区域扩散到低浓度区域,这与由于噪声的干扰而导致的信息丢失是相似的。
Diffusion通过引入噪声,然后尝试通过去噪来生成图像。在一段时间内通过多次迭代,模型每次在给定一些噪声输入的情况下学习生成新图像。
2.3 Lora模型
LoRA是Low-Rank Adaption of large language model的缩写,是一种大语言模型fine-tune的方法。
Lora主要思路是在固定大网络的参数,并训练某些层参数的增量,且这些参数增量可通过矩阵分解变成更少的可训练参数,大大降低finetune所需要训练的参数量。
三、商业落地
1、A应用场景
- AIGC 在文字、图像、音频、游戏和代码生成中商业模型渐显
2、产业地图
2.1 产业上游:数据服务
- 人工智能的分析、创作、决策能力都依赖海量数据
- 决定不同机器间能力差异的就是数据的数量与质量
2.2 产业中游:算法模型
算法模型是AIGC最核心的环节,是机器学习的关键所在。通常包含三类参与者:专门实验室、企业研究院、开源社区。
AI实验室:算法模型在AI系统中起决策作用,是它完成各种任务的基础,可以视为AI系统的灵魂所在。
企业研究院:一些集团型公司或企业往往会设立专注于前沿科技领域的大型研究院,下设不同领域的细分实验室,通过学术氛围更浓厚的管理方式为公司的科研发展添砖加瓦。
开源社区:社区对AIGC非常重要,它提供了一个共享成果、代码的平台,与其他人相互合作,共同推动AIGC相关技术的进步。根据覆盖领域的宽度和深度,这种社区可以分为综合型开源社区和垂直型开源社区。
2.3 产业下游:应用拓展
3、细分市场
3.1 文本处理
文本处理是AIGC相关技术距离普通消费者最近的场景,技术较为成熟。
一般说来文本处理可以细分为营销型、销售型、续写型、知识型、通用型、辅助型、交互型、代码型。
3.2 音频处理
目前的音频处理主要分为三类:音乐型、讲话型、定制型,AI的应用将优化供给效率,改善整体利润水平。
3.3 图片处理
图片的创作门槛比文字高,传递信息也更直观,随着AIGC应用的日益广泛,图片处理也就从广告、设计、编辑等角度带来更大更多的机遇。图片处理可细分为生成型、广告型、设计型、编辑型。
3.4 视频处理
视频日益成为新时代最主流的内容消费形态,将AIGC引入视频将是全新的赛道,也是技术难度最大的领域。视频处理可以细分为生成型、编辑型、定制型、数字虚拟人视频。
3.5 代码生成
以GitHub Copilot为例,Copilot是GitHub 和 OpenAI 合作产生的 AI 代码生成工具,可根据命名或者正在编辑的代码上下文为开发者提供代码建议。官方介绍其已经接受了来自 GitHub 上公开可用存储库的数十亿行代码的训练,支持大多数编程语言。
四、面临挑战
除了技术上亟待解决的算力、模型准确性之外,目前AIGC相关的挑战主要集中在版权、欺诈、违禁内容三方面。
1、版权问题
- AIGC是机器学习的应用,而在模型的学习阶段一定会使用大量数据,但目前对训练后的生成物版权归属问题尚无定论
- 为什么AI基于自己创作的作品生成的新作品却与自己无关?而且现行法律都是针对人类的行为规范而设立的
- AI只是一种工具,不受法律约束与审判,即便证据充分,作者的维权之路通常也难言顺利
- 不过对于AIGC与作者的关系将会随着时代发展而逐渐清晰,界定也将更有条理性
2、欺诈问题
- 高科技诈骗手段层出不穷,AI经过训练后也可以创作出以假乱真的音视频,“换脸”“变声”等功能,滥用危害甚大
- 部分诈骗分子利用“换脸”技术实施诈骗,也有不法分子恶意伪造他人视频,再转手兜售到灰色市场
3、违禁内容
- AIGC取决于使用者的引导,AI对恶意诱导会不加分辨或判断,会根据学习到的信息输出极端或暴力言论
- AIGC作为内容生产的新范式,也对国家相关法律法规机构及监管治理能力都提出了更高要求
参考资料
https://chat.openai.com/chat
https://arxiv.org/pdf/1706.03762.pdf
https://arxiv.org/pdf/1406.2661.pdf
https://arxiv.org/pdf/1409.2329.pdf
https://arxiv.org/pdf/2112.10752.pdf
https://arxiv.org/pdf/2106.09685.pdf
https://github.com/pbloem/former
https://github.com/haofanwang/Lora-for-Diffusers/blob/main/convert_lora_safetensor_to_diffusers.py
AIGC:内容生产力的革命—国海证券
AIGC发展趋势报告2023—腾讯研究院
2023AIGC行业研究报告—甲子光年
相关文章:

ChatGPT研究报告:AIGC带来新一轮范式转移
本文约4000字,目标是快速建立AIGC知识体系,含有大量的计算专业名词,建议阅读同时扩展搜索。 一、行业现状 1、概念界定 区别于PGC与UGC不同的,AIGC是利用人工智能技术自动生成内容的新型生产方式。 2、数据模态 按照模态区分&a…...

自助式数据分析平台:jvs数据智仓-统计报表的使用条件及界面介绍
统计报表界面介绍 统计报表是指利用表格和报表等形式,将数据以清晰的结构和布局的方式呈现出来,以便用户进行数据分析和决策制定的一种BI统计方法。表格式的BI统计通常采用交叉表格、分组表、报表等形式,对数据进行整合、分析和展示ÿ…...

php连接sqlserver
1.使用工具 Wampserver--3.3 sqlserver2023 php7.4.33 2.连接流程 1.下载Microsoft Drivers for PHP for SQL Server 下载地址:下载 Microsoft Drivers for PHP for SQL Server - PHP drivers for SQL Server | Microsoft Learn 2.下载Microsoft ODBC Driver …...

Android 9.0 原生SystemUI下拉通知栏UI背景设置为圆角背景的定制(一)
1.前言 在9.0的系统rom产品定制化开发中,在原生系统SystemUI下拉状态栏的通知栏的通知背景默认是白色四角的背景, 由于在产品设计中,需要把四角背景默认改成圆角背景,所以就需要分析系统原生下拉通知栏的每条通知的默认背景, 然后通知显示流程,设置默认下拉状态栏UI中的…...

vCenter(PSC)正常更改或重置administrator@vsphere.local用户的密码方法
1. 正常更改administratorvsphere.local用户密码 在vCenter界面中选择“菜单”下的“系统管理”,如下图所示: 然后在Single Sign On下的用户和组中,选择“vsphere.local”域,再对Administrator用户进行编辑,即可进行…...

【五一创作】Java 反射
在了解反射前,我们先要知道一些相关知识 Class类 Class类的实例表示java应用运行时的类或接口,每个java类运行时都在JVM里表现为一个class对象,可通过类名.class、类型.getClass()、Class.forName("类名")等方法获取class对象。 …...

常见元件、封装、尺寸、表面处理等
参考:https://www.bilibili.com/read/cv11024927?fromsearch&spm_id_from333.337.0.0 参考:https://www.bilibili.com/read/cv18413169?fromsearch&spm_id_from333.337.0.0 目录 通孔插件(THT)和表面贴装(SMT)技术封装类型SOP/SOIC封装DIP封装…...

作为一名8年测试工程师,因为偷偷接私活被····
接私活 对程序员这个圈子来说是一个既公开又隐私的话题,不说全部,应该大多数程序员都有过想要接私活的想法,当然,也有部分得道成仙的不主张接私活。但是很少有人在公开场合讨论私活的问题,似乎都在避嫌。就跟有人下班后…...
前端面试八股文
1、HTTP和HTTPS 1.1、http和https的基本概念 http: 是一个客户端和服务器端请求和应答的标准(TCP),用于从 WWW 服务器传输超文本到本地浏览器的超文本传输协议。 https: 是以安全为目标的 HTTP 通道,即 HTTP 下 加入 SS…...

[创新工具和方法论]-02- DOE实验设计步骤
文章目录 1.DOE设计1.1 基于OFAT的传统实验设计:1.2 基于DoE的现代实验设计:1.3 DOE和OFAT的比较1.4 如何利用好DOE1.4.1 规划1.4.2 筛选1.4.3 表征1.4.4 优化1.4.5 确认 2. 步骤2.1陈述实际的问题和实验的目的2.2因果链分析,提取重要的因子2.3选择Y的响…...

XXL-JOB分布式任务调度平台搭建以及和SpringBoot整合应用
1 前言 XXL-JOB 是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。 可以前往 Gitee 地址进行下载使用: https://gitee.com/xuxueli0323/xxl-job.g…...

【LeetCode】236. 二叉树的最近公共祖先
1.问题 给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个节点 p、q,最近公共祖先表示为一个节点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是…...

STM32F4 HAL库使用DMA进行ADC采样实时发送波形到串口显示(包含傅里叶变换)
1.总体逻辑 按下STM32F4的KEY0按键,通过外部中断的方式对按键进行检测,然后开启一次带DMA的固定点数的ADC采集,采集完成后在DMA的中断发送采集到的数据,然后清空数据区准备下一次的按键中断。电脑接受到串口数据后对数据进行简单…...

ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~
文章目录 ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~HuggingFace 简介HuggingChat 登场展望 ChatGPT 平替天花板:HuggingFace 版 ChatGPT 来了,无需魔法无需等待直接起飞 ~ 二话不说上链接 htt…...
桐乡学会计实操—小规模纳税人征收率的汇总帖来啦!
上元会计—会计实操—小规模纳税人征收率的汇总帖来啦!一文了解 小规模纳税人发生应税行为适用简易计税方法计税。那么小规模纳税人增值税的征收率到底有几档?很多人以为小规模纳税人适用的征收率只有3%,但是有没有其他征收率呢,…...

权威学者、企业CFO荟聚上海国家会计学院,共探「智能会计 价值财务」
4月21日,由用友主办的「智能会计 价值财务」2023企业数智化财务创新峰会在上海国家会计学院圆满举办。学院权威教授、业内专家与来自央国企、行业领先企业的财务先锋,线下云端共聚一堂,数万人共探大型企业财务数智化的全新价值主张。 会议伊始…...

根据cadence设计图学习硬件知识day06 了解一些电源转化芯片和 稳压器 和 开关芯片
1. TPL920 (高精度线性稳压器) 1.1.TPL920 介绍 TPL920系列产品是2A大电流、6μVRMS低噪声、高PSRR、高精度线性稳压器,通常具有在2A负载条件下的110 mV超低电压降。这TPL920系列产品同时支持固定输出电压范围从0.8伏到3.95伏,输出电压可调范围为0.8V至…...

简单理解内存分页机制
文章目录 1.CPU寻址方式2.段式内存访问的缺点3.80386两级页表4.PAE三级页表5.x64四级页表6.虚拟内存 思考一个问题:如果没有这样的分页机制时应用程序是怎么访问物理内存地址? 1.CPU寻址方式 Effective Address Base (Index * Scale) Displacement …...

如何提高三维模型OSGB格式转换3DTILES的转换速度和数据质量
如何提高三维模型OSGB格式转换3DTILES的转换速度和数据质量 提高三维模型从OSGB格式转换为3DTILES格式的转换速度和数据质量,可以从以下几个方面进行优化: 1、选用高效的转换工具:选择高效的转换工具是提高转换速度和数据质量的关键。目前市…...
智现未来面试(部分)
容器化有哪些好处和坏处? 部分Answer by newBing:容器化的好处有很多,包括: 可移植性:应用程序容器会创建一个从主机操作系统提取出来的可执行软件包,使得应用程序可以在不同的环境中运行,而不需要重新配置…...

多云管理“拦路虎”:深入解析网络互联、身份同步与成本可视化的技术复杂度
一、引言:多云环境的技术复杂性本质 企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时,基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套:跨云网络构建数据…...

RocketMQ延迟消息机制
两种延迟消息 RocketMQ中提供了两种延迟消息机制 指定固定的延迟级别 通过在Message中设定一个MessageDelayLevel参数,对应18个预设的延迟级别指定时间点的延迟级别 通过在Message中设定一个DeliverTimeMS指定一个Long类型表示的具体时间点。到了时间点后…...
C++:std::is_convertible
C++标志库中提供is_convertible,可以测试一种类型是否可以转换为另一只类型: template <class From, class To> struct is_convertible; 使用举例: #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

Python:操作 Excel 折叠
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...
可靠性+灵活性:电力载波技术在楼宇自控中的核心价值
可靠性灵活性:电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中,电力载波技术(PLC)凭借其独特的优势,正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据,无需额外布…...

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)
目录 一、SQL注入 二、insert注入 三、报错型注入 四、updatexml函数 五、源码审计 六、insert渗透实战 1、渗透准备 2、获取数据库名database 3、获取表名table 4、获取列名column 5、获取字段 本系列为通过《pikachu靶场通关笔记》的SQL注入关卡(共10关࿰…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据
微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列,以便知晓哪些列包含有价值的数据,…...
Java 二维码
Java 二维码 **技术:**谷歌 ZXing 实现 首先添加依赖 <!-- 二维码依赖 --><dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.5.1</version></dependency><de…...

Python Ovito统计金刚石结构数量
大家好,我是小马老师。 本文介绍python ovito方法统计金刚石结构的方法。 Ovito Identify diamond structure命令可以识别和统计金刚石结构,但是无法直接输出结构的变化情况。 本文使用python调用ovito包的方法,可以持续统计各步的金刚石结构,具体代码如下: from ovito…...
Web中间件--tomcat学习
Web中间件–tomcat Java虚拟机详解 什么是JAVA虚拟机 Java虚拟机是一个抽象的计算机,它可以执行Java字节码。Java虚拟机是Java平台的一部分,Java平台由Java语言、Java API和Java虚拟机组成。Java虚拟机的主要作用是将Java字节码转换为机器代码&#x…...