生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作
感谢大家阅读《生成式 AI 行业解决方案指南》系列博客,全系列分为 4 篇,将为大家系统地介绍生成式 AI 解决方案指南及其在电商、游戏、泛娱乐行业中的典型场景及应用实践。目录如下:
《生成式 AI 行业解决方案指南与部署指南》
《生成式 AI 在电商行业的应用场景实践 – 赋能营销物料高效生产》
《生成式 AI 在游戏行业的应用场景实践 – 加速游戏美术内容生产》
《生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作》(本篇)
背景介绍
从 2022 年以来生成式 AI 发展迅猛,特别是在文生图领域,在扩散模型为主、其他模型的加持下,新的文生图、图生图技术层出不穷。在媒体与娱乐领域已经被广泛应用,主要的场景有:1. 分镜头剧本插图;2. 漫画创作;3. 概念图生成。并随着技术的进步,形成比较完善的工具链。
尽管扩散模型和其应用在生成图片方面的能力出众,但是视频生成领域发展依然是滞后的。其原因主要有:没有高质量的训练集;没有很好描述视频的方式;生成式视频模型的训练需要极高的算力。
所以现在主流的利用扩散模型生成视频的方式是: 利用模版视频,拆解为视频帧图片,利用各种插件逐帧按照提示词和图片特征进行风格化,最后组合成风格化视频。
在本篇文章中,我们基于生成式 AI 行业解决方案指南,针对泛娱乐行业的风格化视频生成,介绍生成式 AI 的使用和参数配置,以及配合传统工具,以协助内容创作,达到一定的创意效果。
生成式 AI 在泛娱乐行业中视频创作
在泛娱乐行业,短视频是最流行的一种内容表达形式,其特点是制作成本较低,传播率高。传统的生成短视频的方式既有 UGC 模式,也有 PGC 模式,虽然他们的制作周期和制作成本远低于传统媒体,但是还是脱离不了“策划-剧本-台词-选角-排练-正式演出-录制-校验-剪辑-后期-审核-发布”这些基本的步骤。综合来说,一个 5 分钟左右的短视频制作平均时长大概 2-3 天左右。生成式 AI 的出现可以大大提高制作效率,缩短制作周期,甚至可以简化制作步骤。
现在有生成风格化图片和生成风格化视频的生成方式,根据一些现有的图片和视频,或者初期拍摄的视频直接进入后期步骤。进行风格化是现在短视频生成的一种尝试,虽然现在这类视频依然有闪烁跳跃等问题,通过社区的不断进步,效果正越来越好。当然这类视频本身因为自由度较高,创意属性强,本身就具有较强的话题性和传播度。
主流的风格化视频的生产的方法是利用连续风格化图片作为序列帧串联起来的视频。包括:
1)通过原视频提取每一帧,逐帧通过提示词进行图生图,最后将图片重新组装起来生成风格化视频;
2)生成数张创意图片,作为关键帧,相似图片作为过渡帧,组装成风格化视频。
这两种风格化视频,都可以通过 Stable Diffusion WebUI 的插件来实现。但是这两种风格化视频生产方式依然具有一定需要解决的问题,各自分别是:
1) 模版视频拍摄依然需要一定投入,包括编排,表演,以及原始视频的版权问题等;
2 )风格化视频的主题难以定义。
本文给出了两种风格化视频的组合生成方式,可以充分利用目前风格化视频的插件,又可以部分解决风格化视频生产的上述问题:
利用 3D 模型的动态画面作为蓝本,生成风格化视频的方法
利用短暂的普通视频作为起点(或者中间节点)生成具有一定主题的风格化视频的方法
架构与工作原理
本篇以生成式 AI 行业解决方案指南为基础,其工作原理如下图:
生成式 AI 行业解决方案指南,将前端 Stable Diffusion WebUI 部署在容器服务 Amazon ECS 上,后端使用无服务器服务 Amazon Lambda 进行处理,前后端通过 Amazon API Gateway 调用进行通信。模型训练及部署均通过 Amazon SageMaker 进行。同时使用 Amazon S3、Amazon EFS、Amazon DynamoDB 分别进行模型数据、临时文件、使用数据的存储。快速部署流程可参考该系列博客的第一篇,本篇不再赘述。
3D 模型为蓝本生产风格化视频
首先我们先了解一下由原视频转换为风格化视频的基本原理,如下图所示:
参考步骤为:
原始视频拆解为视频帧序列
针对每一帧通过 Stable Diffusion 进行风格化,并用 ControlNet 对人物轮廓和姿态进行控制
将生成的新的序列帧重新组合成为视频
从视频生成视频的角度,原视频只是用于风格化视频的轮廓或者动作,使用真人或者实景拍摄的原视频成本还是比较高的;我们不妨使用一些低成本的 3D 模型,比如只有轮廓,没有贴图,调色器,面数很低的模型,作为蓝本进行视频生成。这里采用一个例子:生成一个具有 cyberpunk 风的女孩跳桑巴舞,和一般的视频风格化不同,这个例子中舞蹈动作比较复杂,并且没有版权的原视频作为模版,那么我们可以采用具体步骤如下:
1. 将低成本人物模型导入 Blender 或者 Unity3D,并生成桑巴舞蹈动画。这里我们选择从 mixamo.com 网站上下载一个人物跳舞的模型组件,并转换为原视频如下:
搭建基础 WebUI 环境并导入模型,按照根据生成式 AI 解决方案指南部署后,操作即可:
2. 导入视频,并输入提示词
使用提示词
Hyper realistic painting of a beautiful girl in a cyberpunk plugsuit, hyper detaled ,anime trending on artstation with mask (masterpiece:1.4), (best quality:1.2), (ultra highres:1.2) ,(8k resolution:1.0)
反向提示词
text, letters, logo, brand, close up, cropped, out of frame, worst quality, low quality, jpeg artifacts, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
3. 进行视频风格化生成,打开 Mov2Mov 插件,这里的参数推荐如下:
Sample steps=20-30,
Generate movie mode=XVID,
CFG scale=7-10,
Denoising strength=0.2-0.3,
Movie frames=30,
Maxframe=60-90,
Controlnet 选择enabled,
Control weight 0.2-0.25。
点击生成后,得到的视频和原视频比较如下:
具有主题的风格化视频
Stable Diffusion 社区具有丰富的风格化视频生成插件,其中 Deforum 是热度最高的插件之一,其原理是确定时间轴上的关键帧使用明确 Prompt 生成的创意图片,关键帧之间的过渡视频帧采用渐进的方式,并配合一定的 2D,3D 空间旋转,产生独特的效果,这种方式的提示词一般都是剧本的形式,原理如图所示:
从风格化视频或者创意视频的角度,通过一定剧本转换为 prompt,再经过 Deforum 的串联,能达到表达一定主题的创意视频的效果,从制作角度这里还是有两个难点:
凭空写剧本很难将现实主题和创意视频进行关联;
创意视频/风格化视频效果本身还是由创意图片连接而成,很难把控其效果,并且视频生成消耗算力远大于图片生成,造成废片会导致算力浪费。
所以这里我们不妨在用简单的现实视频与创意视频交叉呼应的方式进行创作,这里的现实视频可能只需 2-3 秒的手机拍摄视频,并作为起始视频即可。这里采用一个例子:笔者参观某省级博物馆叙利亚文物展,突发感慨,想制作一个几十秒的风格化短视频,表达自己观看文物时感受的千年时代变迁,我们可以采用具体步骤如下:
1. 拍摄一段 3-5 分钟的自拍视频,表示初始主题,作为初始视频。由于目标是创意视频要发在社交媒体上,需要适配手机的尺寸,所以视频分辨率为 540*960
2. 准备 Web UI 的基本环境,包括模型和插件
3. 设置初始视频的某帧为初始帧,我们这里截取最后一帧为初始帧, 图像分辨率为 540*960,并在 Deforum 里设置初始帧,在 init tab 里选择 Use init,并填入文件地址
4. 设置提示词,并设置旋转参数。这里有参数列表和推荐值如下表
5. 编排适当的风格化提示词,并生成视频,这里提示词必须按照 JSON 格式,在这个规则的基础上,编排视频的情节
提示词如下:
{
“0”: “A Warrior in desolate landscape in Syria, with cracked earth, under a dark and stormy sky, Picasso style”,
“50”: ” sunshine from the earth, ancient relics and mysterious symbols in Syria, Picasso style “,
“150”: “Egypt style building in Syria , Picasso style “,
“200”: “Rome style city with people from different races and cultures mingle and trade in the streets, markets in Syria, Picasso style “,
“250”: ” war between nations east and west of Syria, the kings are seeking to preserve the balance of nature and magic, the other wanting to exploit it for power and profit, Picasso style “,
“300”: “gun smoke and flowers ,generals speech, Picasso style “,
“450”: “bomb explosion on the sky, fires ,flames and smoke, blood and ashes , Picasso style -neg magnificent”,
“500”: “fate of people in the nation, peaceful hope, Picasso style”
}
反向提示词:
NSFW, worst quality, low quality, ugly, duplicate, morbid, mutilated, extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
6. 通过剪辑软件将现实视频与创意视频首尾呼应进行连接,得到完整视频,参考如下:
总结
在本文中,我们大致介绍了泛娱乐行业的视频内容制作场景中,通过不同插件和工具的配合,可以达到生成风格化视频和创意视频的目标。当然这只是冰山一角,在泛娱乐行业应用中,我们通过不断跟踪新的插件和模型,可以根据技术上的迭代达到泛娱乐内容的不断创新,同时和一些标准的媒体制作工具相结合,通过步骤的不断优化,达到可以高效生产创意内容的目的。
参考资料
1. 生成式 AI 行业解决方案指南:
https://aws.amazon.com/cn/campaigns/aigc/
2. 生成式 AI 行业解决方案指南 Workshop:
https://catalog.us-east-1.prod.workshops.aws/workshops/bae25a1f-1a1d-4f3e-996e-6402a9ab8faa
3. Stable-diffusion-webui:
https://github.com/AUTOMATIC1111/stable-diffusion-webui
4. Hugging Face:
https://huggingface.co/
本篇作者
明琦
亚马逊云科技行业解决方案架构师,主要负责媒体行业相关技术方案,并致力于泛娱乐行业中创新技术和客户体验相关解决方案的构建和推广,包括,虚拟现实,混合现实,生成式 AI,数字人等方向,具有多年的架构设计和产品开发经验。
白鹤
教授级高级工程师,亚马逊云科技媒体行业资深解决方案架构师,重点从事融合媒体系统、内容制作平台、超高清编码云原生能力等方面架构设计工作,在围绕媒体数字化转型的多个领域有丰富的实践经验。
汤哲
亚马逊云科技行业解决方案架构师,负责基于 Amazon Website Service 的云计算方案的咨询与架构设计,同时致力于亚马逊云服务知识体系的传播与普及。在软件开发、安全防护等领域有实践经验,目前关注电商、直播领域。
听说,点完下面4个按钮
就不会碰到bug了!
相关文章:

生成式 AI 在泛娱乐行业的应用场景实践 – 助力风格化视频内容创作
感谢大家阅读《生成式 AI 行业解决方案指南》系列博客,全系列分为 4 篇,将为大家系统地介绍生成式 AI 解决方案指南及其在电商、游戏、泛娱乐行业中的典型场景及应用实践。目录如下: 《生成式 AI 行业解决方案指南与部署指南》《生成式 AI 在…...

elementPlus——图标引入+批量注册全局组件——基础积累
因为我们要根据路由配置对应的图标,也要为了后续方便更改。因此我们将所有的图标注册为全局组件。(使用之前将分页器以及矢量图注册全局组件的自定义插件)(所有图标全局注册的方法element-plus文档中已给出) 全局注册…...

国标GB28181安防视频平台EasyGBS显示状态正常,却无法播放该如何解决?
国标GB28181视频平台EasyGBS是基于国标GB/T28181协议的行业内安防视频流媒体能力平台,可实现的视频功能包括:实时监控直播、录像、检索与回看、语音对讲、云存储、告警、平台级联等功能。国标GB28181视频监控平台部署简单、可拓展性强,支持将…...
TIOVX:opencv的Mat类图像零拷贝转为openvx的vx_image格式,通过Not节点无效果问题记录
问题描述 代码中,创建了一个opencv的Mat图像(并打印了所有的像素值),然后通过vxCreateImageFromHandle函数将Mat图像转为了vx_image图像(通过映射的方式打印了所有的像素值,通过日志可以看出与之前打印相同)。然后创建graph,将其作…...

变压器故障诊断(python代码,逻辑回归/SVM/KNN三种方法同时使用,有详细中文注释)
视频效果:变压器三种方法下故障诊断Python代码_哔哩哔哩_bilibili代码运行要求:tensorflow版本>2.4.0,Python>3.6.0即可,无需修改数据路径。 1.数据集介绍: 采集数据的设备照片 变压器在电力系统中扮演着非常重要的角色。…...

ASEMI探索整流桥GBU814的独特优势和应用领域
编辑-Z 整流桥GBU814在众多电子元件中独树一帜,可在多种设备中发挥其重要作用。作为一款集高效性能和可靠稳定性于一身的整流桥,GBU814已在全球范围内赢得了广泛的好评。在这篇文章中,我们将详细介绍GBU814整流桥的优势和应用领域。 让我们首…...
js脚本自动化之葫芦娃
什么是葫芦娃? 贵州特产平台(扶贫助农平台)有很多,但都大同小异,就连模样都像一个娘生的,所以戏称为葫芦娃平台 #小程序://航旅黔购/1nkYlNRVzm0Gg9x #小程序://贵旅优品/7zz6mtnSVgDfyqa #小程序://新联惠购/ibFdsuhWqIbczEd #小程序://贵盐黔品/u2TgExCUdkavrFe #小程…...

从零基础到精通IT:探索高效学习路径与成功案例
文章目录 导语:第一步:明确学习目标与方向选择适合的IT方向设定具体的学习目标咨询和调研 第二步:系统学习基础知识选择适合的编程语言学习数据结构和算法掌握操作系统和计算机网络基础 第三步:实践项目锻炼技能选择合适的项目编写…...
2023.8.8巨人网络数据开发工程师面试复盘
1 概述 问题一览 总体感觉良好,通过面试官的介绍可知这个岗位偏向离线数仓。 1.自我介绍 2.询问了其中一段实习经历 3.讲下你说用过的Linux命令 4.讲下HIVE的内部表和外部表有什么不同 *5.讲下你使用过的Hive函数(好好在复习下多准备几个吧)…...

Python Opencv实践 - 图像仿射变换
import cv2 as cv import numpy as np import matplotlib.pyplot as pltimg cv.imread("../SampleImages/pomeranian.png", cv.IMREAD_COLOR) rows,cols img.shape[:2] print(img.shape[:2])#使用getAffineTransform来获得仿射变换的矩阵M #cv.getAffineTransform(…...

如何使用CSS实现一个模态框(Modal)效果?
聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 使用CSS实现模态框(Modal)效果⭐ HTML 结构⭐ CSS 样式⭐ JavaScript⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎…...
关于API数据接口获取商品的数据的说明
获取商品数据已经成为许多应用程序的重要组成部分。为了实现这一目标,许多公司和技术开发者使用API数据接口来获取相关数据。本文将详细介绍如何使用API数据接口获取商品数据,并使用Python作为编程语言示例来展示相关代码。 API数据接口是一种通信协议&…...

Redis持久化——AOF
介绍 Redis是运行在内存中的数据库,当我们关闭了Redis服务器后,内存中的数据会丢失吗? 答案是不会的,因为Redis有持久化功能,能够将内存中的数据保存到磁盘中的文件,以此来实现数据的永久保存。 在Redis中…...
Qt 嵌入Vue项目 flapMap 浏览器兼容性问题
最近有个需求,Qt工程需要嵌入vue项目,本来是很简单的事情。在我的PC上启动Vue项目,同事PC上用浏览器通过IP地址可以正常加载vue项目,但用Qt嵌入总是失败。问题定位步骤如下: 1)换了一个简单的vue项目&…...

1.SpringMVC接收请求参数及数据回显:前端url地址栏传递参数通过转发显示在网页
1、SpringMVC 处理前端提交的数据 1.1 提交的域名和处理方法的参数不一致,使用注解解决 1.2 提交的域名和处理方法的参数不一致,使用注解解决 1.3 提交的是一个对象 2、前端url地址栏传递的是一个参数 请求地址url:http://localhost:8080/s…...
C++ Primer Plus: 第10章(2)
第10章编程题: (1) Account.h: #ifndef ACCOUNT_H_ #define ACCOUNT_H_#include <string>class Account { private:std::string name ;std::string code ;double money ; public:Account() ;Account(std::string Name, std::string Co…...
c++中的extern关键字
extern关键字主要修饰变量或函数,表示该函数可以跨文件访问,或者表明该变量在其他文件定义,在此处引用。 extern修饰变量 (1)如果某变量int m在a.c中定义声明,则其他b.c文件访问时,需要用exte…...
javaScript:快乐学习计时器
目录 一.前言 二.计时器 1.计时器的分类 2. 创建计时器的方式 创建间隔计时器 创建方式三种 1.匿名函数 2.使用函数直接作为计时器的执行函数 2.使用函数直接作为计时器的执行函数,用字符串的形式写入 3.计时器的返回值 4.清除计时器 5.延迟计时器 相关代码 一.前言 在…...
onnxruntime 支持的所有后端
1 代码导出 import onnxruntime as ort aaa ort.get_all_providers() print(aaa)1. 1 下面是ort支持的所有后端 TensorrtExecutionProvider, CUDAExecutionProvider, MIGraphXExecutionProvider, ROCMExecutionProvider, OpenVINOExecutionProvider, DnnlExecutionProvider…...

k8s 自身原理 5
我们知道容器是通过 pod 来承载的,我们在 k8s 中,服务都是跑在 pod 里面的,pod 里面可以跑 1 个容器,或者跑多个容器,那么咱们 pod 里面跑 1 个服务容器,咱真的就以为里面就只有这样个容器吗? …...

Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用
1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...
JAVA后端开发——多租户
数据隔离是多租户系统中的核心概念,确保一个租户(在这个系统中可能是一个公司或一个独立的客户)的数据对其他租户是不可见的。在 RuoYi 框架(您当前项目所使用的基础框架)中,这通常是通过在数据表中增加一个…...
jmeter聚合报告中参数详解
sample、average、min、max、90%line、95%line,99%line、Error错误率、吞吐量Thoughput、KB/sec每秒传输的数据量 sample(样本数) 表示测试中发送的请求数量,即测试执行了多少次请求。 单位,以个或者次数表示。 示例:…...
探索Selenium:自动化测试的神奇钥匙
目录 一、Selenium 是什么1.1 定义与概念1.2 发展历程1.3 功能概述 二、Selenium 工作原理剖析2.1 架构组成2.2 工作流程2.3 通信机制 三、Selenium 的优势3.1 跨浏览器与平台支持3.2 丰富的语言支持3.3 强大的社区支持 四、Selenium 的应用场景4.1 Web 应用自动化测试4.2 数据…...
嵌入式常见 CPU 架构
架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集,单周期执行;低功耗、CIP 独立外设;用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel(原始…...
41道Django高频题整理(附答案背诵版)
解释一下 Django 和 Tornado 的关系? Django和Tornado都是Python的web框架,但它们的设计哲学和应用场景有所不同。 Django是一个高级的Python Web框架,鼓励快速开发和干净、实用的设计。它遵循MVC设计,并强调代码复用。Django有…...

RushDB开源程序 是现代应用程序和 AI 的即时数据库。建立在 Neo4j 之上
一、软件介绍 文末提供程序和源码下载 RushDB 改变了您处理图形数据的方式 — 不需要 Schema,不需要复杂的查询,只需推送数据即可。 二、Key Features ✨ 主要特点 Instant Setup: Be productive in seconds, not days 即时设置 :在几秒钟…...
Linux--vsFTP配置篇
一、vsFTP 简介 vsftpd(Very Secure FTP Daemon)是 Linux 下常用的 FTP 服务程序,具有安全性高、效率高和稳定性好等特点。支持匿名访问、本地用户登录、虚拟用户等多种认证方式,并可灵活控制权限。 二、安装与启动 1. 检查是否已…...

MQTT协议:物联网时代的通信基石
MQTT协议:物联网时代的通信基石 在当今快速发展的物联网(IoT)时代,设备之间的通信变得尤为重要。MQTT(Message Queuing Telemetry Transport)协议作为一种轻量级的消息传输协议,正逐渐成为物联…...