从零开始之AI视频制作篇
从零开始之AI视频制作篇
文章目录
- 从零开始之AI视频制作篇
- 前言
- 一、工具列表
- 二、成片展示
- 三、制作流程
- 1、获取图片素材
- 2、图片生成视频
- 2.1 Runway操作流程
- 3、文本生成语音
- 3.1 Fish Audio操作流程
- 4、视频剪辑
- 4.1 音频素材
- 4.2 字幕生成
- 四、Runway提示词参考:
- 参考
前言
现在是2024年8月。虽然AI现在发展得很快,但离完全替代人类还是有部分的距离。AI作为提高效率的工具确实是不争的事实。本文将详细描述在这个时间节点上可达到的基于图片的AI视频制作的整个流程,适合小白食用。
一、工具列表
基于图片的AI视频制作需要准备的工具列表有:
-
图片素材
本文采用的图片素材来源(已获许可):汐木桃ART的木桃日记 -
图片生成视频的平台
Runway Gen3传送门(本文采用)
Luma Dream Machine传送门
可灵AI传送门
即梦AI传送门
清影AI传送门 -
TTS工具
TTS工具用于根据文本内容生成语音。
Fish Audio传送门 (本文采用)
Cosy Voice传送门
ChatTTS的autodl云平台部署版传送门 -
视频剪辑工具
adobe premiere pro (本文采用)
剪映
二、成片展示
木桃日记
三、制作流程
1、获取图片素材
可通过国内各个文生图的平台生成,或者通过自己搭建webui/comfyui云平台服务进行创作生成。webui的autodl云一键部署传送门、comfyui的autodl云一键部署传送门,本文采用的图片素材来源(已获许可):汐木桃ART的木桃日记。如果需要去水印,可用WPS等工具,或者用comfyui搭建一个去水印的工作流操作。comfyui去文字和水印的工作流可供参考:去水印和文字工作流传送门
2、图片生成视频
本文采用的是Runway平台,因此针对如何在Runway平台操作图片生成视频进行详解。
2.1 Runway操作流程
通过 Runway官网传送门 进入Runway后便可看到如下界面。
点击右上角的【Get Started】按钮后,便可进入登陆界面,此时需要一个账号才可使用,如果用 Gen2 可以自己注册个账号,有 免费试用额度。如果是用Gen3,就需要在某宝或某鱼上租用账号。
进入Runway官网后,便可看到如下的控制台,其中的【Assets】表示的是存放的你正在生成和已经生成的视频。【Tools】表示的是可以试用的工具。
我们需要使用的是【Tools】下的【Text/Image to Video】工具,点击进入即可。可以看到如下的工作台。
因为我们采用的是Gen3模型,所以我们的【模型】选择的是【Gen-3-Alpha】。因为我们是用的是租用的账号,所以经常会有同时几个人在线的情况,这时就要看【Generate】按钮是否可按,只要可按,不要犹豫, 立即按下 即可。
因为图片生成视频时,需要对生成的视频进行描述,从而让生成的视频符合我们的构想。所以需要填写提示词来让大模型进行参考。
最好将如下图片中的【guide】链接打开,里面有【运镜】、【特效】等的专业术语提示词可以让大模型更好的理解。Gen-3提示词官方指南
提示词指南中需要注意提示词的基本构造结构,如下图所示。
图中的案例部分:
Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray.
其中【camera movement】 部分可参考【官方提示词指南】的【Camera Styles】部分。
部分提示词参考可见文章末尾。
写好提示词后,点击【Generate】,平台右面部分会有个视频生成的进度展示,生成后也会展示在右面。
视频生成后便按下图所示,点击下载按钮,进行下载。
如果生成视频不理想,同一个提示词可多生成几次,如果还是不理想就得调整提示词再试试。在此祝各位好运连连。
3、文本生成语音
本文采用的是Fish Audio传送门 ,这个每天有50次的免费生成次数,短视频基本够用。
3.1 Fish Audio操作流程
登录进入后,便可看到各个声音角色的列表,选择想使用的声音角色,点击【使用声音】即可。
进入对应的角色页面后,便可参考下图步骤将文本填入对应文本框中,点击【创建】即可生成。
生成后按下图所示步骤即可将生成的声音文件进行下载。
4、视频剪辑
视频素材和旁白的音频素材准备好了,就可以进行视频剪辑了。如果是视频剪辑小白,可参考b站up主【京译达雅】的【【pr教程】新版本全套56集学不会你找我】教程,可选择性学习。pr教程b站传送门。
4.1 音频素材
如果剪视频的时候需要相关的音频素材,比如本文的剪辑视频中需要的夏夜的蝉鸣声、森林的蝉鸣声的素材,可通过如下几个音频素材网站进行搜索下载使用:淘声网传送门、耳聆网传送门、爱给网传送门。
4.2 字幕生成
如果剪辑的时候需要生成对应的字幕,可参考b站up主【Leo叔叔爱摄影】的字幕生成教程,可选择性学习。职业博主快速制作视频字幕的最佳方案,PR2023字幕最详细攻略,语音自动识别,批量制作字幕效果【PR零基础新手指南65集】,另外PR 2023已经支持一键语音转字幕功能了。
四、Runway提示词参考:
图片描述:A person in a crowd
提示词:Cinematic view of [a human subject with detailed descriptions of their appearance] walking through a blurry crowd. [Describe their action]. 30x speed, hyperspeed, fast motion. In the style of [describe style; ex. Moody colors, cinematic feel, dynamic motion, depth of field].
图片描述:Cinematic drone
提示词:First person view shot of a [subject]. hyper-speed fly, dynamic motion, dynamic blur, timelapse, 30x speed. In the style of [describe style; ex. cinematic, muted color palette].
图片描述:Close up
提示词:Telephoto close up: [subject].
图片描述:Close-up portrait
提示词:A crash zoom into a close-up portrait, shallow depth of field, bokeh. In the style of [describe style; ex. muted color palette, neutrals, magic hour, dull, dramatic, moody, film, 35mm].
图片描述:Dynamic motion
提示词:Dynamic motion, dynamic blur, 30x speed, unsharp edges.
图片描述:Establishing wide
提示词:Extreme wide angle establishing shot: [subject] in vast [scene].
图片描述:Fast motion
提示词:High speed, motion blur, chaotic, kinetic, hyperkinetic.
图片描述:Fast zoom
提示词:Hyperspeed shot: [scene]. Camera movement: fast zoom.
图片描述:First person view
提示词:First person view shot flying through [objects ex. canyons] of a [place ex. planet] toward a [object ex. moon].
图片描述:Handheld
提示词:Handheld tracking shot, following a [subject] in a [place].
图片描述:High angle
提示词:Aerial tracking shot: glide over [place]. Camera Movement: Start high, descend closer to [place].
图片描述:Low angle
提示词:Low angle shot: A [subject ex. car] drives down the center of a [place ex. city]. Tall [objects ex. buildings] loom on either side, their [objects ex. windows] blurred in the background.
图片描述:Macro cinematography
提示词:Macro cinematography: A large [object ex. water droplet] rests among [objects ex. succulent plants]. The [object] refracts and distorts the view of the surrounding environment. Camera Movement: Start with a close-up of the [object], then slowly pull back to reveal more of the surreal [plant life].
图片描述:Nightlight portrait
提示词:Close-up shot of [a human subject with detailed descriptions of their appearance], the neon lights of Tokyo's bustling streets reflecting in the eyes. The face has a pensive expression, hinting at an untold story. The vibrant colors of the city paint the facial features in a mesmerizing interplay of light and shadow.
图片描述:Orbiting scenery
提示词:We orbit around [a subject in a scenic environment; ex. a monument on a hill overlooking a forest], hyper dynamic movement in orbiting motion, shallow depth of field, subject in focus. In the style of [describe style; ex. dark muted natural color palette, cinematic]
图片描述:Over the shoulder
提示词:Over the shoulder shot: [subject doing X]. The camera trails behind them.
图片描述:Portal transition
提示词:Flying through [a place] into [another place]. Fast motion, motion blur. In the style of [describe style; ex. hyperlapse cinematography].
图片描述:Realistic documentary
提示词:An award winning documentary about [a subject; ex. a bunny, a tree, or coral reefs], wide angle shot showcasing the [subject], dynamic movement, this video is incredibly detailed and high resolution, the sharp focus and cinematic light is impressive, a masterpiece.
图片描述:Slow motion
提示词:Slow motion shot: [a subject in motion].
图片描述:Surreal levitation
提示词:An extreme wide angle establishing shot from low angle level looking up at into the sky at sunset hours. [A subject; ex. a plastic bag, a shiny orb, or a goat] is floating slowly in the sky above, defying gravity. Extreme perspective, 3x speed. In the style of [describe style; ex. cinematic, muted naturals coloring, documentary film]
图片描述:Titles
提示词:The scene starts in [location; ex. soup] and then suddenly [object; ex. noodles] appears and begins to [action; ex. transforms] to form the word "[single object, ex. SOUP]", centered, superb cinematic lighting.
参考
- 汐木桃ART的木桃日记
相关文章:

从零开始之AI视频制作篇
从零开始之AI视频制作篇 文章目录 从零开始之AI视频制作篇前言一、工具列表二、成片展示三、制作流程1、获取图片素材2、图片生成视频2.1 Runway操作流程 3、文本生成语音3.1 Fish Audio操作流程 4、视频剪辑4.1 音频素材4.2 字幕生成 四、Runway提示词参考:参考 前…...
Java之TCP编程综合案例
1.反转案例 搭建一个TCP客户端,从键盘录入整行数据(遇到quit结束录入)然后发送给服务器,再接收服务器返回的数据并输出。 package com.briup.chap12;public class Test064_ReversalClient {public static void main(String[] ar…...

【数据分析---Pandas实战指南:精通数据查询、增删改操作与高效索引和列名操作管理】
前言: 💞💞大家好,我是书生♡,本阶段和大家一起分享和探索数据分析,本篇文章主要讲述了:数据查询操作,数据增删改操作,索引和列名操作等等。欢迎大家一起探索讨论&#x…...
Spring Cloud全解析:注册中心之Eureka服务获取和服务续约
服务获取和服务续约 eureka客户端通过定时任务的方式进行服务获取和服务续约,在com.netflix.discovery.DiscoveryClient类中,启动了两个定时任务来进行处理 private void initScheduledTasks() {// 是否需要拉取if (clientConfig.shouldFetchRegistry(…...

三相整流电路交流侧谐波仿真分析及计算
一、三相桥式全控整流电路和功率因数测量电路SIMULINK 模型 如图4-1,根据高频焊机的主电路机构和工作原理,可将高频焊机三相整流部分等效为阻感负载的三相桥式全控整流电路模型,其由三相交流电压源、三相晶闸管整流桥、同步六脉冲触发器和阻感…...
了解Java中的反射,带你如何使用反射
反射的定义 反射(Reflection)是Java的一种强大机制,它允许程序在运行时动态地查询和操作类的属性和方法。通过反射,Java程序可以获取类的信息,比如类的名称、方法、字段,以及可以动态地创建对象、调用方法…...

【c++】基础知识——快速入门c++
🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:C 目录 前言 一、手搓一个Hello World 二、命名空间namespace 1.命名空间的定义 2.命名空间的使用 3.命名空间补充知识 三、c中的输入和输出 四、缺省参…...

AI学习记录 - 自注意力机制的计算流程图
过段时间解释一下,为啥这样子计算,研究这个自注意力花了不少时间,网上很多讲概念,但是没有具体的流程图和计算方式总结…...
JavaScript快速入门,满满干货总结,快速掌握JS语法,DOM,BOM,事件
目录 一. JavaScript、HTML、CSS简介 1.1 HTML简介和举例说明 1.2 CSS简介和举例说明 1.3 JavaScript 简介和举例说明 二. JavaScript 基本语法 2.1 变量类型和定义方式 2.2 逻辑运算符,比较运算符 2.3 流程控制,if,if...else...&…...

【C++】C++入门基础【类与对象】
目录 1.类 1.1类的定义 1.2struct 与 class对比 2.访问限定符 3. 类域 4.实例化 5.存储大小----内存对齐 6.this指针 1.类 1.1类的定义 class作为类的关键字,后面跟的是类的名字,如Stack,{}中的为类的主体,类定义结束时…...
Qt | QScatterSeries 散点图
点击上方"蓝字"关注我们 01、QScatterSeries QScatterSeries 的类,它将代表散点图中的一个系列。这个类将包含数据点、颜色和样式等属性,以及用于绘制散点图的方法。 02、main.cpp #include <QtWidgets/QApplication>#include <QtWidgets/QMainWindow…...

无缝协作的艺术:Codigger 视频会议(Meeting)的用户体验
在当今数字化的时代,远程协作已经成为工作和学习中不可或缺的一部分。然而,远程协作也面临着诸多挑战,如沟通不畅、信息同步不及时、协作工具的复杂性等。而 Codigger 视频会议(Meeting)作为一款创新的工具,…...

C基础练习(学生管理系统)
1.系统运行,打开如下界面。列出系统帮助菜单(即命令菜单),提示输入命令 2.开始时还没有录入成绩,所以输入命令 L 也无法列出成绩。应提示“成绩表为空!请先使用命令 T 录入学生成绩。” 同理,当…...
网络安全抓包封包WEB
目录 1.抓包 1. 网络故障排除 应用 意义 2. 网络安全监控 应用 意义 3. 性能优化 应用 意义 4. 协议分析与开发 应用 意义 5. 数据分析与合规性审计 应用 意义 抓包工具 总结 2.抓包的应用对象 1. 网络设备 路由器和交换机 防火墙和入侵检测系统ÿ…...

Spring Boot - 在Spring Boot中实现灵活的API版本控制(上)
文章目录 为什么需要多版本管理?在Spring Boot中实现多版本API的常用方法1. URL路径中包含版本号2. 请求头中包含版本号3. 自定义注解和拦截器 注意事项 为什么需要多版本管理? API接口的多版本管理在我们日常的开发中很重要,特别是当API需要…...

普中51单片机:DS18B20温度传感器操作指南(十三)
文章目录 引言电路图引脚讲解初始化时序写时序读时序温度变换温度读取完整代码 引言 DS18B20是一款单总线接口的数字温度传感器,仅需一个IO口即可实现数据通信。这里只对如何简单操作开发板的DS1802进行讲解,关于DS18B20温度传感器的详细操作原理&#…...

【网络】网络的发展历程及其相关概念
1.什么是网络 计算机网络是指将一群具有独立功能的计算机通过通信设备以及传输媒体被互联起来的,在通信软件的支持下,实现计算机间资源共享、信息交换或协同工作的系统。计算机网络是计算机技术与通信技术紧密结合的产物,两者的迅速发展渗透形…...

鸿蒙HarmonyOS开发:如何使用第三方库,加速应用开发
文章目录 一、如何安装 ohpm-cli二、如何安装三方库1、在 oh-package.json5 文件中声明三方库,以 ohos/crypto-js 为例:2、安装指定名称 pacakge_name 的三方库,执行以下命令,将自动在当前目录下的 oh-package.json5 文件中自动添…...
C++的标准模板库简单介绍
C的标准模板库(STL, Standard Template Library)是一个强大的工具,旨在提供高效和灵活的数据结构和算法。STL的设计目的是使C程序更加通用和可重用。以下是对STL的详细介绍: 1. STL的组成部分 STL主要由以下几部分组成ÿ…...

安卓常用控件ListView
文章目录 ListView的常用属性ListView的常用APIListView的简单使用 ListView是一个列表样式的 ViewGroup,将若干 item 按行排列。它是一个很基本的控件也是 Android 中最重要的控件之一。它可以实现多个 View 的垂直排列并支持滚动显示效果。 ListView的常用属性 常…...

XCTF-web-easyupload
试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...

Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...
服务器硬防的应用场景都有哪些?
服务器硬防是指一种通过硬件设备层面的安全措施来防御服务器系统受到网络攻击的方式,避免服务器受到各种恶意攻击和网络威胁,那么,服务器硬防通常都会应用在哪些场景当中呢? 硬防服务器中一般会配备入侵检测系统和预防系统&#x…...

MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
【算法训练营Day07】字符串part1
文章目录 反转字符串反转字符串II替换数字 反转字符串 题目链接:344. 反转字符串 双指针法,两个指针的元素直接调转即可 class Solution {public void reverseString(char[] s) {int head 0;int end s.length - 1;while(head < end) {char temp …...

Psychopy音频的使用
Psychopy音频的使用 本文主要解决以下问题: 指定音频引擎与设备;播放音频文件 本文所使用的环境: Python3.10 numpy2.2.6 psychopy2025.1.1 psychtoolbox3.0.19.14 一、音频配置 Psychopy文档链接为Sound - for audio playback — Psy…...

【论文阅读28】-CNN-BiLSTM-Attention-(2024)
本文把滑坡位移序列拆开、筛优质因子,再用 CNN-BiLSTM-Attention 来动态预测每个子序列,最后重构出总位移,预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵(S…...
JVM暂停(Stop-The-World,STW)的原因分类及对应排查方案
JVM暂停(Stop-The-World,STW)的完整原因分类及对应排查方案,结合JVM运行机制和常见故障场景整理而成: 一、GC相关暂停 1. 安全点(Safepoint)阻塞 现象:JVM暂停但无GC日志,日志显示No GCs detected。原因:JVM等待所有线程进入安全点(如…...
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问(基础概念问题) 1. 请解释Spring框架的核心容器是什么?它在Spring中起到什么作用? Spring框架的核心容器是IoC容器&#…...
Spring Security 认证流程——补充
一、认证流程概述 Spring Security 的认证流程基于 过滤器链(Filter Chain),核心组件包括 UsernamePasswordAuthenticationFilter、AuthenticationManager、UserDetailsService 等。整个流程可分为以下步骤: 用户提交登录请求拦…...