从零开始之AI视频制作篇
从零开始之AI视频制作篇
文章目录
- 从零开始之AI视频制作篇
- 前言
- 一、工具列表
- 二、成片展示
- 三、制作流程
- 1、获取图片素材
- 2、图片生成视频
- 2.1 Runway操作流程
- 3、文本生成语音
- 3.1 Fish Audio操作流程
- 4、视频剪辑
- 4.1 音频素材
- 4.2 字幕生成
- 四、Runway提示词参考:
- 参考
前言
现在是2024年8月。虽然AI现在发展得很快,但离完全替代人类还是有部分的距离。AI作为提高效率的工具确实是不争的事实。本文将详细描述在这个时间节点上可达到的基于图片的AI视频制作的整个流程,适合小白食用。
一、工具列表
基于图片的AI视频制作需要准备的工具列表有:
-
图片素材
本文采用的图片素材来源(已获许可):汐木桃ART的木桃日记 -
图片生成视频的平台
Runway Gen3传送门(本文采用)
Luma Dream Machine传送门
可灵AI传送门
即梦AI传送门
清影AI传送门 -
TTS工具
TTS工具用于根据文本内容生成语音。
Fish Audio传送门 (本文采用)
Cosy Voice传送门
ChatTTS的autodl云平台部署版传送门 -
视频剪辑工具
adobe premiere pro (本文采用)
剪映
二、成片展示
木桃日记
三、制作流程
1、获取图片素材
可通过国内各个文生图的平台生成,或者通过自己搭建webui/comfyui云平台服务进行创作生成。webui的autodl云一键部署传送门、comfyui的autodl云一键部署传送门,本文采用的图片素材来源(已获许可):汐木桃ART的木桃日记。如果需要去水印,可用WPS等工具,或者用comfyui搭建一个去水印的工作流操作。comfyui去文字和水印的工作流可供参考:去水印和文字工作流传送门
2、图片生成视频
本文采用的是Runway平台,因此针对如何在Runway平台操作图片生成视频进行详解。
2.1 Runway操作流程
通过 Runway官网传送门 进入Runway后便可看到如下界面。
点击右上角的【Get Started】按钮后,便可进入登陆界面,此时需要一个账号才可使用,如果用 Gen2 可以自己注册个账号,有 免费试用额度。如果是用Gen3,就需要在某宝或某鱼上租用账号。
进入Runway官网后,便可看到如下的控制台,其中的【Assets】表示的是存放的你正在生成和已经生成的视频。【Tools】表示的是可以试用的工具。
我们需要使用的是【Tools】下的【Text/Image to Video】工具,点击进入即可。可以看到如下的工作台。
因为我们采用的是Gen3模型,所以我们的【模型】选择的是【Gen-3-Alpha】。因为我们是用的是租用的账号,所以经常会有同时几个人在线的情况,这时就要看【Generate】按钮是否可按,只要可按,不要犹豫, 立即按下 即可。
因为图片生成视频时,需要对生成的视频进行描述,从而让生成的视频符合我们的构想。所以需要填写提示词来让大模型进行参考。
最好将如下图片中的【guide】链接打开,里面有【运镜】、【特效】等的专业术语提示词可以让大模型更好的理解。Gen-3提示词官方指南
提示词指南中需要注意提示词的基本构造结构,如下图所示。
图中的案例部分:
Low angle static shot: The camera is angled up at a woman wearing all orange as she stands in a tropical rainforest with colorful flora. The dramatic sky is overcast and gray.
其中【camera movement】 部分可参考【官方提示词指南】的【Camera Styles】部分。
部分提示词参考可见文章末尾。
写好提示词后,点击【Generate】,平台右面部分会有个视频生成的进度展示,生成后也会展示在右面。
视频生成后便按下图所示,点击下载按钮,进行下载。
如果生成视频不理想,同一个提示词可多生成几次,如果还是不理想就得调整提示词再试试。在此祝各位好运连连。
3、文本生成语音
本文采用的是Fish Audio传送门 ,这个每天有50次的免费生成次数,短视频基本够用。
3.1 Fish Audio操作流程
登录进入后,便可看到各个声音角色的列表,选择想使用的声音角色,点击【使用声音】即可。
进入对应的角色页面后,便可参考下图步骤将文本填入对应文本框中,点击【创建】即可生成。
生成后按下图所示步骤即可将生成的声音文件进行下载。
4、视频剪辑
视频素材和旁白的音频素材准备好了,就可以进行视频剪辑了。如果是视频剪辑小白,可参考b站up主【京译达雅】的【【pr教程】新版本全套56集学不会你找我】教程,可选择性学习。pr教程b站传送门。
4.1 音频素材
如果剪视频的时候需要相关的音频素材,比如本文的剪辑视频中需要的夏夜的蝉鸣声、森林的蝉鸣声的素材,可通过如下几个音频素材网站进行搜索下载使用:淘声网传送门、耳聆网传送门、爱给网传送门。
4.2 字幕生成
如果剪辑的时候需要生成对应的字幕,可参考b站up主【Leo叔叔爱摄影】的字幕生成教程,可选择性学习。职业博主快速制作视频字幕的最佳方案,PR2023字幕最详细攻略,语音自动识别,批量制作字幕效果【PR零基础新手指南65集】,另外PR 2023已经支持一键语音转字幕功能了。
四、Runway提示词参考:
图片描述:A person in a crowd
提示词:Cinematic view of [a human subject with detailed descriptions of their appearance] walking through a blurry crowd. [Describe their action]. 30x speed, hyperspeed, fast motion. In the style of [describe style; ex. Moody colors, cinematic feel, dynamic motion, depth of field].
图片描述:Cinematic drone
提示词:First person view shot of a [subject]. hyper-speed fly, dynamic motion, dynamic blur, timelapse, 30x speed. In the style of [describe style; ex. cinematic, muted color palette].
图片描述:Close up
提示词:Telephoto close up: [subject].
图片描述:Close-up portrait
提示词:A crash zoom into a close-up portrait, shallow depth of field, bokeh. In the style of [describe style; ex. muted color palette, neutrals, magic hour, dull, dramatic, moody, film, 35mm].
图片描述:Dynamic motion
提示词:Dynamic motion, dynamic blur, 30x speed, unsharp edges.
图片描述:Establishing wide
提示词:Extreme wide angle establishing shot: [subject] in vast [scene].
图片描述:Fast motion
提示词:High speed, motion blur, chaotic, kinetic, hyperkinetic.
图片描述:Fast zoom
提示词:Hyperspeed shot: [scene]. Camera movement: fast zoom.
图片描述:First person view
提示词:First person view shot flying through [objects ex. canyons] of a [place ex. planet] toward a [object ex. moon].
图片描述:Handheld
提示词:Handheld tracking shot, following a [subject] in a [place].
图片描述:High angle
提示词:Aerial tracking shot: glide over [place]. Camera Movement: Start high, descend closer to [place].
图片描述:Low angle
提示词:Low angle shot: A [subject ex. car] drives down the center of a [place ex. city]. Tall [objects ex. buildings] loom on either side, their [objects ex. windows] blurred in the background.
图片描述:Macro cinematography
提示词:Macro cinematography: A large [object ex. water droplet] rests among [objects ex. succulent plants]. The [object] refracts and distorts the view of the surrounding environment. Camera Movement: Start with a close-up of the [object], then slowly pull back to reveal more of the surreal [plant life].
图片描述:Nightlight portrait
提示词:Close-up shot of [a human subject with detailed descriptions of their appearance], the neon lights of Tokyo's bustling streets reflecting in the eyes. The face has a pensive expression, hinting at an untold story. The vibrant colors of the city paint the facial features in a mesmerizing interplay of light and shadow.
图片描述:Orbiting scenery
提示词:We orbit around [a subject in a scenic environment; ex. a monument on a hill overlooking a forest], hyper dynamic movement in orbiting motion, shallow depth of field, subject in focus. In the style of [describe style; ex. dark muted natural color palette, cinematic]
图片描述:Over the shoulder
提示词:Over the shoulder shot: [subject doing X]. The camera trails behind them.
图片描述:Portal transition
提示词:Flying through [a place] into [another place]. Fast motion, motion blur. In the style of [describe style; ex. hyperlapse cinematography].
图片描述:Realistic documentary
提示词:An award winning documentary about [a subject; ex. a bunny, a tree, or coral reefs], wide angle shot showcasing the [subject], dynamic movement, this video is incredibly detailed and high resolution, the sharp focus and cinematic light is impressive, a masterpiece.
图片描述:Slow motion
提示词:Slow motion shot: [a subject in motion].
图片描述:Surreal levitation
提示词:An extreme wide angle establishing shot from low angle level looking up at into the sky at sunset hours. [A subject; ex. a plastic bag, a shiny orb, or a goat] is floating slowly in the sky above, defying gravity. Extreme perspective, 3x speed. In the style of [describe style; ex. cinematic, muted naturals coloring, documentary film]
图片描述:Titles
提示词:The scene starts in [location; ex. soup] and then suddenly [object; ex. noodles] appears and begins to [action; ex. transforms] to form the word "[single object, ex. SOUP]", centered, superb cinematic lighting.
参考
- 汐木桃ART的木桃日记
相关文章:

从零开始之AI视频制作篇
从零开始之AI视频制作篇 文章目录 从零开始之AI视频制作篇前言一、工具列表二、成片展示三、制作流程1、获取图片素材2、图片生成视频2.1 Runway操作流程 3、文本生成语音3.1 Fish Audio操作流程 4、视频剪辑4.1 音频素材4.2 字幕生成 四、Runway提示词参考:参考 前…...
Java之TCP编程综合案例
1.反转案例 搭建一个TCP客户端,从键盘录入整行数据(遇到quit结束录入)然后发送给服务器,再接收服务器返回的数据并输出。 package com.briup.chap12;public class Test064_ReversalClient {public static void main(String[] ar…...

【数据分析---Pandas实战指南:精通数据查询、增删改操作与高效索引和列名操作管理】
前言: 💞💞大家好,我是书生♡,本阶段和大家一起分享和探索数据分析,本篇文章主要讲述了:数据查询操作,数据增删改操作,索引和列名操作等等。欢迎大家一起探索讨论&#x…...
Spring Cloud全解析:注册中心之Eureka服务获取和服务续约
服务获取和服务续约 eureka客户端通过定时任务的方式进行服务获取和服务续约,在com.netflix.discovery.DiscoveryClient类中,启动了两个定时任务来进行处理 private void initScheduledTasks() {// 是否需要拉取if (clientConfig.shouldFetchRegistry(…...

三相整流电路交流侧谐波仿真分析及计算
一、三相桥式全控整流电路和功率因数测量电路SIMULINK 模型 如图4-1,根据高频焊机的主电路机构和工作原理,可将高频焊机三相整流部分等效为阻感负载的三相桥式全控整流电路模型,其由三相交流电压源、三相晶闸管整流桥、同步六脉冲触发器和阻感…...
了解Java中的反射,带你如何使用反射
反射的定义 反射(Reflection)是Java的一种强大机制,它允许程序在运行时动态地查询和操作类的属性和方法。通过反射,Java程序可以获取类的信息,比如类的名称、方法、字段,以及可以动态地创建对象、调用方法…...

【c++】基础知识——快速入门c++
🌟🌟作者主页:ephemerals__ 🌟🌟所属专栏:C 目录 前言 一、手搓一个Hello World 二、命名空间namespace 1.命名空间的定义 2.命名空间的使用 3.命名空间补充知识 三、c中的输入和输出 四、缺省参…...

AI学习记录 - 自注意力机制的计算流程图
过段时间解释一下,为啥这样子计算,研究这个自注意力花了不少时间,网上很多讲概念,但是没有具体的流程图和计算方式总结…...
JavaScript快速入门,满满干货总结,快速掌握JS语法,DOM,BOM,事件
目录 一. JavaScript、HTML、CSS简介 1.1 HTML简介和举例说明 1.2 CSS简介和举例说明 1.3 JavaScript 简介和举例说明 二. JavaScript 基本语法 2.1 变量类型和定义方式 2.2 逻辑运算符,比较运算符 2.3 流程控制,if,if...else...&…...

【C++】C++入门基础【类与对象】
目录 1.类 1.1类的定义 1.2struct 与 class对比 2.访问限定符 3. 类域 4.实例化 5.存储大小----内存对齐 6.this指针 1.类 1.1类的定义 class作为类的关键字,后面跟的是类的名字,如Stack,{}中的为类的主体,类定义结束时…...
Qt | QScatterSeries 散点图
点击上方"蓝字"关注我们 01、QScatterSeries QScatterSeries 的类,它将代表散点图中的一个系列。这个类将包含数据点、颜色和样式等属性,以及用于绘制散点图的方法。 02、main.cpp #include <QtWidgets/QApplication>#include <QtWidgets/QMainWindow…...

无缝协作的艺术:Codigger 视频会议(Meeting)的用户体验
在当今数字化的时代,远程协作已经成为工作和学习中不可或缺的一部分。然而,远程协作也面临着诸多挑战,如沟通不畅、信息同步不及时、协作工具的复杂性等。而 Codigger 视频会议(Meeting)作为一款创新的工具,…...

C基础练习(学生管理系统)
1.系统运行,打开如下界面。列出系统帮助菜单(即命令菜单),提示输入命令 2.开始时还没有录入成绩,所以输入命令 L 也无法列出成绩。应提示“成绩表为空!请先使用命令 T 录入学生成绩。” 同理,当…...
网络安全抓包封包WEB
目录 1.抓包 1. 网络故障排除 应用 意义 2. 网络安全监控 应用 意义 3. 性能优化 应用 意义 4. 协议分析与开发 应用 意义 5. 数据分析与合规性审计 应用 意义 抓包工具 总结 2.抓包的应用对象 1. 网络设备 路由器和交换机 防火墙和入侵检测系统ÿ…...

Spring Boot - 在Spring Boot中实现灵活的API版本控制(上)
文章目录 为什么需要多版本管理?在Spring Boot中实现多版本API的常用方法1. URL路径中包含版本号2. 请求头中包含版本号3. 自定义注解和拦截器 注意事项 为什么需要多版本管理? API接口的多版本管理在我们日常的开发中很重要,特别是当API需要…...

普中51单片机:DS18B20温度传感器操作指南(十三)
文章目录 引言电路图引脚讲解初始化时序写时序读时序温度变换温度读取完整代码 引言 DS18B20是一款单总线接口的数字温度传感器,仅需一个IO口即可实现数据通信。这里只对如何简单操作开发板的DS1802进行讲解,关于DS18B20温度传感器的详细操作原理&#…...

【网络】网络的发展历程及其相关概念
1.什么是网络 计算机网络是指将一群具有独立功能的计算机通过通信设备以及传输媒体被互联起来的,在通信软件的支持下,实现计算机间资源共享、信息交换或协同工作的系统。计算机网络是计算机技术与通信技术紧密结合的产物,两者的迅速发展渗透形…...

鸿蒙HarmonyOS开发:如何使用第三方库,加速应用开发
文章目录 一、如何安装 ohpm-cli二、如何安装三方库1、在 oh-package.json5 文件中声明三方库,以 ohos/crypto-js 为例:2、安装指定名称 pacakge_name 的三方库,执行以下命令,将自动在当前目录下的 oh-package.json5 文件中自动添…...
C++的标准模板库简单介绍
C的标准模板库(STL, Standard Template Library)是一个强大的工具,旨在提供高效和灵活的数据结构和算法。STL的设计目的是使C程序更加通用和可重用。以下是对STL的详细介绍: 1. STL的组成部分 STL主要由以下几部分组成ÿ…...

安卓常用控件ListView
文章目录 ListView的常用属性ListView的常用APIListView的简单使用 ListView是一个列表样式的 ViewGroup,将若干 item 按行排列。它是一个很基本的控件也是 Android 中最重要的控件之一。它可以实现多个 View 的垂直排列并支持滚动显示效果。 ListView的常用属性 常…...
连锁超市冷库节能解决方案:如何实现超市降本增效
在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...

【2025年】解决Burpsuite抓不到https包的问题
环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

select、poll、epoll 与 Reactor 模式
在高并发网络编程领域,高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表,以及基于它们实现的 Reactor 模式,为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。 一、I…...

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...
Caliper 配置文件解析:fisco-bcos.json
config.yaml 文件 config.yaml 是 Caliper 的主配置文件,通常包含以下内容: test:name: fisco-bcos-test # 测试名称description: Performance test of FISCO-BCOS # 测试描述workers:type: local # 工作进程类型number: 5 # 工作进程数量monitor:type: - docker- pro…...
深入浅出WebGL:在浏览器中解锁3D世界的魔法钥匙
WebGL:在浏览器中解锁3D世界的魔法钥匙 引言:网页的边界正在消失 在数字化浪潮的推动下,网页早已不再是静态信息的展示窗口。如今,我们可以在浏览器中体验逼真的3D游戏、交互式数据可视化、虚拟实验室,甚至沉浸式的V…...
标注工具核心架构分析——主窗口的图像显示
🏗️ 标注工具核心架构分析 📋 系统概述 主要有两个核心类,采用经典的 Scene-View 架构模式: 🎯 核心类结构 1. AnnotationScene (QGraphicsScene子类) 主要负责标注场景的管理和交互 🔧 关键函数&…...
十二、【ESP32全栈开发指南: IDF开发环境下cJSON使用】
一、JSON简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,具有以下核心特性: 完全独立于编程语言的文本格式易于人阅读和编写易于机器解析和生成基于ECMAScript标准子集 1.1 JSON语法规则 {"name"…...

python学习day39
图像数据与显存 知识点回顾 1.图像数据的格式:灰度和彩色数据 2.模型的定义 3.显存占用的4种地方 a.模型参数梯度参数 b.优化器参数 c.数据批量所占显存 d.神经元输出中间状态 4.batchisize和训练的关系 import torch import torchvision import torch.nn as nn imp…...

如何优雅地绕过限制调用海外AI-API?反向代理与API中转技术详解
阅读时长 | 8分钟 适用读者 | 需要跨境调用OpenAI等AI服务的开发者/企业 一、问题背景:为什么需要代理? 最近在技术社区看到这样的求助: "公司服务器在国内,但业务需要调用OpenAI接口,直接访…...