当前位置：首页 > news >正文

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)

news 2025/12/16 14:19:16

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)
前言

最近大模型频出，但是对于我们普通人来说，如何使用这些AI工具来辅助我们的工作呢，或者参与进入我们的生活，就着现在比较热门的几个AI，写个一个提高生产力工具，现在在逻辑上已经走通了，后面会针对web页面、后台进行优化。

github链接

B站教程视频 https://www.bilibili.com/video/BV18M4y1H7XN/

第三步、调用百度语音合成包进行语音合成

这里不是智能用百度的API合成，想谷歌的，阿里云的都可以，只是我比较熟悉百度的API ps~: 关键是免费😂

class Main:client_id = client_idclient_secret = client_secretdef create_access_token(self):url = f"https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={self.client_id}&client_secret={self.client_secret}"payload = ""headers = {'Content-Type': 'application/json','Accept': 'application/json'}response = requests.request("POST", url, headers=headers, data=payload)print("-----------向百度获取 access_token API 发起请求了-----------")access_token = response.json()access_token.update({"time": datetime.now().strftime("%Y-%m-%d")})with open('access_token.json', 'w') as f:json.dump(access_token, f)return access_tokendef get_access_token(self):if os.path.exists('access_token.json'):with open('access_token.json', 'r') as f:data = json.load(f)time = data.get("time")if time and (datetime.now() - datetime.strptime(time, '%Y-%m-%d')).days >= 29:return self.create_access_token()return datareturn self.create_access_token()def text_to_audio(self, text: str, index: int):url = "https://tsn.baidu.com/text2audio"text = text.encode('utf8')FORMATS = {3: "mp3", 4: "pcm", 5: "pcm", 6: "wav"}FORMAT = FORMATS[6]data = {# 合成的文本，文本长度必须小于1024GBK字节。建议每次请求文本不超过120字节，约为60个汉字或者字母数字。"tex": text,# access_token"tok": self.get_access_token().get("access_token"),# 用户唯一标识，用来计算UV值。建议填写能区分用户的机器 MAC 地址或 IMEI 码，长度为60字符以内"cuid": hex(uuid.getnode()),# 客户端类型选择，web端填写固定值1"ctp": "1",# 固定值zh。语言选择,目前只有中英文混合模式，填写固定值zh"lan": "zh",# 语速，取值0-15，默认为5中语速"spd": 5,# 音调，取值0-15，默认为5中语调"pit": 5,# 音量，基础音库取值0-9，精品音库取值0-15，默认为5中音量（取值为0时为音量最小值，并非为无声）"vol": 5,# (基础音库) 度小宇=1，度小美=0，度逍遥（基础）=3，度丫丫=4# (精品音库) 度逍遥（精品）=5003，度小鹿=5118，度博文=106，度小童=110，度小萌=111，度米朵=103，度小娇=5"per": 5003,# 3为mp3格式(默认)； 4为pcm-16k；5为pcm-8k；6为wav（内容同pcm-16k）; 注意aue=4或者6是语音识别要求的格式，但是音频内容不是语音识别要求的自然人发音，所以识别效果会受影响。"aue": FORMAT}data = urllib.parse.urlencode(data)response = requests.post(url, data)if response.status_code == 200:result_str = response.contentsave_file = str(index) + '.' + FORMATaudio = file_path + "audio"if not os.path.isdir(audio):os.mkdir(audio)audio_path = f'{audio}/' + save_filewith open(audio_path, 'wb') as of:of.write(result_str)return audio_pathelse:return False

当然了，这个设计也是热拔插的，以后这些数据都会做成动态的，在页面用户可以调整，也可以选择其他的API服务商

第四步、调用百度语音合成包进行语音合成

这里就比较麻烦了，首先要搭建起 Stable Diffusion 的环境，Window 用户我记得有一个绘世
的软件，一键就可以安装，mac用户要去官网下载。

class Main:sd_url = sd_urldef draw_picture(self, obj_list):""":param obj_list::return: 图片地址列表"""picture_path_list = []for index, obj in enumerate(obj_list):novel_dict = {"enable_hr": "false","denoising_strength": 0,"firstphase_width": 0,"firstphase_height": 0,"hr_scale": 2,"hr_upscaler": "string","hr_second_pass_steps": 0,"hr_resize_x": 0,"hr_resize_y": 0,"prompt": "{}".format(obj["prompt"]),"styles": ["string"],"seed": -1,"subseed": -1,"subseed_strength": 0,"seed_resize_from_h": -1,"seed_resize_from_w": -1,"sampler_name": "DPM++ SDE Karras","batch_size": 1,"n_iter": 1,"steps": 50,"cfg_scale": 7,"width": 1024,"height": 768,"restore_faces": "false","tiling": "false","do_not_save_samples": "false","do_not_save_grid": "false","negative_prompt": obj["negative"],"eta": 0,"s_churn": 0,"s_tmax": 0,"s_tmin": 0,"s_noise": 1,"override_settings": {},"override_settings_restore_afterwards": "true","script_args": [],"sampler_index": "DPM++ SDE Karras","script_name": "","send_images": "true","save_images": "true","alwayson_scripts": {}}html = requests.post(self.sd_url, data=json.dumps(novel_dict))img_response = json.loads(html.text)image_bytes = base64.b64decode(img_response['images'][0])image = Image.open(io.BytesIO(image_bytes))# 图片存放new_path = file_path + 'picture'if not os.path.exists(new_path):os.makedirs(new_path)picture_name = str(obj['index']) + ".png"image_path = os.path.join(new_path, picture_name)image.save(image_path)picture_path_list.append(image_path)print(f"-----------生成第{index}张图片-----------")return picture_path_list

后期我看看能不能引入 Midjuorney 的服务商，或者他们官方的API ps ~ 做人没有梦想和咸鱼有什么区别🥳

第五步、使用moviepy将图片和语音结合起来生成视频

moviepy中文文档

import os
from moviepy.editor import ImageSequenceClip, AudioFileClip, concatenate_videoclips
import numpy as npfrom config import file_pathclass Main:def merge_video(self, picture_path_list: list, audio_path_list: list, name: str):""":param picture_path_list: 图片路径列表:param audio_path_list: 音频路径列表:return:"""clips = []for index, value in enumerate(picture_path_list):audio_clip = AudioFileClip(audio_path_list[index])img_clip = ImageSequenceClip([picture_path_list[index]], audio_clip.duration)img_clip = img_clip.set_position(('center', 'center')).fl(self.fl_up, apply_to=['mask']).set_duration(audio_clip.duration)clip = img_clip.set_audio(audio_clip)clips.append(clip)print(f"-----------生成第{index}段视频-----------")print(f"-----------开始合成视频-----------")final_clip = concatenate_videoclips(clips)new_parent = file_path + "video/"if not os.path.exists(new_parent):os.makedirs(new_parent)final_clip.write_videofile(new_parent + name + ".mp4", fps=24, audio_codec="aac")def fl_up(self, gf, t):# 获取原始图像帧frame = gf(t)# 进行滚动效果，将图像向下滚动50像素height, width = frame.shape[:2]scroll_y = int(t * 10)  # 根据时间t计算滚动的像素数new_frame = np.zeros_like(frame)# 控制滚动的范围，避免滚动超出图像的边界if scroll_y < height:new_frame[:height - scroll_y, :] = frame[scroll_y:, :]return new_frame

暂时就先写到这里了，后期努力添砖加瓦。代码已经开源了。链接有什么问题可以在github上或者博客介绍里来问我，byebye~👋

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)

ChatGPT Stable Diffusion 百度AI MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二) 前言最近大模型频出，但是对于我们普通人来说，如何使用这些AI工具来辅助我们的工作呢，或者参与进入我们的生活…...

编程日记 2023/8/3 12:21:20

git提交的时候Changes not staged for commit

git删除和修改一些文件之后，git add -A之后就使用git commit -m "提交最新代码"后报错 On branch master Your branch is up to date with origin/master.Changes not staged for commit:但是使用git push origin master怎么都提交不上去，解决…...

编程日记 2023/8/3 12:20:20

03_使用execle表生成甘特图

背景每次排期都需要话很多时间很可能排期还不对头这时候需要一个表能看到 1.什么时候项目结束开始转阶段 2.当前手上的活能不能做完当前阶段手上有多少活 3.产品经理每次修改完计划迅速排期甘特图生成 execle表生成 1.需要使用亿图创建甘特图 2.把当前的甘特图数据进…...

编程日记 2023/8/3 12:19:19

linux基础命令-ls

“ls” 命令是 Linux 系统中用来列出目录内容的常用命令。它显示当前工作目录中的文件和子目录列表。下面将详细解释 “ls” 命令的用法以及示例： 命令语法： ls [选项] [目录] 常用选项： -l： 以长格式（long format&a…...

编程日记 2023/8/3 12:18:18

Chrome浏览器中的vue插件devtools的下载方式（使用Chrome应用商店/科学上网情况下）

目录 devtools对前端来说的好处——开发预览、远程调试、性能调优、Bug跟踪、断点调试等下载步骤： 测试阶段： 最近做项目要使用devtools这个vue插件。 devtools对前端来说的好处——开发预览、远程调试、性能调优、Bug跟踪、断点调试等下载步骤…...

编程日记 2023/8/3 12:17:17

目录一、Secret概述二、Secret 三种类型 2.1、Opaque 2..2、kubernetes.io/dockerconfigjson 2.3、kubernetes.io/service-account-token 三、Secret创建 3.1、命令行方式创建 Secret 3.2、yaml方式创建 Secret 四、Secret解码五、Secret使用 5.1、将 Secret 挂载…...

编程日记 2023/8/3 12:16:16

MATLAB算法实战应用案例精讲-【自动驾驶】路径规划（补充篇）

目录前言几个高频面试题目无人车运动规划，路径规划，轨迹规划的区别和联系？...

编程日记 2023/8/3 12:15:15

农业与太阳能的互利共生

不断增长的人口需要更多的食物和能源，而这些都在争夺有限的空间……除非能改变这样的竞争局面。农业光伏装置将农业和太阳能生产结合起来。农业光伏 (AV) 是 20 世纪 80 年代提出的概念，它在同一块土地上将农业和太阳能生产结合起来。从业者在太阳能…...

编程日记 2023/8/3 12:14:14

每日一题(822. 翻转卡片游戏)-集合set

题目 822. 翻转卡片游戏题解思路简述为：找到桌面卡片中不重复的最小值，卡片可以来回反转如果卡片前面后面的数字相同则抛弃不用在剩下的卡片中找到最小值（前后可以反转卡片不分前后） 代码 C class Solution { pub…...

编程日记 2023/8/3 12:13:13

windows服务器iis PHP套件出现FastCGI等错误解决方法汇总

如果您的服务器安装了PHP套件，出现了无法打开的情况，请参照如下办法解决： 首先，需要设置IIS允许输出详细的错误信息到浏览器，才好具体分析错误一： 处理程序“FastCGI”在其模块列表中有一个错误模块“Fast…...

编程日记 2023/8/3 12:12:12

Qt Creator 11 开放源码集成开发环境新增集成终端和 GitHub Copilot 支持

导读Qt 项目今天发布了 Qt Creator 11，这是一款开源、免费、跨平台 IDE（集成开发环境）软件的最新稳定版本，适用于 GNU/Linux、macOS 和 Windows 平台。 Qt Creator 11 的亮点包括支持标签、多外壳、颜色和字体的集成终端模拟器&am…...

编程日记 2023/8/3 12:11:11

Collections工具类（java)

文章目录 7.1 常用方法参考操作数组的工具类：Arrays，Collections 是一个操作 Set、List 和 Map 等集合的工具类。 7.1 常用方法 Collections 中提供了一系列静态的方法对集合元素进行排序、查询和修改等操作，还提供了对集合对象设置不可变、…...

编程日记 2023/8/3 12:10:09

C++ 第六弹 STL

目录 1.什么是stl 2.六大组件-容器-序列式容器-C98 string 3.六大组件-容器-序列式容器-C98 vector 4.六大组件-容器-序列式容器-C98 list 5.六大组件-容器-序列式容器-C98 deque 6.六大组件-容器-序列式容器-C11 array 7.六大组件-容器-序列式容器-C11 forward_list 8…...

编程日记 2023/8/3 12:09:08

蓝桥杯上岸每日N题第四期(最少刷题数)！！！

蓝桥杯上岸每日N题第四期 ❗️ ❗️ ❗️ 最少刷题数同步收录 👇 蓝桥杯上岸必背！！！(持续更新中~) 大家好我是寸铁💪 冲刺蓝桥杯省一模板大全来啦 🔥 蓝桥杯4月8号就要开始了 🙏 距离蓝…...

编程日记 2023/8/3 12:08:07

STM32 LWIP UDP 一对一一对多发送

STM32 LWIP UDP通信前言设置 IP 地址UDP函数配置实验结果单播发送，一对一发送广播发送，一对多发送可能遇到的问题总结前言之前没有接触过网络的通信，工作需要 UDP 接收和发送通信，在网上没有找到一对一、一对多的相关例程&am…...

编程日记 2023/8/3 12:07:06

【有趣的设计模式】23 种设计模式详解和场景分析

前言七大设计原则 1、单一原则：一个类只负责一个职责 2、开闭原则：对修改关闭，对扩展开放 3、里氏替换原则：不要破坏继承关系 4、接口隔离原则：暴露最小接口，避免接口过于臃肿 5、依赖倒置原则&#xff1…...

编程日记 2023/8/3 12:06:05

【数据结构与算法】TypeScript 实现图结构

class Grapg<T> {// 用于存储所有的顶点verteces: T[] [];// 用于存储所有的边采用邻接表的形式adjList: Map<T, T[]> new Map();// 添加顶点addVertex(v: T) {this.verteces.push(v);// 初始化顶点的邻接表this.adjList.set(v, []);}// 添加边addEdge(v: T, w:…...

编程日记 2023/8/3 12:05:04

《golang设计模式》第一部分·创建型模式-04-抽象工厂模式（Abstract Factory）

文章目录 1. 概述1.1 角色1.2 类图 2. 代码示例2.1 设计2.2 代码2.3 类图 1. 概述 1.1 角色 AbstractFactory（抽象工厂）：它声明了一组用于创建产品的方法，每一个方法对应一种产品。ConcreteFactory（具体工厂&#xf…...

编程日记 2023/8/3 12:04:03

改进粒子群算法优化BP神经网络---回归+分类两种案例

今天采用改进的粒子群算法(LPSO)优化算法优化BP神经网络。本文选用的LPSO算法是之前作者写过的一篇文章：基于改进莱维飞行和混沌映射（10种混沌映射随意切换）的粒子群优化算法，附matlab代码文章一次性讲解两种案例，回归…...

编程日记 2023/8/3 12:03:02

VSCode和QT联合开发

提示：本文为学习记录，若有错误，请联系作者，谦虚受教。文章目录前言一、VSCODE下载二、使用步骤1.下载扩展二、新建工程1.新建文件夹2.新建工程3.UI界面文件操作4.效果总结前言一、VSCODE下载下载地址二、使用步骤 1.下…...

编程日记 2023/8/3 12:02:01

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/12/15 8:47:15

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中，时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志，到供应链系统的物流节点时间戳，时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库，其日期时间类型的…...

编程新知 2025/10/16 13:22:06

C++实现分布式网络通信框架RPC(3)--rpc调用端

目录一、前言二、UserServiceRpc_Stub 三、 CallMethod方法的重写头文件实现四、rpc调用端的调用实现五、 google::protobuf::RpcController *controller 头文件实现六、总结一、前言在前边的文章中，我们已经大致实现了rpc服务端的各项功能代…...

编程新知 2025/12/13 15:51:25

C++_核心编程_多态案例二-制作饮品

#include <iostream> #include <string> using namespace std;/*制作饮品的大致流程为：煮水 - 冲泡 - 倒入杯中 - 加入辅料利用多态技术实现本案例，提供抽象制作饮品基类，提供子类制作咖啡和茶叶*//*基类*/ class AbstractDr…...

编程新知 2025/12/7 12:19:22

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

使用详解 Element Plus 的 el-transfer 组件是一个强大的穿梭框组件，常用于在两个集合之间进行数据转移，如权限分配、数据选择等场景。下面我将详细介绍其用法并提供一个完整示例。核心特性与用法基本属性 v-model：绑定右侧列表的值&…...

编程新知 2025/12/16 1:16:15

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2025/12/15 13:10:05

Cesium1.95中高性能加载1500个点

一、基本方式： 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

编程新知 2025/7/18 11:40:55

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/12/5 20:57:13

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展，光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域，IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选，但在长期运行中，例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

编程新知 2025/12/15 2:28:05

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

第2章虚拟机性能监控，故障处理工具 4.1 概述略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具命令：jps [options] [hostid] 功能：本地虚拟机进程显示进程ID（与ps相同），可同时显示主类&#x…...

编程新知 2025/12/5 18:12:58

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)
前言

第三步、调用百度语音合成包进行语音合成

第四步、调用百度语音合成包进行语音合成

第五步、使用moviepy将图片和语音结合起来生成视频

相关文章：

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)

git提交的时候Changes not staged for commit

03_使用execle表生成甘特图

linux基础命令-ls

Chrome浏览器中的vue插件devtools的下载方式（使用Chrome应用商店/科学上网情况下）

7、Kubernetes核心技术 - Secret

MATLAB算法实战应用案例精讲-【自动驾驶】路径规划（补充篇）

农业与太阳能的互利共生

每日一题(822. 翻转卡片游戏)-集合set

windows服务器iis PHP套件出现FastCGI等错误解决方法汇总

Qt Creator 11 开放源码集成开发环境新增集成终端和 GitHub Copilot 支持

Collections工具类（java)

C++ 第六弹 STL

蓝桥杯上岸每日N题第四期(最少刷题数)！！！

STM32 LWIP UDP 一对一一对多发送

【有趣的设计模式】23 种设计模式详解和场景分析

【数据结构与算法】TypeScript 实现图结构

《golang设计模式》第一部分·创建型模式-04-抽象工厂模式（Abstract Factory）

改进粒子群算法优化BP神经网络---回归+分类两种案例

VSCode和QT联合开发

第19节 Node.js Express 框架

在软件开发中正确使用MySQL日期时间类型的深度解析

C++实现分布式网络通信框架RPC(3)--rpc调用端

C++_核心编程_多态案例二-制作饮品

Vue3 + Element Plus + TypeScript中el-transfer穿梭框组件使用详解及示例

23-Oracle 23 ai 区块链表（Blockchain Table）

Cesium1.95中高性能加载1500个点

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

IT供电系统绝缘监测及故障定位解决方案

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二) 前言

第三步、调用百度语音合成包进行语音合成

第四步、调用百度语音合成包进行语音合成

第五步、使用moviepy将图片和语音结合起来生成视频

相关文章：

ChatGPT + Stable Diffusion + 百度AI + MoviePy 实现文字生成视频，小说转视频，自媒体神器！(二)
前言