当前位置: 首页 > news >正文

人像视频预处理【时间裁剪+画面裁切+调整帧率】

在视频处理中,cut(裁剪)、crop(画面裁切)和fps(帧率调整)这三个操作的顺序安排对最终的视频质量和效率有重要影响。以下是一种推荐的顺序和理由,旨在提高效率和减少错误:1. **Cut(裁剪)**
- 首先进行时间裁剪(cut),去除不需要的视频片段,比如开头和结尾的无用部分或是中间的冗余场景。这样做的好处是在后续处理中减少了需要处理的视频数据量,节省了计算资源和时间。2. **Crop(画面裁切)**
- 接下来进行画面裁切(crop)。裁切视频画面可以集中在视频中的关键区域,如之前提到的以主要人物为中心的画面裁切。在裁切之后,视频的分辨率会降低,这可能会影响后续的帧率调整过程中的编码速度和质量。但是,由于在裁切后视频的数据量已经减少,因此在帧率调整时处理速度会更快。3. **Adjust FPS(调整帧率)**
- 最后调整帧率(fps)。调整帧率通常涉及丢弃或重复某些帧以达到目标帧率,这在裁切之后进行可以减少不必要的计算。如果在裁切前调整帧率,你可能会在裁切阶段失去一些不必要的帧,这可能会稍微影响视频的质量,尤其是当目标帧率低于原帧率时。此外,帧率调整通常涉及到重新编码,而较低分辨率的视频重新编码的速度通常比高分辨率的视频快。综上所述,按照**裁剪** → **画面裁切** → **调整帧率**的顺序执行,可以最大化效率和资源利用,同时保持较好的视频质量。此外,这种顺序也有助于减少潜在的错误,因为每一步都在前一步的基础上进行,减少了数据的冗余处理。然而,具体步骤还取决于你的视频编辑软件或库的功能和优化情况。在某些情况下,如果软件在特定顺序下提供了更高效的处理方式,那么遵循该软件的最佳实践也是明智的选择。例如,在使用某些视频处理库时,它们可能已经优化了某些操作的顺序,以提供更好的性能或避免常见的陷阱。

完整代码

# python data_utils/pre_video/cut_crop_fps.pyimport cv2
import math
import numpy as np
import face_recognition
from moviepy.editor import VideoFileClip, concatenate_videoclips
from tqdm import tqdmdef find_host_face_location(video_path):""" 在视频的前几秒内检测并返回主持人面部的大致位置 """cap = cv2.VideoCapture(video_path)found_face = Falsehost_face_location = Nonewhile cap.isOpened():ret, frame = cap.read()if not ret:break# 缩小帧尺寸以加快处理速度small_frame = cv2.resize(frame, (0, 0), fx=0.25, fy=0.25)rgb_small_frame = small_frame[:, :, ::-1]# 检测人脸face_locations = face_recognition.face_locations(rgb_small_frame)if face_locations:# 取第一张脸的位置,假设主持人位于视频画面的中心位置附近host_face_location = face_locations[0]# 将位置放大回原始大小host_face_location = (host_face_location[0]*4, host_face_location[1]*4, host_face_location[2]*4, host_face_location[3]*4)found_face = Truebreakcap.release()return host_face_location if found_face else Nonedef calculate_cropping_box(face_location, frame_shape):""" 根据主持人面部位置计算裁剪框 """top, right, bottom, left = face_locationcenter_x, center_y = (left + right) // 2, (top + bottom) // 2half_width, half_height = 256, 256left_cropped = max(center_x - half_width, 0)top_cropped = max(center_y - half_height, 0)right_cropped = min(center_x + half_width, frame_shape[1])bottom_cropped = min(center_y + half_height, frame_shape[0])return (top_cropped, right_cropped, bottom_cropped, left_cropped)def find_first_last_face(video_path):""" 找到视频中第一次和最后一次出现人脸的时间戳 """cap = cv2.VideoCapture(video_path)first_face_time = Nonelast_face_time = 0while cap.isOpened():ret, frame = cap.read()if not ret:breaktimestamp = cap.get(cv2.CAP_PROP_POS_MSEC) / 1000  # Convert to secondsif not first_face_time:# 缩小帧尺寸以加快处理速度small_frame = cv2.resize(frame, (0, 0), fx=0.25, fy=0.25)rgb_small_frame = small_frame[:, :, ::-1]# 检测人脸face_locations = face_recognition.face_locations(rgb_small_frame)if face_locations:first_face_time = timestampif face_locations:last_face_time = timestampcap.release()return first_face_time, last_face_timedef process_video(input_path, output_path):""" 处理视频,裁剪并调整帧率 """# 检测主持人面部位置host_face_location = find_host_face_location(input_path)if host_face_location is None:print(f"No face detected in video {input_path}")return# 读取视频,获取视频的宽度和高度clip = VideoFileClip(input_path)frame_shape = clip.size[::-1]  # 电影剪辑的尺寸是(width, height),我们需要(height, width)# 计算裁剪框cropping_box = calculate_cropping_box(host_face_location, frame_shape)# 找到第一次和最后一次出现人脸的时间first_face_time, last_face_time = find_first_last_face(input_path)print(f"First face time: {first_face_time}, Last face time: {last_face_time}")# 裁剪视频以保留第一次和最后一次出现人脸的部分start_trim = math.ceil(first_face_time) # 向上取整end_trim = math.floor(last_face_time) # 向下取整print(f"Start trim: {start_trim}, End trim: {end_trim}")trimmed_clip = clip.subclip(start_trim, end_trim)# 裁剪视频cropped_clip = trimmed_clip.crop(x1=cropping_box[3], y1=cropping_box[0], x2=cropping_box[1], y2=cropping_box[2])cropped_clip = cropped_clip.resize((512, 512))# 调整帧率cropped_clip = cropped_clip.set_fps(25)# 保存最终视频cropped_clip.write_videofile(output_path, codec='libx264', audio_codec='aac')# 清理资源cropped_clip.close()if __name__ == "__main__":for i in tqdm(range(1, 76), desc="Processing videos"):print("处理第", i, "个视频")input_path = f"data/dataset/{i}/{i}.mp4"output_path = f"data/dataset/{i}/{i}_fcc.mp4"process_video(input_path, output_path)

相关文章:

人像视频预处理【时间裁剪+画面裁切+调整帧率】

在视频处理中,cut(裁剪)、crop(画面裁切)和fps(帧率调整)这三个操作的顺序安排对最终的视频质量和效率有重要影响。以下是一种推荐的顺序和理由,旨在提高效率和减少错误:…...

SpringBoot+HttpClient实现文件上传下载

服务端:SpringBoot Controller package com.liliwei.controller;import java.io.File; import java.io.FileInputStream; import java.io.IOException;import javax.servlet.http.HttpServletResponse;import org.springframework.http.HttpHeaders; import org.s…...

QT--控件篇四

一、对话框 在软件开发中,对话框(Dialog)是一种常见的用户界面元素,用于与用户进行交互和获取信息。它通常以模态或非模态的形式出现,模态对话框会阻止用户与应用程序的其他部分交互,直到对话框关闭为止&a…...

opencv—常用函数学习_“干货“_2

目录 五、矩阵计算函数 归一化矩阵 (normalize) 转置矩阵 (transpose) 求矩阵的逆 (invert) 翻转矩阵 (flip) 旋转矩阵 (rotate) 求矩阵的行列式 (determinant) 求矩阵的迹 (trace) 求矩阵的特征值和特征向量 (eigen) 六、代数运算 矩阵加法 (add) 矩阵减法 (subtra…...

解析CSS与JavaScript的使用方法及ECMAScript语法规则

一、CSS的三种使用方式 CSS&#xff08;层叠样式表&#xff09;用于定义网页的样式和布局。以下是CSS的三种使用方式&#xff1a; 1. 内联样式 内联样式是最直接的应用方式&#xff0c;它通过HTML标签的style属性来定义。 代码示例&#xff1a; <h1 style"color: …...

从零开始学习嵌入式----结构体struct和union习题回顾

一、通过结构体和自定义函数实现成绩从大到小的排序&#xff0c;要求在主函数内定义结构体数组。 #include <stdio.h> //定义一个结构体类型 typedef struct Student {int age;char name[32];float score; } STU; //定义一个函数实现成绩从小到大的排序 void fun(STU *p…...

建筑产业网元宇宙的探索与实践

在数字化浪潮的推动下&#xff0c;建筑产业网正迈入一个全新的元宇宙时代。这一变革不仅为建筑设计、施工与管理带来了革新&#xff0c;也为整个行业注入了新的活力与创造力。本文将深入探讨建筑产业网元宇宙的特点、应用及未来趋势&#xff0c;带您领略其在建筑行业中的独特魅…...

比较RMI、HTTP+JSON/XML、gRPC

RMI&#xff08;Remote Method Invocation&#xff0c;远程方法调用&#xff09;、HTTPJSON/XML、gRPC是三种不同的技术或协议&#xff0c;它们各自在远程通信、数据传输和服务交互方面有不同的特点和应用场景。以下是对这三种技术的详细比较&#xff1a; 1. RMI&#xff08;R…...

软件工程-可行性分析

一、可行性分析 可行性分析/研究目的是用最小的代价在尽可能短的时间内确定问题是否得到解决。 FVPV&#xff08;1r&#xff09;^n* FV&#xff1a;未来价值 PV&#xff1a;现值&#xff08;当前货币金额&#xff09; r&#xff1a;利率 n&#xff1a;时间期限 纯收入累计的现…...

iOS ------ 消息传递和消息转发

一&#xff0c;消息传递 在OC中&#xff0c;传递消息就是在对象上调用方法。 相对于C语言的方法就“静态绑定”的函数&#xff0c;在编译器就决定了运行时所要调用的函数。在OC中&#xff0c;如果向某对象传递消息&#xff0c;就会使用动态绑定机制来决定需要调用那个方法。调…...

计算机视觉之Vision Transformer图像分类

Vision Transformer&#xff08;ViT&#xff09;简介 自注意结构模型的发展&#xff0c;特别是Transformer模型的出现&#xff0c;极大推动了自然语言处理模型的发展。Transformers的计算效率和可扩展性使其能够训练具有超过100B参数的规模空前的模型。ViT是自然语言处理和计算…...

【深度学习】BeautyGAN: 美妆,化妆,人脸美妆

https://www.sysu-hcp.net/userfiles/files/2021/03/01/3327b564380f20c9.pdf 【深度学习】BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversarial Network BeautyGAN: Instance-level Facial Makeup Transfer with Deep Generative Adversaria…...

RocketMQ~架构与工作流程了解

简介 RocketMQ 具有高性能、高可靠、高实时、分布式 的特点。它是一个采用 Java 语言开发的分布式的消息系统&#xff0c;由阿里巴巴团队开发&#xff0c;在 2016 年底贡献给 Apache&#xff0c;成为了 Apache 的一个顶级项目。 在阿里内部&#xff0c;RocketMQ 很好地服务了集…...

学习Python的IDE功能--(一)入门导览

项目视图是主要工具窗口之一。它包含项目目录、SDK 特定的外部库和临时文件。点击带条纹的按钮可以预览演示项目。您也可以按Alt1打开。点击以打开项目视图&#xff0c;展开项目目录以查看项目文件。双击以打开welcome.py。 切换到"学习"工具窗口继续学习本课次。…...

gdb调试多线程程序

目录 1、pstack查看各个线程的调用堆栈2、gdb调试多线程2.1 查看线程信息2.2 切换线程2.3 进入线程某层具体的调用堆栈2.4 调度器锁2.4.1 查看调度器锁模式 3、实战3.1 调试多线程崩溃3.2 调试多线程死锁 1、pstack查看各个线程的调用堆栈 命令&#xff1a; 1、查看进程id ps …...

实战GraphRAG(一):初步体验GraphRAG及其与RAG的对比

🌟实战GraphRAG(一):初步体验GraphRAG及其与RAG的对比 文章目录 🌟实战GraphRAG(一):初步体验GraphRAG及其与RAG的对比📖引言🔍一、GraphRAG与RAG的区别🚀二、GraphRAG使用示例1.安装GraphRAG2.运行索引器3.配置4.自动优化提示词5.运行索引管道6.使用查询引擎7…...

37、PHP 实现一个链表中包含环,请找出该链表的环的入口结点

题目&#xff1a; 题目描述 PHP 实现一个链表中包含环&#xff0c;请找出该链表的环的入口结点。 描述&#xff1a; 一个链表中包含环&#xff0c;请找出该链表的环的入口结点。 <?php /*class ListNode{var $val;var $next NULL;function __construct($x){$this->v…...

LIMS系统对实验室管理有哪些帮助?

LIMS系统对实验室管理提供了多方面的帮助&#xff0c;具体体现在以下几个方面&#xff1a; 1. 流程标准化与自动化 LIMS系统通过定义标准化的工作流程&#xff0c;如样品接收、测试分配、数据录入、结果审核和报告生成等&#xff0c;实现了实验室工作流程的自动化。这减少了人…...

在GPU上运行PyTorch

文章目录 1、查看GPU的CUDA版本2、下载CUDA版本3、安装cuDNN4、配置CUDA环境变量5、安装配置Anaconda6、使用Anaconda7、pycharm导入虚拟环境8、安装带GPU的PyTorch⭐9、总结 &#x1f343;作者介绍&#xff1a;双非本科大三网络工程专业在读&#xff0c;阿里云专家博主&#x…...

【内网穿透】打洞笔记

文章目录 前言原理阐述公网sshfrp转发服务 实现前提第一步&#xff1a;第二步第三步第四步 补充第五步&#xff08;希望隧道一直开着&#xff09;sftp传数据&#xff08;嫌云服务器上的网太慢&#xff09; 前言 租了一个云服务器&#xff0c;想用vscode的ssh远程连接&#xff…...

集装箱箱号与ISO代码区域检测数据集VOC+YOLO格式887张2类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)&#xff1a;887标注数量(xml文件个数)&#xff1a;887标注数量(txt文件个数)&#xff1a;887标注类别数&…...

如何优化NovelReader性能:10个技巧降低内存使用率

如何优化NovelReader性能&#xff1a;10个技巧降低内存使用率 【免费下载链接】NovelReader 仿照"任阅"的追书、看书的小说阅读器。重写"任阅"的代码&#xff0c;优化代码逻辑和代码结构&#xff0c;降低内存使用率。重写小说阅读器&#xff0c;支持网络阅…...

OpenHarmony 5.0.3兼容性认证实战:BQ3576HM开发板全栈移植与调优

1. 项目概述&#xff1a;一次关键的“兼容性认证”实战最近&#xff0c;我们团队基于贝启科技的BQ3576HM开发板套件&#xff0c;成功通过了OpenHarmony 5.0.3 Release版本的兼容性测评。这听起来像是一个简单的“通过测试”的新闻&#xff0c;但对于真正在一线做OpenHarmony设备…...

零 Python 依赖!用 JavaCV + ONNX Runtime 把 YOLO 塞进生产环境

上周五快下班的时候&#xff0c;运维老张突然冲进办公室&#xff0c;手里还拎着半杯凉透的枸杞茶。 “兄弟&#xff0c;客户那边又炸了&#xff01;”他把杯子往桌上一墩&#xff0c;“那个 PCB 缺陷检测系统&#xff0c;Python 推理服务又崩了。这周第三次了&#xff0c;人家产…...

工程机械重型车辆检测数据集 YOLO格式

数据集格式&#xff1a;YOLO格式(包含jpg图片以及对应的yolo格式的txt标注文件) 图片预览&#xff1a; 标注例子&#xff1a; 图片数量(jpg文件个数)&#xff1a;6338 标注数量(txt文件个数)&#xff1a;6338 标注类别数&#xff1a;7 标注类别名称:["Bull_dozer"…...

从审稿人到作者:我审了10篇论文后,总结出的5个投稿避坑指南和3个加分项

从审稿人到作者&#xff1a;10篇论文审阅经验提炼的5大避坑策略与3个关键加分项 第一次收到审稿邀请时&#xff0c;我正对着自己第三篇被拒的论文修改意见发呆。这种身份错位带来的震撼&#xff0c;让我开始系统记录审稿笔记——如今这些笔记已形成超过2万字的"审稿人思维…...

别再怕触电了!拆解一个手机充电器,手把手教你搞懂隔离型反激电源(附原理图分析)

从废弃充电器到安全电源设计&#xff1a;隔离型反激电源的实战拆解指南 每次给手机充电时&#xff0c;那个不起眼的小方块里究竟藏着怎样的魔法&#xff1f;为什么我们触摸充电线不会触电&#xff1f;今天&#xff0c;我将带您亲手拆解一个废弃的5V/1A手机充电器&#xff0c;用…...

【权威实测】Perplexity vs PubMed vs Scite:在结构生物学领域,它为何将文献召回率提升68%?

更多请点击&#xff1a; https://codechina.net 第一章&#xff1a;Perplexity生物知识搜索 Perplexity 是一款以实时网络检索与引用溯源为核心能力的 AI 搜索工具&#xff0c;其在生命科学领域的应用正迅速拓展。不同于传统大模型依赖静态训练数据&#xff0c;Perplexity 在执…...

从“黑盒”到“白盒”:深入理解PHP伪协议php://input的底层机制与安全开发启示

从“黑盒”到“白盒”&#xff1a;深入理解PHP伪协议php://input的底层机制与安全开发启示 在Web安全领域&#xff0c;文件包含漏洞一直是攻击者青睐的攻击向量。而PHP伪协议php://input的巧妙利用&#xff0c;往往能让看似无害的文件包含操作演变为致命的远程代码执行漏洞。本…...

2026-05-21:变成目标数组的最少操作次数。用go语言,给定两个长度相同的数组 nums 和 target。 - nums[i] 表示当前位置 i 当前的值。 - target[i] 表示当前位

2026-05-21&#xff1a;变成目标数组的最少操作次数。用go语言&#xff0c;给你两个长度为 n 的整数数组 nums 和 target。nums[i] 表示当前位置 i 的当前值&#xff0c;target[i] 表示你希望当前位置 i 最终变成的期望值。 你可以进行任意多次操作&#xff08;可以不做&#x…...