可灵开源视频生成数据集 学习笔记
目录
介绍
可灵团队提出了四个模块的改进:
video caption
新指标 vtss 动态质量 静态质量 视频自然性
介绍
在视频数据处理中,建立准确且细致的条件是关键,可灵团队认为,解决这一问题需要关注三个主要方面:
文本与视频语义对齐:视频生成需要与视觉内容直接相关的详细字幕,而不是像视频问答中的基于问题的描述。这要求字幕极为丰富详细,因为视觉信号具有无限细致之处。此外,原始视频数据常包含复杂的过渡,增加了确保字幕准确性的难度。
低质量数据的评价与过滤:低质量视频(如画质差或过多人工效果)会妨碍训练,但对其进行准确评估和过滤依然是挑战。现有方法多依赖于人工选择的质量指标和启发式阈值过滤,这些通常为其他任务设计,未必适合视频生成,因此可能无法有效保证所需的数据质量。
数据质量的异质性:即使有数据过滤,数据集中视频质量仍然参差不齐。在相同方式下训练这些异质数据可能导致模型学习的不确定性。
- 使用线性分类器提升过渡检测精度,从而改善视频的时间一致性。
- 为分割视频片段生成平均长度为200字的结构化字幕,提升文本与视频的对齐。
- 训练网络预测Video Training Suitability Score(VTSS),避免误删高质量数据,由网络单一输出的分值进行数据过滤。
- 在训练期间引入数据指标作为生成模型的额外条件,帮助模型区分不同质量的数据,提高条件与视频内容的一致性,进而提升模型性能和可控性。
Panda70M是目前最大规模的公开可访问视频文本数据集
Koala-36M 包含 3600 万个视频片段,平均时长 13.75 秒,分辨率为 720p,每个视频都配有平均长度为 202 字的文字描述。
可灵团队提出了四个模块的改进:
1、更加准确的分镜detection
2、提出一个structured caption system,可以对每个分镜产生200words的描述
3、训练了一个video training suitability score(VTSS)筛选高质量数据
4、把多个子指标作为metric condition喂给生成模型生成更好的效果
video caption
可灵团队使用了6种不同的captioner(都是用的GPT-4V),然后merge在一起。
主题 (The subject)
主体的动作 (Actions of the subject)
主体所处的环境 (The environment in which the subject is located)
视觉语言,包括风格、构图、光线等 (The visual language including style, composition, lighting, etc.)
摄影语言,包括镜头运动、角度、焦距、镜头尺寸等 (The camera language including camera movement, angles, focal length, shot sizes, etc.)
世界知识 (World knowledge)
新指标 vtss 动态质量 静态质量 视频自然性
动态质量:高质量视频应展现良好的动态性,评估时关注主体运动的幅度和运动的时间稳定性。视频中运动区域应覆盖超过30%的画面,否则因动态不足会降低评分。时间稳定性考虑摄像机的运动;非专业拍摄的视频常有不规则明显的抖动,这些视频的评分会降低,以区分专业作品。
静态质量:高质量视频的每一帧应具备丰富的主体细节、合理的构图、美学吸引力、清晰的主体和饱和的色彩。尽管这项指标可能涉及一些主观性,但对整体视觉质量的评估至关重要。
视频自然性:可灵团队偏好自然、未处理的视频。特效、转场、字幕和标志可能会引入视频分布的偏差,使得生成模型更难学习。此外,可灵团队考虑视频内容的安全性,拒绝含有政治、恐怖、暴力、色情、血腥或其他令人不安内容的视频。
相关文章:
可灵开源视频生成数据集 学习笔记
目录 介绍 可灵团队提出了四个模块的改进: video caption 新指标 vtss 动态质量 静态质量 视频自然性 介绍 在视频数据处理中,建立准确且细致的条件是关键,可灵团队认为,解决这一问题需要关注三个主要方面: 文本…...
告别软文营销瓶颈!5招助你突破限制,实现宣传效果最大化
在当今信息爆炸的时代,软文营销作为品牌推广的重要手段之一,面临着日益激烈的竞争和受众日益提高的辨别力。传统的软文营销方式往往难以穿透消费者的心理防线,实现有效的信息传递和品牌塑造。为了突破这一瓶颈,实现宣传效果的最大…...
秋冬进补防肥胖:辨证施补,健康过冬不增脂
中医理论中的秋冬“封藏” 在中医理论中,认为秋冬季节是人体“封藏”的时期,而“封藏”指的是秋冬季节人体应当减少消耗,蓄积能源,此时进补可以使营养物质易于吸收并蓄积于体内,从而增强体质和抵抗力,为来…...
uniapp radio单选
<uni-data-checkbox v-model"selectedValue" :localdata"quTypeList" change"radioChange"/> //产品类型列表 const quTypeList [{ text: 漆面膜, value: 100, }, { text: 改色…...
通熟易懂地讲解GCC和Makefile
1. 嵌入式开发工具链:GCC GCC(GNU Compiler Collection)是一个强大且常用的编译器套件,支持多种编程语言,比如 C 和 C。在嵌入式开发中,GCC 可以帮助我们把人类可读的 C/C 代码编译成机器可以理解的二进制…...
Java Agent使用
文章目录 基本使用premain使用场景 agentmain 关于tools.jar https://docs.oracle.com/en/java/javase/20/docs/specs/jvmti.html com.sun的API,如果使用其他厂商的JVM,可能没有这个API了,比如Eclipse的J9 https://www.ibm.com/docs/en/sdk…...
selenium 点击元素报错element not interactable
描述说明: 我这里是获取一个span标签后并点击,用的元素自带的element.click(),报错示例代码如下: driver.find_element(By.XPATH,//span[id"my_span"]).click() # 或者 elementdriver.find_element(By.XPATH,//span[i…...
【大数据技术基础 | 实验七】HBase实验:部署HBase
文章目录 一、实验目的二、实验要求三、实验原理四、实验环境五、实验内容和步骤(一)验证Hadoop和ZooKeeper已启动(二)修改HBase配置文件(三)启动并验证HBase 六、实验结果七、实验心得 一、实验目的 掌握…...
Android进程保活,lmkd杀进程相关
lmk原理 Android进程回收之LowMemoryKiller原理 lmkd 更新进程oomAdj; 设备端进程被杀可能原因...
SDL 播放PCM
SDL2播放PCM使用SDL2播放PCM音频采样数据。SDL实际上是对底层绘图API(Direct3D,OpenGL)的封装,使用起来明显简单于直接调用底层API。 测试的PCM数据采用采样率44.1k, 采用精度S16SYS, 通道数2 函数调用步骤如下: [初始化]SDL_In…...
基于MPPT最大功率跟踪的光伏发电蓄电池控制系统simulink建模与仿真
目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于MPPT最大功率跟踪的光伏发电蓄电池控制系统simulink建模与仿真。本系统包括PV模块,电池模块,电池控制器模块,MPPT模块,PWM模…...
深入解析Vue3:从入门到实战(详细版)
文章目录 前言一、Vue3简介官网地址主要特点 二、安装与创建Vue3项目使用Vue CLI创建项目使用Vite创建项目 三、Composition API详解Setup函数ref与Reactive生命周期钩子计算属性和监听器 四、新特性与优化响应式系统更好的TypeScript支持类型定义类型推断新组件全局API重构更好…...
Pr 视频效果:ASC CDL
视频效果/颜色校正/ASC CDL Color Correction/ASC CDL ASC CDL ASC CDL效果通过对红、绿、蓝三个原色通道的独立调整,实现对图像色彩的精确控制。在此基础上,还可用于调整处理后图像的整体饱和度。 ◆ ◆ ◆ 效果选项说明 斜率 Slope、偏移 Offset和功…...
C++ --- Socket套接字的使用
目录 一.什么是Socket套接字? 二.Socket的使用: 前置步骤: 为什么要加入 WSAStartup 和 WSACleanup ? 1.创建Socket: 2.绑定Socket: 3.服务端监听连接请求: 4.服务端接受客户端连接&…...
MG协议转换器:制氢行业的数字桥梁
在新能源产业蓬勃发展的今天,制氢行业正迎来前所未有的发展机遇。作为清洁能源的重要组成部分,氢气的生产与利用不仅关乎环境保护,更是推动能源结构转型的关键一环。然而,在制氢行业的数字化转型进程中,数据的传输与处…...
人工智能技术的未来:变革生活与工作的潜力
随着人工智能(AI)技术的不断发展,我们已经见证了其在各行各业的巨大变革。无论是在医疗、商业还是日常生活中,AI都正在悄然改变着我们的工作方式和生活方式。未来,人工智能的应用前景广阔,它将继续深入我们…...
D60【python 接口自动化学习】- python基础之数据库
day60 数据库定义 学习日期:20241106 学习目标:MySQL数据库-- 128:数据库定义 学习笔记: 无处不在的数据库 数据库如何存储数据 数据库管理系统(数据库软件) 数据库和SQL的关系 总结 数据库就是指数据…...
零基础大龄程序员如何转型AI大模型,系统学习路径与资源推荐!!
前言 随着科技的飞速发展,AI大模型浪潮席卷全球,相关岗位炙手可热。在这个背景下,许多大龄程序员开始思考如何转型,以适应时代的变化。结合自身编程基础,大龄程序员可以学习机器学习、深度学习算法,投身于…...
vue3+vant实现使用van-picker实现三级级联菜单展示(含递归遍历)
1、递归遍历三级展示,禁用自动弹起软键盘、设置文档自动换行避免过长文本省略号展示 <div class"text_div"><van-fieldclass"span_text":center"true"v-model"jobLevelCodeText"is-linklabel"任职岗位"…...
oracle-函数-grouping sets(x1,x2,x3...)的妙用
GROUPING SETS 允许你为多个列组合生成分组汇总。它类似于多个 GROUP BY 子句的 UNION ALL 操作,但更加简洁和高效 首先:创建表及接入测试数据 create table students (id number(15,0), area varchar2(10), stu_type varchar2(2), score number(20,2))…...
UWB传统厘米级定位 VS 镜像视界AI无感定位|大模型融合视频孪生全面重塑全域空间感知
UWB传统厘米级定位 VS 镜像视界AI无感定位|大模型融合视频孪生全面重塑全域空间感知在全域空间高精度感知产业高速迭代进程中,室内外人员与目标定位技术逐步分化为两大主流发展路径,其一为深耕多年、依托硬件组网实现测距定位的传统UWB厘米级…...
《怕你忍不住》的传播入口:情绪临界点如何被记住
从内容传播角度看,《怕你忍不住》的入口不是猎奇,而是一个非常具体的情绪临界点:话快说出口、眼泪快掉下来、冲动快把人推着走。标题先完成识别,读者会知道这不是泛泛的伤感歌。这首歌适合连接很多高频场景。深夜准备发出一条消息…...
长期使用Token Plan套餐在Taotoken平台带来的月度成本控制感受
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 长期使用Token Plan套餐在Taotoken平台带来的月度成本控制感受 作为一名需要频繁调用大模型API进行项目开发的工程师,成…...
chatgpt-mirai-qq-bot输入输出参数:类型验证和默认值处理
chatgpt-mirai-qq-bot输入输出参数:类型验证和默认值处理 在构建复杂的聊天机器人系统时,输入输出参数的类型验证和默认值处理是确保系统稳定性和可靠性的关键。chatgpt-mirai-qq-bot项目通过精心设计的参数处理机制,为开发者提供了强大的类型…...
PSLab Desktop性能优化:提升仪器响应速度与数据精度的终极指南
PSLab Desktop性能优化:提升仪器响应速度与数据精度的终极指南 【免费下载链接】pslab-desktop PSLab Desktop Application https://pslab.io 项目地址: https://gitcode.com/gh_mirrors/ps/pslab-desktop PSLab Desktop是一款强大的开源硬件实验平台应用程序…...
美国签证预约神器:3步告别熬夜抢号,智能锁定更早面试时间
美国签证预约神器:3步告别熬夜抢号,智能锁定更早面试时间 【免费下载链接】us-visa-bot US Visa Bot 项目地址: https://gitcode.com/gh_mirrors/us/us-visa-bot 还在为美国签证预约的漫长等待而焦虑吗?每天手动刷新页面却总是错过最佳…...
3分钟快速上手vJoy:如何为Windows创建专业级虚拟游戏手柄
3分钟快速上手vJoy:如何为Windows创建专业级虚拟游戏手柄 【免费下载链接】vJoy Virtual Joystick 项目地址: https://gitcode.com/gh_mirrors/vj/vJoy 您是否曾经因为缺少游戏手柄而无法畅玩那些只支持手柄操作的游戏?或者需要为特殊软件设计自定…...
换平台就得重开发?低代码平台锁定的困局与破解
“想升级平台版本,原有应用全部不兼容;想换个厂商,花两年搭的系统完全作废,数据导不出来、流程没法迁移,只能推倒重来……”低代码平台的 “锁定效应”,让无数企业陷入 “用着难受、扔了可惜” 的两难困境。…...
用STM32F103C8T6驱动Ra-01SC模组实现点对点通信(附完整代码与接线图)
STM32与Ra-01SC模组实战:从零搭建LoRa点对点通信系统 在物联网和远程监测领域,LoRa技术以其低功耗、远距离的特性成为无线通信的热门选择。Ra-01SC模组作为一款高性价比的LoRa模块,配合STM32F103C8T6这款经典MCU,能够快速构建稳定…...
从投稿到录用:我是如何用IEEE官方Word模板搞定格式,让审稿人一眼舒服的?
从投稿到录用:我是如何用IEEE官方Word模板搞定格式,让审稿人一眼舒服的? 第一次投稿IEEE期刊时,我花了整整三天时间调整格式——页眉页脚错位、参考文献编号混乱、图表标题忽大忽小。直到收到编辑的退修邮件:"请…...
