快手可灵视频生成大模型全方位测评
可灵在持续创新的道路上也从未停下脚步,在七月份举办的世界人工智能大会(WAIC)期间,可灵再次迎来重大升级。新功能包括上线web端、基础模型效果升级、图生视频支持首尾帧、增添相机镜头控制功能、单次生成时长增至10s等。
大模型落地的实际效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。该团队致力于生成式AI的正向应用与反向监管工作,近年来在人工智能和图形学顶级会议和期刊(ACM TOG/CVPR等)上发表了多个图像视频生成成果。团队本次对可灵AI的评测,是为了评估现有视频生成模型能力,探索视频生成技术在学术和现实场景里的新方向和应用潜力。(本文转自 数字内容合成与伪造检测 帐号,已获得作者授权转载,本文发表在新功能上线之前,目前可灵最新功能已更新,欢迎爱好者朋友至https://klingai.kuaishou.com 体验)
六个角度:
团队主要从画面质量、内容可控与运动生成三方面进行评测,并与当下最火热的Stable Video Diffusion、Sora和Dream Machine进行比较。画面质量考量视频画面的真实感,包括细节刻画的逼真度与物理世界的一致性两个角度;内容可控从多主体生成、特定内容风格与模型创造力三个角度测试;最后,从运动生成的角度测试了生成结果中动态场景的流畅性和时空关系的合理性。
测评情况:
1、细节刻画:超乎想象
细节决定着一个视频是否会被一眼“打假”,一年前,网上还在大呼“图像生成的场景虽然宏大,但仔细一看完全是东拼西凑”。而可灵对细节的刻画,超出我们的想象。
精美自然界 晶莹剔透的水珠,微微摆动的湿润绿叶,虚化的背景,这个画面真的太美了。不过这里也体现出了后续会说的一个问题——运动不符合提示词。
“一滴雨水滑落叶片的边缘,特写水珠的表面张力和反射的光芒。”
对动物的刻画也十分细致,透明的小翅膀,在花蕊上采蜜的动作,不细看像是真的一样。
“一只蜜蜂在花瓣上采蜜,特写其细腻的翅膀和花粉粘附在腿上的情景。”
精准手和脸 我们知道脸部崩坏,手指抽象是生成模型的老问题了,而可灵的结果看起来不错。看起来画面中的演员真的很痛苦,完全符合我们的提示词。
“一位演员在舞台上表演悲剧角色,特写脸上的悲伤表情和流下的泪水。”
纸张纹理、手部青筋、握笔方式都刻画得十分到位,甚至在纸面上留下了持续新增的笔触。
“一位画家的手在画布上细致地勾勒出人物的轮廓,特写手指的灵活运动。”
总之,可灵对细节的把控比较到位,不管是自然界的花花草草还是人的面部情绪、手部动作,在视频生成领域有很大的进步。
2、物理世界:表象or内核
人工智能是否能够真正地理解物理世界?我们认为可灵仍然停留在视频的表象。我们发现它对自然界有着细致入微的观察,并且面对镜子、光影可以生成一些令人惊叹的视频,不过在视频中偶尔会发生不合理的事情。
绽放的花朵 两朵花缓慢绽放,花蕊的细节清晰可见,像真是用延时摄影拍摄的一样。“两朵黄色的花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。”
令人惊叹的镜子 这个视频仿佛是在真实场景中发生的,特别是耳部动作的刻画。虽然最后几秒镜子里的动作有问题,但瑕不掩瑜,整体质量十分好。
“一只狗在照镜子,背景是房间内的物品。”
越来越满的咖啡 这是一个特别常见的画面,然而模型完全没有理解我们的意思,蒸汽不减少,咖啡却越来越多。
“一杯满是热咖啡的透明玻璃杯,慢慢地冷却,蒸汽逐渐消失。”
3、想象力:生成不可能
到了可灵主打的想象力环节,我们来看看它能不能生成天马行空的内容。
海底探险 海底、发光宝藏、潜水员和海洋生物该有的元素都有了,镜头不断推进,仿佛我们也深陷海底。
科幻都市 这里的光影令人惊喜,倒影、反光都随着小猫的前进不断变化。整个场景也充满科技风,以后设计画面都可以来这找灵感了。
活灵活现的画面 这里动静之间的处理得特别好,跃出纸面的动物、画板和画家之间的空间关系完全正确。
更具想象力 可灵没有成功生成这个充满想象力的画面,丢失了很多元素。
“一只猫坐在一本打开的书上,书页上的文字围绕着猫身形成漩涡。”
总之,可灵在想象力上中规中矩,能生成让人眼前一亮充满想象力的大场景,但偶尔面对过于超脱的提示词时不知道如何创意地组合各个概念。不过以现在生成的总体质量来看,再改进一下提示词,应该就可以实现想要的内容。
4、多主体:更丰富的内容
谁是狮子 可灵成功生成了两只老虎、两只狮子,但让它生成一只老虎和一只狮子时,却生成了两只老虎。
猫狗合体 小猫小狗作为最常见的动物,可灵却分不清,第一个视频猫变身狗,第二个视频猫狗直接合体。另外可以看到,可灵不会数数但对颜色的把控到位。
“一只白猫,一只黑狗,两只黄色鸭子在一起玩。”
“一只白猫,一只黑狗,两只绿色鸭子在一起玩。”
对模型来说,模拟多个角色之间的复杂交互具有挑战性,在多主体上可灵稍显逊色,可能会生成错误的内容。
5、角色和风格:个性化生成
指定角色 可灵在软件上禁止生成现实中存在的名人,因此我们简单地尝试了几个常见角色。
在角色、动作、场景上符合提示词,生成的质量还可以。
“圣诞老人将礼物递过来。”
虽然生成了猴子形象,并且吃东西的动作也很生动,但生成了一行字幕,也完全不符合我们心中孙悟空的样子。在这方面希望国产模型可以认识更多国内文化,让用户可以生成含有优秀传统文化的视频。
“孙悟空吃饭。”
指定风格 我们尝试了不同的风格,模型能够根据提示词生成对应风格,尤其是科幻风较好。
“熊猫弹吉他,赛博朋克风格。”
“熊猫弹吉他,迪士尼动画风格。”
“熊猫弹吉他,写实风格。”
总之,在指定角色和风格上,生成的视频还是令人满意的。不过,生成更加个性化的内容有广泛需求,比如用户自己、家养宠物。如何通过微调或无需训练的方法实现完全的定制化是一个值得深入探讨的话题。
6、运动:复杂的时空关系
相对于图像生成,视频生成最大的难点就在于建模复杂的时空关系,可灵官方声明“可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容”。
常见运动 首先看看官方提示词的生成对比:
景色不错,但我们的马没有官方的跑得快。
“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(官方)
“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(我们)
猎豹跑得没马快。
“一只猎豹在草原上全速奔跑,追逐猎物。”
飞机飞得可以,但是没有体现出“急速俯冲和爬升”,只是常见的飞行。
“一架喷气式飞机在蓝天中做出急速俯冲和爬升的动作。”
复杂场景 完美生成了场景,但是完全不符合动作。
“一只猫在书架上跳跃,书本、装饰品和其他物品之间的空间关系清晰可见。”
交互式动作 模型在拿出来还是放进去反复横跳。
“一个人打开冰箱,拿出里面的可乐。”
看得出来,可灵对于一些常见的动作可以按照提示词生成一致的运动,但存在运动幅度较小的问题,对“飞快、急速”等词的响应有一点问题。而面对复杂场景时,可灵生成的结果也较差,无法生成对应的动作。
模型对比
可灵 vs. SVD
Stable Video Diffusion是Stability公司在2023年底公布并开源的视频生成模型,凭借其出色的性能和应用潜力,吸引了全球技术圈的目光。由于SVD是图生视频模型,我们首先利用SDXL生成图片,再用SVD基于图片生成视频。与SVD相比,时隔半年的可灵生成质量如何?
"The waves crash against the beach, the sunset slowly sets in the distance,Beautiful view,the afterglow."(SVD)
“海浪拍打着沙滩,夕阳在远处缓慢落下,美景,余晖。”(可灵)
"A Chinese man sits at a table and eats noodles with chopsticks."(SVD)
“一个中国男人坐在桌前,用筷子吃面条。”(可灵)
可灵生成的海浪拍打沙滩、吃面条的动作十分真实,而SVD似乎只是简单的镜头移动。在视频连续性、真实性方面,可灵有着飞跃进展。
可灵 vs. Sora
今年2月,OpenAI研发的Sora横空出世,60秒的视频时长,影视级的画面质量一度盖过其它视频生成模型的风头。我们将可灵与Sora进行对比,由于Sora尚未开放测试,我们选取官方公布的测试样例进行对比,因此对比结果可能有失偏颇。
可灵生成的视频中,大象的每一步都会掀起一阵雪花,对阳光、影子都有准确的刻画,虽然后面的小象出现了问题,但还是凸显出可灵对光影的理解。而Sora对猛犸象的生成更加准确,但大象背后雪花造成的烟雾略显夸张。
"Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow-covered trees and dramatic snow-capped mountains in the distance, mid-afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field." (Sora)
“几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上踩踏,它们长长的毛茸茸的皮毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的雪山,午后的阳光与缕缕的云彩和远处的太阳高高地营造出温暖的光芒。低相机视角令人惊叹,以精美的摄影捕捉大型毛茸茸的哺乳动物,深度。”(可灵)
在Sora展示的一个失败例子中,可灵也失败了。同样是让篮球爆炸,Sora虽然在结尾又冒出了一个篮球,但确实让篮球爆炸了,而可灵的篮球像橡皮泥捏的。
"Basketball through hoop then explodes."(Sora)
“篮球穿过篮筐然后爆炸。”(可灵)
相比于Sora,可灵没有完全败下阵来,二者都有可圈可点的地方,等Sora放出Demo才能进行更全面的对比。
可灵 vs. Dream Machine
6月13日,Luma AI发布视频生成模型Dream Machine,用户可以通过文字或图片生成高质量的高清视频。不需要申请,登录就可以免费使用,但目前限制每天生成十个视频。下面是它与可灵生成的视频对比(使用Dream Machine文生视频功能):
"It was raining heavily outside the window, and the rain was sliding down the window, leaving water lines."(Dream Machine)
“窗外下着大雨,雨水在窗户上滑落,留下水流纹路。”(可灵)
"A cute cat is looking at a mirror through the water surface with fish swimming in it."(Dream Machine)
“一只可爱的猫通过水面照镜子,水里有游动的鱼。”(可灵)
在上面两个例子中,可灵在画面展现、物理规律上还是完全胜于Dream Machine的。在用户使用上,可灵的生成速度比Dream Machine慢,可灵通常是3分钟生成一个5秒的视频,而Dream Machine官方称2分钟即可生成120帧5秒的视频。
合成 vs. 检测
视频生成技术不断进步,生成的视频质量越来越接近真实内容。这也引发了对视频内容真实性的关注,特别是在新闻、法律和安全等敏感领域。我们用中科睿鉴研发的视频伪造检测小程序对可灵生成的40个视频进行检测,在检测模型未针对可灵模型进行调优时,检出率为85%。
被识别为真的视频画面
我们利用可灵生成的这些视频,具有逼真的画面,较高的一致性和连续性,很少存在抖动情况。被检测出来的视频通过肉眼看也很难判别真伪,大多数视频很少存在失真、变形。可灵AI视频生成大模型的表现展示了AI在视频生成领域的巨大潜力,同时也突显了确保数字内容真实性的挑战。这一领域的未来发展将是技术创新和伦理责任并行的结果。
总结
总的来说,可灵的生成质量还是很不错的,支持中文输入极大提高了用户体验感。视频时长、分辨率、流畅度大幅提升,在细节、人体上有着很大进步,在动作幅度、想象力上还略显不足。本文采用的提示词都不是经过精心挑选的,有时甚至能达到随手出片的效果。
今年,Sora、可灵和Dream Machine等高质量视频生成模型不断涌现,各大科技机构纷纷投入视频生成赛道。目前,视频生成落地面临多重难点,快速高质量的生成技术、昂贵的算力成本都是亟需解决的问题。在这一背景下,快手推出面向公众开放测试的产品级应用,一键生成视频,直接剪辑发布,形成了一套完整流程,极大推动了视频生成的实际落地。在未来,如何形成一个完善的AIGC生态体系,以及完整的产业链与现有产品进行联动,都是长期关注的焦点。另外,随着Sora类的生成技术不断成熟,整个视频生成研究领域会进入到下一个阶段:不仅会关注视频内容的真实性,还会更加注重视频中的物理规律和运动幅度等“幻觉”问题。这意味着,未来的视频生成技术不仅要在视觉上令人信服,还要在物理动作和逻辑上保持一致,以产生更加自然和流畅的视觉效果。此外,随着技术的发展,我们还可能看到更多的交互式视频内容生成,其中用户可以指定某些参数或直接与视频内容互动,从而创造出独一无二的个性化视频体验。这将极大地扩展视频生成技术的应用范围,比如娱乐、教育、专业培训和模拟等多个领域。
总之,视频生成技术的未来发展将不仅仅局限于提高图像质量,更将涉及到如何创造出符合物理规律、具有高度互动性和个性化的视频内容。这将是一个充满挑战但也极具潜力的新阶段。
相关文章:

快手可灵视频生成大模型全方位测评
快手视频生成大模型“可灵”(Kling),是全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测…...

【JavaScript】`Map` 数据结构
文章目录 一、Map 的基本概念二、常见操作三、与对象的对比四、实际应用场景 在现代 JavaScript 中,Map 是一种非常重要且强大的数据结构。与传统的对象(Object)不同,Map 允许您使用各种类型的值作为键,不限于字符串或…...
Ubuntu22.04使用NVM安装多版本Node.js和版本切换
Fabric官方目前支持Node.js开发区块链应用,建议使用Node长期支持版本(LTS)。 建议使用NVM安装Node.js,NVM可以帮助我们方便的在Node的不同版本之间进行切换,这样我们就可以同时工作在不同的项目上。 下面是安装的脚本…...

基于C51和OLED12864实现Goole小恐龙
在数字娱乐领域,Google小恐龙(T-Rex Runner)以其简单而上瘾的游戏机制赢得了广泛的关注和喜爱。这款内置于Chrome浏览器的离线小游戏,不仅为用户带来了乐趣,也激发了开发者们对其进行各种创新和扩展的灵感。本文将介绍…...

【Docker】CentOS7环境下的安装
环境展示 安装 配置仓库 sudo yum install -y yum-utils # docker官方key文件下载 sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo # 建议使用阿里云key文件下载 sudo yum-config-manager --add-repo https://mirrors.aliyun.…...

浏览器的最大并发数(http1.1)
HTTP/1.1:每个资源请求通常需要单独的TCP连接,尽管支持Keep-Alive机制,允许在同一个TCP连接上连续发送多个请求。但通常浏览器限制并发TCP连接数(例如,每个域名最多6个并发连接)。 HTTP/2:引入…...
Android 开发中px、dpi 和 dp三个单位的介绍
Android 开发中px、dpi 和 dp三个单位的介绍 在 Android 开发中,px、dpi 和 dp 是用来描述屏幕尺寸和密度的单位,它们在设计和开发中有着不同的作用和用途。 1. px(像素) 定义: px 表示屏幕上的一个像素点,…...

zookeeper开启SASL权限认证
目录 一、SASL介绍 二、使用 SASL 进行身份验证 2.1 服务器到服务器的身份验证 2.2 客户端到服务器身份验证 三、验证功能 一、SASL介绍 默认情况下,ZooKeeper 不使用任何形式的身份验证并允许匿名连接。但是,它支持 Java 身份验证与授权服务(JAAS)…...

mysql一个小问题引发的思考-mysql类型转换-查询缓存 及 MYSQL查询缓存以及自动选择不使用查询缓存的情况
一、mysql一个小问题引发的思考-mysql类型转换-查询缓存 最近在做的一个项目中有一个SQL语句发现点问题,大概如下: select * from table where cid0 or find_in_set(1, cid); 数据表中的字段cid是字符串类型,原来的后端同学未提过此字段还能是…...
css更改图片颜色
css更改图片颜色,比较时候颜色单一的图片,比如logo之类的 css中的 filter 属性定义元素(通常是 <img>)的视觉效果(如模糊和饱和度) img{ -webkit-filter: invert(51%) sepia(94%) saturate(6433%) h…...

通过POST请求往Elastic批量插入数据
文章目录 引言I 请求文档请求参数请求例子引言 调试工具:Apifox 需求: 向Elasticsearch中的’test_index’索引批量插入文档 情况认证: Basic Auth 在 Header 添加参数 Authorization,其值为在 Basic 之后拼接空格,以及经过 Base64 编码的 {{Username}}:{{Password}} 示…...

JAW:一款针对客户端JavaScript的图形化安全分析框架
关于JAW JAW是一款针对客户端JavaScript的图形化安全分析框架,该工具基于esprima解析器和EsTree SpiderMonkey Spec实现其功能,广大研究人员可以使用该工具分析Web应用程序和基于JavaScript的客户端程序的安全性。 工具特性 1、动态可扩展的框架&#x…...

错误解决 error CS0117: ‘Buffer‘ does not contain a definition for ‘BlockCopy‘
Unity 2022.3.9f1 导入 Runtime OBJ Importer 后出现: error CS0117: ‘Buffer’ does not contain a definition for ‘BlockCopy’ 解决办法: 源代码: int DDS_HEADER_SIZE 128; byte[] dxtBytes new byte[ddsBytes.Length - DDS_HEAD…...

ICMPv6与DHCPv6之网络工程师软考中级
ICMPv6概述 ICMPv6是IPv6的基础协议之一。 在IPv6报文头部中,Next Header字段值为58则对应为ICMPv6报文。 ICMPv6报文用于通告相关信息或错误。 ICMPv6报文被广泛应用于其它协议中,包括NDP、Path MTU发现机制等 ICMPv6控制着IPv6中的地址自动配置、地址…...

【HTML — 构建网络】HTML 入门
在本文中,我们将介绍 HTML 的绝对基础知识。为了帮助您入门,本文定义了元素、属性以及您可能听说过的所有其他重要术语。它还解释了这些在 HTML 中的位置。您将学习 HTML 元素的结构、典型的 HTML 页面的结构以及其他重要的基本语言功能。在此过程中,也将有机会玩转 HTML! …...

javafx的ListView代入项目的使用
目录 1. 创建一个可观察的列表,用于存储ListView中的数据,这里的User是包装了用户的相关信息。 2.通过本人id获取friendid,及好友的id,然后用集合接送,更方便直观一点。 3.用for遍历集合,逐个添加。 4.渲染器&…...
基于ABAP OLE技术实现对服务器文件进行读写操作
使用ABAP中的OLE(Object Linking and Embedding)技术,可以实现对服务器文件的读写操作。以下是一个示例,演示如何通过ABAP代码使用OLE自动化对象来读写服务器上的文件。这里主要以Excel文件的读写操作为例。 1. 读Excel文件 代码…...
求教Postgresql在jdbc处理bit(1)字段的预处理解决方案
文章目录 1.建表语句:2.使用以下方式的预处理方式都报错了3.可以先用sql拼接实现功能 1.建表语句: CREATE TABLE public.h_user (id serial4 not null,username varchar(50) NULL,"password" varchar(64) NULL,nickname varchar(60) NULL,ema…...

微信小程序-自定义tabBar
通过官网给出的示例自己实现了自定义的tabBar,但结果发现 无法监听页面生命周期函数 结语:原想的是实现不一样的效果(如下) 故尝试了自定义tabBar,虽然做出来了,但也发现这个做法存在不足: 在…...

vue3+element-plus 实现动态菜单和动态路由的渲染
在 Vue.js 中,使用 Vue Router 管理路由数据,并将其用于渲染 el-menu(Element UI 的菜单组件)通常涉及以下几个步骤: 定义路由元数据: 在你的路由配置中,为每个路由项添加 meta 字段,…...

19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...

.Net框架,除了EF还有很多很多......
文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

MongoDB学习和应用(高效的非关系型数据库)
一丶 MongoDB简介 对于社交类软件的功能,我们需要对它的功能特点进行分析: 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具: mysql:关系型数据库&am…...
GitHub 趋势日报 (2025年06月08日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...
【JavaSE】绘图与事件入门学习笔记
-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角,以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向,距离坐标原点x个像素;第二个是y坐标,表示当前位置为垂直方向,距离坐标原点y个像素。 坐标体系-像素 …...

学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2
每日一言 今天的每一份坚持,都是在为未来积攒底气。 案例:OLED显示一个A 这边观察到一个点,怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 : 如果代码里信号切换太快(比如 SDA 刚变,SCL 立刻变&#…...

学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek
文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

嵌入式学习笔记DAY33(网络编程——TCP)
一、网络架构 C/S (client/server 客户端/服务器):由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序,负责提供用户界面和交互逻辑 ,接收用户输入,向服务器发送请求,并展示服务…...
Java毕业设计:WML信息查询与后端信息发布系统开发
JAVAWML信息查询与后端信息发布系统实现 一、系统概述 本系统基于Java和WML(无线标记语言)技术开发,实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构,服务器端使用Java Servlet处理请求,数据库采用MySQL存储信息࿰…...