当前位置: 首页 > article >正文

真可用!美团数字人模型开源,MV、电商等统统拿下

美团开源的数字人视频生成框架 LongCat-Video-Avatar 刚刚更新到 1.5 版本。是真能用。这版更新把音频编码器换了推理步数砍到8步在770人、13240条主观评分的大规模评测里雷达图面积全面领先。音频编码器换血8步出图LongCat-Video-Avatar 1.5 建立在 LongCat-Video 基础模型之上第一件事就是把音频编码器从 Wav2Vec2 换成了 Whisper-Large。这个替换让唇形动态明显更平滑、更自然。做过数字人视频的人都知道唇形同步是最容易穿帮的地方嘴皮子跟音频对不上观众一秒出戏。Whisper-Large 本身在语音识别领域已经是标杆级模型对音频时序信息的捕捉更细腻迁移到视频生成任务里唇形精度自然跟着上来。第二件事推理加速。v1.5 采用 DMD2Distribution Matching Distillation 2做步数蒸馏把推理压到 8 NFENeural Function Evaluations。原来动辄几十步的去噪过程现在8步搞定。推理成本下来了视觉保真度没怎么掉。对商业部署来说推理速度和生成质量之间的平衡直接决定能不能上线。8步推理让 LongCat-Video-Avatar 1.5 在服务端部署时更灵活成本更可控。原生支持的任务包括 AT2VAudio-Text-to-Video音频文本转视频、ATI2VAudio-Text-Image-to-Video音频文本图像转视频和视频续写同时兼容单流和多流音频输入。覆盖的场景也很广新闻播报、表演、唱歌、电商营销、多人对话、动画角色、动物角色基本把数字人视频的主流需求都包了。有一个很关键的点风格泛化。v1.5 不只在真人场景稳对动漫、动物、多人交互、手持物体等复杂条件也能扛住。一个模型打通多种风格商用时不用为不同风格各训一套部署成本进一步降低。770人打分性能全面领先LongCat-Video-Avatar 1.5 基于 EvalTalker 构建了一套综合评测基准覆盖新闻、教育、娱乐、商业等场景按音频维度语速、情绪和视觉维度人数、姿态、遮挡设置不同难度。770名评估者完成了13240条主观评分另有10名领域专家做结构化质量分析。雷达图面积全面领先。具体看四个维度物理合理性、时间稳定性、身份一致性、音视频协调性LongCat-Video-Avatar 1.5 的雷达图面积在所有对比模型中处于领先水平各维度表现更均衡。没有明显短板这对商用来说比单点突出更重要。用户偏好方面数据更有说服力。对比 Kling Avatar 2.0胜率 65.9%对比 OmniHuman-1.5胜率 61.1%对比 HeyGen胜率 54.3%。三个对手都是当前市场上能打的商业系统LongCat-Video-Avatar 1.5 全部胜出。数字人视频的难点其实分层。单人场景是基本功多人场景是分水岭。单人场景LongCat-Video-Avatar 1.5 得分 3.336显著高于 HeyGen、OmniHuman-1.5 等产品。单人场景比的是自然度和真实感嘴形对不对、表情自不自然、动作顺不顺观众一眼就能看出来。3.336 这个分数说明基础体验已经站稳。多人场景更考验模型的区分能力。谁在说话、谁在听、各自的动作和表情该怎么配合。LongCat-Video-Avatar 1.5 多人场景得分 2.730大幅领先 InfiniteTalk 的 2.339。差距主要来自说话者和聆听者的区分多人交互时谁该动、谁该静模型判断更准确画面才不会显得乱。数字人视频最常见的翻车场景人变形、背景变形、画面跳帧LongCat-Video-Avatar 1.5 在这些硬指标上也非常优异。主体变形问题率 23.1%低于所有对比模型。背景变形问题率 9.4%同样保持在低水平。背景变形是长视频生成里的老问题随着帧数增加背景容易出现扭曲、闪烁、色偏v1.5 把这个问题压到了个位数百分比。跳帧问题率 0.8%所有对比模型中最低。跳帧就是画面突然跳一下像卡顿又不像卡顿看起来很不舒服。0.8% 意味着在长视频连续生成中画面流畅性得到了很好的保障色调误差累积也控制得不错。音视频协调方面面部与身体同步问题率 5.1%唇形同步问题率 29.8%两项均低于其他对比模型。29.8% 的唇形同步问题率看着不低但在当前技术水平下已经是最低值说明音频、唇形、表情、动作的整体协同在 v1.5 上更自然。唇形同步本身是数字人视频最难啃的骨头全行业都在这个区间LongCat-Video-Avatar 1.5 已经走在了最前面。LongCat-Video-Avatar 1.5 在效率提升的同时没让生成质量打折。单人场景自然度和真实感保持 SOTA多人互动、长时序稳定性、物理合理性、音视频协调性这些商用关键维度上v1.5 也展现出更强的潜力。官方还贴心给开发者们贴出了使用技巧这么好的免费本地数字人又能省一笔Token费了。参考资料https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5https://github.com/meituan-longcat/LongCat-Videohttps://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/

相关文章:

真可用!美团数字人模型开源,MV、电商等统统拿下

美团开源的数字人视频生成框架 LongCat-Video-Avatar 刚刚更新到 1.5 版本。是真能用。这版更新把音频编码器换了,推理步数砍到8步,在770人、13240条主观评分的大规模评测里,雷达图面积全面领先。音频编码器换血,8步出图LongCat-V…...

yolo视频识别 车辆速度估计识别 yolo11视频实时速度测量与测速估计

文章目录YOLOv11:视频实时速度测量与测速估计一、YOLOv11概述二、速度测量原理三、距离测量方法四、应用场景五、实践案例以下是关于使用YOLOv11进行视频实时速度测量与测速估计的介绍: YOLOv11:视频实时速度测量与测速估计 随着计算机视觉…...

十年以上经验的建站公司推荐|策划强、落地稳的网站制作公司盘点

互联网时代,企业官网已从单纯的信息展示窗口升级为集品牌价值传递、用户体验连接与业务高效转化于一体的核心数字阵地。行业报告显示,优质官网可帮助企业线上转化率提升35%-60%,而低效官网则可能导致潜在客户大量流失。面对市场上众多的网站建…...

179个核心职位,50个公司分类,中国大模型产业全栈

最后 对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大? 答案只有一个:人工智能(尤其是大模型方向)…...

解决方法:庐山派K230接串口没识别到端口问题

一、插入usb转串口工具之前二、插入usb转串口工具之后三、解决方法说明:🔍 核心原因:USB Serial 设备,没有被识别为 COM 口你现在看到的 USB Serial,说明开发板已经正常启动了,USB 也被电脑识别到了&#x…...

告别DLL缺失烦恼!Visual C++运行库合集一键搞定Windows应用依赖问题

告别DLL缺失烦恼!Visual C运行库合集一键搞定Windows应用依赖问题 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经在打开某个软件或游戏时…...

如何快速解锁中兴光猫权限:zteOnu工具完整使用指南

如何快速解锁中兴光猫权限:zteOnu工具完整使用指南 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫作为家庭网络的核心设备,其强大的硬件性能常常被默认…...

百度深度学习研究院的“叛将“,带着一颗芯片改变了中国智能驾驶——地平线余凯,从ImageNet冠军到征程出货1000万

大家好,我是写代码的篮球球痴。这篇文章跟我自己有点关系——我开的是理想汽车。理想的智驾系统 AD Pro,搭载的就是地平线征程 5 芯片。2026 年 1 月理想 AD Pro 4.0 推送,基于单颗征程 6M 实现了城市 NOA——这是行业里第一个用单颗 128TOPS…...

Vue2-Verify:解决前端验证码安全性与用户体验平衡问题的技术方案实现

Vue2-Verify:解决前端验证码安全性与用户体验平衡问题的技术方案实现 【免费下载链接】vue2-verify vue的验证码插件 项目地址: https://gitcode.com/gh_mirrors/vu/vue2-verify 在当今Web应用开发中,验证码作为防止自动化攻击的关键安全组件&…...

uWSGI目录穿越漏洞CVE-2018-7490深度利用与防御实战

1. 这不是“读文件”那么简单:uWSGI目录穿越在真实攻防链中的定位与误判代价你刚在Vulfocus靶场里跑通了CVE-2018-7490的PoC,用curl "http://target:8080/?p../../../../etc/passwd"成功读出了root:x:0:0:root:/root:/bin/bash,截…...

风控系统如何全维度识别爬虫:IP、账号与行为的协同决策机制

1. 这不是“反爬失败”,而是风控系统在对你做全维度画像你写完一段 requests BeautifulSoup 的代码,本地跑通了,开开心心部署到服务器,结果第二天早上发现:所有请求返回 403,日志里全是空响应;…...

3分钟快速安装BetterNCM插件管理器,让你的网易云音乐功能翻倍

3分钟快速安装BetterNCM插件管理器,让你的网易云音乐功能翻倍 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 还在为网易云音乐功能单一而烦恼吗?想要解锁更多个…...

全球无障碍宣传日:iOS 26 辅助功能大升级,这些实用小功能你用过吗?

辅助功能发展与升级很多人对辅助功能的印象还停留在 "小白点",但随着 iPhone 进入全面屏时代,它逐渐变得陌生。实际上,Apple 每年都会为其增添功能,方便身体有障人士使用 iPhone。而且,这些功能不仅惠及有障…...

特定任务需求场景下的过约束并联机构构型设计与控制方法【附代码】

✨ 长期致力于曲面加工、构型综合、运动学和动力学建模、性能评价、多目标优化、滑模控制、鲁棒控制、视觉传感技术研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (…...

OpenCore Legacy Patcher完全指南:3步让旧款Mac焕发新生的终极方案

OpenCore Legacy Patcher完全指南:3步让旧款Mac焕发新生的终极方案 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 你是否拥有一台性能尚可但已被…...

为什么你的DeepSeek微调loss震荡不止?(Meta/DeepSeek联合团队未公开的梯度裁剪+LoRA初始化双校准协议)

更多请点击: https://codechina.net 第一章:DeepSeek微调loss震荡的根本归因剖析 DeepSeek系列模型在微调过程中频繁出现loss剧烈震荡现象,其本质并非单一因素所致,而是数据、优化器、梯度动态与模型结构四者耦合失稳的系统性表现…...

保姆级教程:在Windows 10上用QEMU+Kylin搭建可内外网访问的完整开发环境

在Windows 10上构建QEMUKylin全功能开发环境的终极指南当开发者需要在本地快速搭建一个隔离的国产操作系统开发环境时,QEMU虚拟化方案配合银河麒麟系统能提供高度灵活的沙箱体验。本文将手把手带你完成从零配置到内外网联通的完整工作流,涵盖虚拟化环境部…...

别再死记公式了!用Python手写一个卷积层,彻底搞懂CNN里的‘卷’是怎么算的

用Python手写卷积层:从零理解CNN的"卷"运算 当你第一次看到卷积神经网络(CNN)的数学公式时,那些复杂的符号和下标是否让你望而却步?作为计算机视觉领域的基石,CNN的核心在于理解卷积运算的本质。本文将带你用NumPy从零实…...

【审计专栏】【财务领域】 第四十九篇 人在企业中的核心资产和核心利益01

编号 类型 企业 (行业/企业产品/企业利益链/生态位与层级) 业务领域 企业性质 企业中人的角色/岗位/利益矩阵 人在企业中的核心资产/附属资产 资产的业务-财务数学模型及数字/数值 关联知识 1 核心经营性资产(如IP、数据、品牌) 行业:人工智能 产品:工业视觉检…...

危急时刻的六条基本安全提示

人机协作,AI模型:Deepseek 仅供参考 危急时刻的六条基本安全提示 以下内容仅为通用性安全建议,供在紧急情况下保持冷静、保护自身安全时参考。所有建议均基于常理和公共安全常识,不包含任何具体操作细节或可能被不当使用的信息…...

简单学习 --> SSE

我们使用AI时,AI对我们说的话不会一次性把全部内容弹出来,而是会像流水一样,一点点吐出来,那么这种丝滑的交互体验,背后的核心就是 SSE (Server-Sent Events)。 什么是 SSE? SSE(Server-Sent …...

什么情况下会核销贷款

贷款核销的核心前提是:贷款被认定为 “损失类” 且经 “穷尽追偿” 仍无法收回,银行按监管与会计规则从账面冲销,但债权不消灭、仍可追偿。一、核心认定条件(满足其一即可)破产 / 注销 / 吊销:借款人和担保…...

基于SMD与贝壳的微型音频装置:从电路设计到嵌入式开发的完整实践

1. 项目概述:一个藏在贝壳里的声音世界你小时候有没有捡起一个海螺壳,把它贴在耳边,然后听到里面传来“呜呜”的海风声?那个瞬间,仿佛整个海洋都被装进了小小的贝壳里。今天这个项目,就是把那个童年的魔法&…...

DIY四路自动音频源切换器:从信号检测到继电器隔离的完整设计

1. 项目概述与核心需求解析作为一个喜欢在工作室里捣鼓各种音频设备的玩家,我经常遇到一个挺烦人的问题:我的功放只有一组输入,但我想接的设备却有好几个——台式电脑、平板、蓝牙接收模块,还有一台树莓派。每次想切换音源&#x…...

基于GSM与Arduino的远程控制系统:DIY电话控制与短信报警方案

1. 项目概述与核心价值如果你曾经想过,在离家几十公里外,仅凭一部普通的手机,就能远程打开家里的车库门、查看门窗是否关好,甚至在异常情况发生时让系统自动打电话给你报警,那么这个基于GSM的远程控制系统项目&#xf…...

对比自行维护多个 API 源,使用 Taotoken 聚合服务在运维复杂度上的降低

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 对比自行维护多个 API 源,使用 Taotoken 聚合服务在运维复杂度上的降低 在构建依赖多个大语言模型的应用时&#xff0c…...

我们公司全员把 Cursor 换成了自研的 全开源AtomCode

【引子】这是一篇实录——一位 CTO 用 28 天,用 Claude GLM 双模型调度,造出了一个让全公司放弃 Cursor 的工具。然后我意识到我们正在经历的事情,比"换工具"大得多。【读者承诺】接下来 15 分钟,你会拿到三件东西:一个真实案例(28 天 1,146 commits 是怎么做出来的…...

OmenSuperHub:基于WMI BIOS控制的高性能笔记本硬件管理方案

OmenSuperHub:基于WMI BIOS控制的高性能笔记本硬件管理方案 【免费下载链接】OmenSuperHub Control Omen laptop performance, fan speeds, and keyboard lighting, and unlock power limits. 项目地址: https://gitcode.com/gh_mirrors/om/OmenSuperHub 在惠…...

氘可来昔替尼常见副作用为鼻咽炎头痛及腹泻,如何应对?

任何口服药物的临床价值,都必须在疗效与安全性的天平上找到精准的平衡点。氘可来昔替尼以PASI 75应答率的全面胜出证明了自己在银屑病治疗中的卓越地位,而其不良反应谱同样经过了严苛的临床验证。鼻咽炎、头痛和腹泻构成了这款药物最需关注的三大安全信号…...

氘可来昔替尼常见副作用为鼻咽炎头痛及腹泻,如何应对

任何口服药物的临床价值,都必须在疗效与安全性的天平上找到精准的平衡点。氘可来昔替尼以PASI 75应答率的全面胜出证明了自己在银屑病治疗中的卓越地位,而其不良反应谱同样经过了严苛的临床验证。鼻咽炎、头痛和腹泻构成了这款药物最需关注的三大安全信号…...