当前位置: 首页 > article >正文

AI视频“入驻”手机,多模态成智能终端的新战场

文|乐乐

今天,无线蓝牙耳机(TWS)已经成为人人都用得起的产品。

但退回到9年前,苹果AirPods是全球第一款真正意义上的无线蓝牙耳机。靠着自研并申请专利的Snoop监听技术,苹果解决了蓝牙耳机左右延时和能耗不一的问题。由此,AirPods吃下了2016-2018年的大部分市场,直到两年后其它厂商才学会类似技术。

靠技术红利获胜,是苹果的经典操作,也是今天的手机厂商们在苹果身上学到的重要一课。

对于近两年的手机市场来说,AI无疑就是搅动手机市场的关键技术变量。

为了找到AI技术落地的杀手级功能,从Agent、AI修图到AI问答,智能终端在做的事情就是在AI生态上尽可能做各种各样的加法。

在高度同质化的AI手机赛道,手机厂商们亟需找到创新的AI技术落地功能。而荣耀,正在悄悄拿下多个首发优势。

在近期荣耀400的发布会现场,图生视频成了荣耀“吃螃蟹”的又一首发功能,这背后是合作方生数科技旗下的AI视频大模型在移动端的首次规模化落地。

联手生数科技Vidu,荣耀突破了三大难关——保持风格一致性、对物理世界的理解、端侧成本压缩,让用户免费体验“老照片复活术”。

而就在两个月前,生数科技 Vidu Q1模型刚以VBench双榜第一的成绩碾压Sora与Runway,如今就悄然钻进千万用户的口袋。

这场合作背后,一场更深层的变革正在发酵。

当前,多模态正在重构智能终端的交互体验,手机正成为图生视频技术普惠的战场之一。当大模型的技术竞赛从语言模型延伸到多模态,“让记忆重获生命”的图生视频,或许正是打开大众市场的第一把钥匙。

当图生视频在手机上跑起来

一张由AI制作的“Live Photo”,成为了荣耀发布会现场众人讨论的焦点。

照片中,一个小孩抱着窗帘看向镜头微笑。经由图生视频功能加工后,小孩抓着窗帘向一边摇晃,头部也随着晃动方向微微倾斜,脸上挂着的笑容变成了动态,能看到嘴角咧起的弧度和鼓起的脸颊。

在荣耀产品线总裁方飞的演示中,只需要点击“AI生图”功能,选定相应照片和生成的视频时长(3秒/5秒),AI就能根据图片场景生成一段流畅的视频。上述案例就是由该功能生成。

早在3月宣布向AI终端生态公司转型的荣耀,在数字系列荣耀400上落地了一系列AI能力。光是照片一项,荣耀就上线了AI图生视频、AI去褶皱、AI去眼镜反光、AI去玻璃反光、图生视频等优化功能。

看起来简单的视频演示,背后是图生视频技术落地智能终端的一大步:攻克了技术难点,才能让AI视频看起来无限趋近于真实。

首先,要想让视频动起来的效果符合真实世界的运行规律,就是视频生成模型们早期的通病。比如提示词设定成两个人打羽毛球,交给AI来做,球可能会出现凭空飞起或者不按照球拍击打轨迹飞行等问题,导致生成出来的作品无法使用。

当下,如何更好地模拟物理世界规律,也成了大模型们面前的难关。就在3月份,生数科技发布的模型Vidu Q1,在VBench-1.0的视频质量、视频语义一致性和 VBench-2.0的常识推理、物理理解等综合维度上达到SOTA水平。靠着对提示词的理解力增强,Vidu能自动识别人物动作、光影、位置关系等内容,让生成的视频在动态上符合物理世界规律。

此外,在风格一致性上,擅长动漫、水墨等多种画风理解的Vidu,在保持原图风格一致上的表现相对稳定。相比于会把真实图片上传后随机转换成油画、动漫等风格的视频生成模型,Vidu显然在场景理解上的表现更胜一筹。

不过,要想让AI视频真正普及,还需要考虑的就是生成速度和成本问题。等待时间超过几分钟,用户体验感会直线下滑,成本太高也会拖垮手机厂商的钱包。

而荣耀和生数科技一起克服了这几个问题,把图生视频玩法搬上了手机。相对于各大视频应用靠会员制收费,荣耀的图生视频功能完全免费,让用户不花钱也能体验。

虽然这次并未公布具体的生成时长和成本,但根据此前Vidu 1.5版本做到几秒生成、Vidu 2.0单秒成本最低不到3毛钱的价格来看,AI视频已经具备了落地端侧的条件。

除此之外,AI视频大模型的技术一直在进步,未来或将在手机等智能终端中实现更多的功能。

比如,AI视频一直存在一个技术难点——主体一致性。主体一致性,是指保持人物、物体、环境等主体一致,不会面部五官乱飞,环境前后连贯

2024年,生数科技在新模型Vidu 1.5中实现多主体一致性,使用者可以上传背景和多个主体人物的照片,AI就能将这些自定义元素组合在一起,根据提示词生成视频。

以多主体一致性来说,海螺AI的“主体参考”功能和可灵的“多图参考”均在今年1月上线,比Vidu慢了2个月。

多模态,智能终端的新战场

多模态大模型,最近半年内正在肉眼可见的批量落地。

在App端,字节在5月23日给自家AI助手应用豆包装上了视频通话功能。背靠自研的视频推理模型,豆包不仅能“睁眼看世界”,还能根据看到的画面推测接下来的动作,比如炒菜的时候,豆包能够根据原料猜出对应的菜,并且给出炒菜的具体步骤。

腾讯则在5月份发布了语音模型Human-Voice,并预告腾讯元宝将会在6月上线语音通话功能。同时,腾讯还会上线全球首个全模态模型“混元-O”。

在智能终端上,本身通过GUI(图形用户界面)实现交互的手机厂商们,就是多模态大模型的重要载体。

可以说,从这一轮生成式AI开始时,多模态AI就被厂商纳入了考虑范围。只是一开始在技术能力受限的情况下,大语言模型成为了端侧大模型落地最早的一种。

多模态模型在端测的应用更广,场景更多,不仅可以为以往场景赋能,还能有新的互动体验场景,受众范围也会更广,因为视频图像的受众总是大于文字的。

随着多模态能力的技术进步,端侧语音和视频交互的比重正在上升。

比如,一些在端侧运行的大语言模型逐渐被多模态大模型代替,相应应用的底座也升级为多模态:

2024年1月,荣耀发布自研端侧70亿参数平台级AI大模型“魔法大模型”家族,包括语言大模型和图像、语音多模态大模型,支持智慧成片、图库语义搜索等功能,让AI能够“理解”图片;在购物、娱乐、办公等场景,开启跨时代交互体验。2024年5月,vivo发布多模态大模型技术应用“vivo看见-蓝心升级版”,用于帮助视障用户理解世界。

伴随行业多模态能力的突破,以往受限于能力不足的AI应用,也迎来了能力突破。

其中,最突出的应用领域就是Agent(智能体)。通过调用手机屏幕截图,再将图片提供给多模态大模型的方式,AI开始能够真正“理解”屏幕信息,并根据用户指令工作。这就有了去年以荣耀为首等一系列手机厂商开卷智能体的动作,从荣耀的YoYo智能体到vivo蓝心智能体再到OPPO的“AI问屏”,都是基于多模态能力实现的自主智能体产品。

基于多模态能力的AI修图系列功能,也是应用更加广泛的方向。早在2010年,手机厂商就开始探索基于图像理解的AI摄影算法,通过对图片的理解,用算法还原图片生成的细节。

而在生成式AI能力进化的当下,基于多模态大模型的一系列图片优化功能也是厂商重点宣传的方向。从各大手机厂商必备的一键修图、图片识别等功能,都是基于人们日常生活中的需求出发。

这一次,荣耀也在发布会上带来了AI修图带来的更多可能性。比如用AI实现“一键抠图”,让没有PS功底的用户也能轻松从图片中抠出人像,自由移动编辑;再比如“AI消除眼镜反光”的功能,通过AI消除掉拍照时眼镜折射的色彩。

在智能终端需求和多模态能力普及的当下,二者一拍即合。

AI功能那么多,能用起来的有几个?

从大模型火热以来,手机厂商对AI的热情无比高涨,开发的功能也是多如牛毛。

从对话式聊天助手、AI笔记、AI修图到AI智能体,不上十几个原生的AI应用,那都没法叫AI手机。

图片来源于网络

不过,用户真正能日常使用起来的高频应用,并不多。很多AI功能,要么是独立APP上有更好的替代品,要么就是功能鸡肋用不起来。

另一方面,不少AI应用目前的使用门槛还比较高,一个是对用户的硬件环境有要求,需要PC端至少4090的显卡才能跑起来;另一个是对用户的技能有一定要求,下载、简单部署、甚至海外账号的设置都能拦截掉一大批人。

以上面提到的图生视频来说,虽然可灵、海螺的产品比较成熟,有了很高的可用性,但用户也仅仅局限于相对专业的用户范围内,比如设计师、动画制作师、新媒体从业者等,普通用户想自己用起来还非常难。

但荣耀和生数科技Vidu共同在端侧新推出的图生视频功能,无论是用来将过往的老照片变成视频,还是靠图生视频抓住鲜活的时刻,就又给用户记录生活,创作灵感增添了许多可能。

而一张照片的视频生成,只是一个开始。

智能终端与AI公司联手后,参考生视频、文生视频等AI视频的更多玩法,都有望进一步迁移到智能终端中。

当然,这将进一步考验双方端侧AI、云端协同的技术能力,成本降低的能力。但真正能让用户用起来,才能真正增强产品的竞争力,在手机竞争的红海中逆势上升。

2024年,手机市场变化已经证明了AI对于手机销量的促进作用。在全球手机销量连续下滑两年后,于AI概念真正落地手机的2024年,全球已经连续4个季度实现了同比增长。市场调研机构Canalys提供数据显示,2024年全球手机销量达到12.2亿,同比增长7%。

比起在技术层的炫技,今年,AI在端侧的落地将给人带来更多惊喜。

相关文章:

AI视频“入驻”手机,多模态成智能终端的新战场

文|乐乐 今天,无线蓝牙耳机(TWS)已经成为人人都用得起的产品。 但退回到9年前,苹果AirPods是全球第一款真正意义上的无线蓝牙耳机。靠着自研并申请专利的Snoop监听技术,苹果解决了蓝牙耳机左右延时和能耗…...

nginx+tomcat负载均衡群集

一 案例部署Tomcat 目录 一 案例部署Tomcat 1.案例概述 1.1案例前置知识点 (1)Tomcat简介 (2)应用场景 2.实施准备 (1)关闭Linux防火墙 (2)安装Java 2.1 安装配置TOMACT …...

DEEPSEEK帮写的STM32消息流函数,直接可用.已经测试

#include "main.h" #include "MessageBuffer.h"static RingBuffer msgQueue {0};// 初始化队列 void InitQueue(void) {msgQueue.head 0;msgQueue.tail 0;msgQueue.count 0; }// 检查队列状态 type_usart_queue_status GetQueueStatus(void) {if (msgQ…...

day45 python预训练模型

目录 知识点回顾 1. 预训练的概念 2. 常见的分类预训练模型 3. 图像预训练模型的发展史 4. 预训练的策略 5. 预训练代码实战:ResNet18 作业:在 CIFAR-10 上对比 AlexNet 预训练模型 实验结果对比 在深度学习领域,预训练模型已经成为了…...

二维 根据矩阵变换计算缩放比例

在二维空间中,根据矩阵变换计算缩放比例是一个常见的图形学问题。通常,我们通过分析变换矩阵的结构来提取出缩放(Scale)信息。以下是详细的分析和计算方法。 🧮 一、基础:二维变换矩阵结构 在二维仿射变换…...

Vue-Cropper:全面掌握图片裁剪组件

Vue-Cropper 完全学习指南:Vue图片裁剪组件 🎯 什么是 Vue-Cropper? Vue-Cropper 是一个简单易用的Vue图片裁剪组件,支持Vue2和Vue3。它提供了丰富的配置选项和回调方法,可以满足各种图片裁剪需求。 🌟 …...

建造者模式:优雅构建复杂对象

引言 在软件开发中,有时我们需要创建一个由多个部分组成的复杂对象,这些部分可能有不同的变体或配置。如果直接在一个构造函数中设置所有参数,代码会变得难以阅读和维护。当对象构建过程复杂,且需要多个步骤时,我们可…...

现场总线结构在楼宇自控系统中的技术要求与实施要点分析

在建筑智能化程度不断提升的当下,楼宇自控系统承担着协调建筑内各类设备高效运行的重任。传统的集中式控制系统在面对复杂建筑环境时,逐渐暴露出布线繁琐、扩展性差、可靠性低等问题。而现场总线结构凭借其分散控制、通信高效等特性,成为楼宇…...

Axure组件即拖即用:垂直折叠菜单(动态展开/收回交互)

亲爱的小伙伴,在您浏览之前,请关注一下,在此深表感谢!如有帮助请订阅专栏!免费哦! 你是不是也这样崩溃过? 明明设置了点击交互,菜单却像死机一样纹丝不动,F5按烂了都没反…...

学习路之PHP--easyswoole使用视图和模板

学习路之PHP--easyswoole使用视图和模板 一、安装依赖插件二、 实现渲染引擎三、注册渲染引擎四、测试调用写的模板五、优化六、最后补充 一、安装依赖插件 composer require easyswoole/template:1.1.* composer require topthink/think-template相关版本: "…...

《云原生安全攻防》-- K8s网络策略:通过NetworkPolicy实现微隔离

默认情况下,K8s集群的网络是没有任何限制的,所有的Pod之间都可以相互访问。这就意味着,一旦攻击者入侵了某个Pod,就能够访问到集群中任意Pod,存在比较大的安全风险。 在本节课程中,我们将详细介绍如何通过N…...

06 APP 自动化- H5 元素定位

文章目录 H5 元素定位1、APP 分类2、H5 元素3、H5 元素定位环境的搭建4、代码实现: H5 元素定位 1、APP 分类 1、Android 原生 APP2、混合 APP(Android 原生控件H5页面)3、纯 H5 App 2、H5 元素 H5 元素容器 WebViewWebView 控件实现展示网页 3、H5 元素定位环…...

Axure疑难杂症:中继器新增数据时如何上传并存储图片(玩转中继器)

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 案例视频: 中继器新增数据时如何上传并存储图片 课程主题:中继器新增数据时如何上传并存储图片 主…...

定时线程池失效问题引发的思考

最近在做的一个新功能,在结果探测的时候使用了定时线程池和普通线程池结合,定时线程池周期性创建子任务并往普通线程池提交任务。 问题: 在昨天测试老师发现,业务实际上已经成功了,但是页面还是一直显示进行中。 收到…...

Vue-ref 与 props

一、前言 在 Vue 的组件化开发中,父子组件之间的数据传递 是一个非常核心的需求。常见的场景包括: 父组件向子组件传递数据;子组件向父组件发送事件或数据;父组件直接调用子组件的方法或访问其属性。 Vue 提供了多种机制来实现…...

AXURE安装+汉化-Windows

安装网站:https://www.axure.com/release-history/rp9 Axure中文汉化包下载地址 链接:https://pan.baidu.com/s/1U62Azk8lkRPBqWAcrJMFew?pwd5418 提取码:5418 下载完成之后,crtlc lang文件夹 到下载的Axure路径下 双击点进这个目录里面。ctrlv把lan…...

ArcGIS Pro字段计算器与计算几何不可用,显示灰色

“字段计算器”不可用 如果计算字段命令不可用,请考虑以下可能性: 由 ArcGIS 管理的字段无法手动编辑。因此,无法计算 ObjectID(OID 或 FID)字段或地理数据库要素类的 Shape_Length 和 Shape_Area 字段的字段值。表中…...

mac电脑安装 nvm 报错如何解决

前言 已知:安装nvm成功;终端输入nvm -v 有版本返回 1. 启动全局配置环境变量失败 source ~/.zshrc~ 返回: source: no such file or directory: /Users/你的用户名/.zshrc~2 安装node失败 nvm install 16.13返回: mkdir: /U…...

第11节 Node.js 模块系统

为了让Node.js的文件可以相互调用,Node.js提供了一个简单的模块系统。 模块是Node.js 应用程序的基本组成部分,文件和模块是一一对应的。换言之,一个 Node.js 文件就是一个模块,这个文件可能是JavaScript 代码、JSON 或者编译过的…...

上海工作机会:Technical Writer Senior Technical Writer - 中微半导体设备

大名鼎鼎的中微半导体招聘文档工程师了,就是那家由中国半导体产业的领军人物尹志尧领导的、全员持股的公司。如果你还不了解他,赶快Deepseek一下“尹志尧”了解。 招聘职位:Technical Writer & Senior Technical Writer 公司名称&#…...

String 学习总结

1. 存储机制 短字符串优化(SSO, Small String Optimization) 现代标准库中的字符串实现普遍采用 SSO 技术,将长度较短(例如 ≤15 字节)的字符串数据直接存储在字符串对象内部的固定缓冲区(栈上)…...

Python微积分可视化:从导数到积分的交互式教学工具

Python微积分可视化:从导数到积分的交互式教学工具 一、引言 微积分是理解自然科学的基础,但抽象的导数、积分概念常让初学者感到困惑。本文基于Matplotlib开发一套微积分可视化工具,通过动态图像直观展示导数的几何意义、积分的近似计算及跨学科应用,帮助读者建立"数…...

Juce实现Table自定义

Juce实现Table自定义 一.总体展示概及概述 在项目中Juce中TableList往往无法满足用户需求,头部和背景及背景颜色设置以及在Cell中添加自定义按钮,所以需要自己实现自定义TabelList,该示例是展示实现自定义TableList,实现自定义标…...

【25.06】fabric进行caliper测试加环境部署

前置条件 安装一个Ubuntu20+的镜像 基础环境安装 Git cURL vim jq sudo apt install -y git curl vim jq Docker和Docker-compose 这个命令会自动安装docker sudo apt install docker-compose sudo chmod +x /usr/bin/docker-compose docker versiondocker-compose vers…...

【后端高阶面经:架构篇】51、搜索引擎架构与排序算法:面试关键知识点全解析

一、搜索引擎核心基石:倒排索引技术深度解析 (一)倒排索引的本质与构建流程 倒排索引(Inverted Index)是搜索引擎实现快速检索的核心数据结构,与传统数据库的正向索引(文档→关键词&#xff0…...

Windows应用-音视频捕获

下载“Windows应用-音视频捕获”项目 本应用可以同时捕获4个视频源和4个音频源,可以监视视频源图像,监听音频源;可以将视频源图像写入MP4文件,将音频源写入MP3或WAV文件;还可以录制系统播放的声音。本应用使用MFC对话框…...

【OCCT+ImGUI系列】012-Geom2d_AxisPlacement

Geom2d_AxisPlacement 教学笔记 一、类概述 Geom2d_AxisPlacement 表示二维几何空间中的一个坐标轴(轴系),由两部分组成: gp_Pnt2d:原点(Location)gp_Dir2d:单位方向向量&#xff…...

优化WP外贸建站提升用户体验

WordPress作为一个强大的建站工具,通过合理的优化,可以提升用户体验,吸引更多潜在客户。本文将为您介绍一些优化WordPress外贸建站的实用建议。 1. 响应式设计 随着移动设备的普及,确保您的WordPress网站具有响应式设计变得至关…...

【C++高并发内存池篇】性能卷王养成记:C++ 定长内存池,让内存分配快到飞起!

📝本篇摘要 在本篇将介绍C定长内存池的概念及实现问题,引入内存池技术,通过实现一个简单的定长内存池部分,体会奥妙所在,进而为之后实现整体的内存池做铺垫! 🏠欢迎拜访🏠&#xff…...

mac下通过anaconda安装Python

本次分享mac下通过anaconda安装Python、Jupyter Notebook、R。 anaconda安装 点击👉https://www.anaconda.com/download, 点击Mac系统安装包, 选择Mac芯片:苹果芯片 or intel芯片, 选择苹果芯片图形界面安装&#x…...