当前位置：首页 > article >正文

力提示（force prompting）的新方法

article 2026/2/8 13:17:38

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

布朗大学与DeepMind的研究团队最近展示了一项名为“力提示（force prompting）”的新方法，该方法允许生成式视频模型在无需依赖3D建模或物理引擎的情况下，通过模拟“力”的作用来生成逼真的视频运动效果。

所谓“力提示”，即研究人员通过人工设定方向与强度的力向量，引导AI生成运动。模型可以处理两种类型的力：一种是作用于整个场景的“全局力”（如风），另一种是针对特定点的“局部力”（如轻敲物体）。这些力被表示为向量场，并被直接输入至视频生成系统，从而转化为自然的运动表现。

本研究基于CogVideoX-5B-I2V视频模型，并整合了ControlNet模块以处理物理控制信号，整个系统以Transformer架构为基础，可生成每段49帧的视频。训练仅耗时一天，使用了四张Nvidia A100显卡。

在训练阶段，研究人员采用了完全合成的数据集：包括1.5万段不同风速下旗帜飘动的视频，用于训练对全局风力的响应；1.2万段滚球视频和1.1万段花朵因撞击而晃动的视频，则用于训练局部力的处理。每个训练样本都包括文本提示、初始图像和一个代表力的向量场（或移动信号），这些三维模拟力被投影到二维图像坐标中。研究人员还对背景、光照、摄像机角度和力的方向进行随机化，增强模型泛化能力。

尽管数据量有限，模型依然展现出较强的泛化能力。例如，它能分辨轻物体比重物体更易被推动，还能识别满的洗衣篮比空的移动得慢。这种“直觉物理”（intuitive physics）能力是在没有真实物理模拟的条件下学到的。

在人类主观评估中，“力提示”方法优于文本描述或运动路径控制等传统方式，甚至在运动匹配度与现实感方面超过了使用真实物理模拟的PhysDreamer模型（尽管后者图像质量更高）。消融实验进一步显示，训练数据的多样性对于模型识别力的方位与强度至关重要。若缺乏多样背景或文本中缺少与物理相关的词汇，模型表现显著下降。

值得注意的是，模型将物体视为整体单位：即使只是某个部位受力，整个物体都会运动。同时，模型还能够在生成视频过程中保留原图中的风格特征，如光照和景深。

不过研究人员也指出，该方法并不能完全替代高精度物理仿真。在复杂场景中，模型有时仍会出错，比如烟雾忽略风的作用，或人体手臂像布一样摆动。然而，作为一种高效手段，“力提示”为AI生成视频注入了具有物理可信度的动态表现。

DeepMind首席执行官Demis Hassabis近期也强调，像Veo 3这样的AI视频模型正在逐步理解物理规律。他认为，这是AI从图像处理迈向对世界物理结构建模的重要一步，也将推动更具通用性AI系统的发展，使其能通过模拟环境中的经验学习，而不再仅仅依赖于静态数据。

力提示（force prompting）的新方法

相关文章：

力提示（force prompting）的新方法

【Redis实战：缓存与消息队列的应用】

实验设计与分析（第6版，Montgomery著，傅珏生译) 第10章拟合回归模型10.9节思考题10.12 R语言解题

基于LangChain构建高效RAG问答系统：向量检索与LLM集成实战

告别局域网：实现NASCab云可云远程自由访问

25_05_29docker

Java-IO流之缓冲流详解

vscode code runner 使用python虚拟环境

Python实现markdown文件转word

NLP学习路线图（十七）：主题模型（LDA）

深度学习之模型压缩三驾马车：基于ResNet18的模型剪枝实战（2）

综采工作面电控4X型铜头连接器 conm/4x100s

用ApiFox MCP一键生成接口文档，做接口测试

在compose中的Canvas用kotlin显示多数据波形闪烁的问题

【学习笔记】MIME

【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析

单北斗定位芯片AT9880B

旅游微信小程序制作指南

Ubuntu ifconfig 查不到ens33网卡

zookeeper 学习

【python深度学习】Day 45 Tensorboard使用介绍

【图像处理入门】5. 形态学处理：腐蚀、膨胀与图像的形状雕琢

并行智算MaaS云平台：打造你的专属AI助手，开启智能生活新纪元

在 SpringBoot+Tomcat 环境中线程安全问题的根本原因以及哪些变量会存在线程安全的问题。

Day45 Python打卡训练营

2025年目前最新版本Android Studio自定义xml预览的屏幕分辨率

黑马Java面试笔记之并发编程篇（线程池+使用场景）

float和float32有什么区别

【AI学习】KV-cache和page attention

七彩喜智慧养老平台：科技赋能下的市场蓝海，满足多样化养老服务需求