当前位置: 首页 > article >正文

力提示(force prompting)的新方法

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

布朗大学与DeepMind的研究团队最近展示了一项名为“力提示(force prompting)”的新方法,该方法允许生成式视频模型在无需依赖3D建模或物理引擎的情况下,通过模拟“力”的作用来生成逼真的视频运动效果。

所谓“力提示”,即研究人员通过人工设定方向与强度的力向量,引导AI生成运动。模型可以处理两种类型的力:一种是作用于整个场景的“全局力”(如风),另一种是针对特定点的“局部力”(如轻敲物体)。这些力被表示为向量场,并被直接输入至视频生成系统,从而转化为自然的运动表现。

本研究基于CogVideoX-5B-I2V视频模型,并整合了ControlNet模块以处理物理控制信号,整个系统以Transformer架构为基础,可生成每段49帧的视频。训练仅耗时一天,使用了四张Nvidia A100显卡。

在训练阶段,研究人员采用了完全合成的数据集:包括1.5万段不同风速下旗帜飘动的视频,用于训练对全局风力的响应;1.2万段滚球视频和1.1万段花朵因撞击而晃动的视频,则用于训练局部力的处理。每个训练样本都包括文本提示、初始图像和一个代表力的向量场(或移动信号),这些三维模拟力被投影到二维图像坐标中。研究人员还对背景、光照、摄像机角度和力的方向进行随机化,增强模型泛化能力。

尽管数据量有限,模型依然展现出较强的泛化能力。例如,它能分辨轻物体比重物体更易被推动,还能识别满的洗衣篮比空的移动得慢。这种“直觉物理”(intuitive physics)能力是在没有真实物理模拟的条件下学到的。

在人类主观评估中,“力提示”方法优于文本描述或运动路径控制等传统方式,甚至在运动匹配度与现实感方面超过了使用真实物理模拟的PhysDreamer模型(尽管后者图像质量更高)。消融实验进一步显示,训练数据的多样性对于模型识别力的方位与强度至关重要。若缺乏多样背景或文本中缺少与物理相关的词汇,模型表现显著下降。

值得注意的是,模型将物体视为整体单位:即使只是某个部位受力,整个物体都会运动。同时,模型还能够在生成视频过程中保留原图中的风格特征,如光照和景深。

不过研究人员也指出,该方法并不能完全替代高精度物理仿真。在复杂场景中,模型有时仍会出错,比如烟雾忽略风的作用,或人体手臂像布一样摆动。然而,作为一种高效手段,“力提示”为AI生成视频注入了具有物理可信度的动态表现。

DeepMind首席执行官Demis Hassabis近期也强调,像Veo 3这样的AI视频模型正在逐步理解物理规律。他认为,这是AI从图像处理迈向对世界物理结构建模的重要一步,也将推动更具通用性AI系统的发展,使其能通过模拟环境中的经验学习,而不再仅仅依赖于静态数据。

相关文章:

力提示(force prompting)的新方法

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

【Redis实战:缓存与消息队列的应用】

在现代互联网开发中,Redis 作为一款高性能的内存数据库,广泛应用于缓存和消息队列等场景。本文将深入探讨 Redis 在这两个领域的应用,并通过代码示例比较两个流行的框架(Redis 和 RabbitMQ)的特点与适用场景&#xff0…...

实验设计与分析(第6版,Montgomery著,傅珏生译) 第10章拟合回归模型10.9节思考题10.12 R语言解题

本文是实验设计与分析&#xff08;第6版&#xff0c;Montgomery著&#xff0c;傅珏生译) 第10章拟合回归模型10.9节思考题10.12 R语言解题。主要涉及线性回归、回归的显著性、残差分析。 10-12 vial <- seq(1, 12, 1) Viscosity <- c(26,24,175,160,163,55,62,100,26,30…...

基于LangChain构建高效RAG问答系统:向量检索与LLM集成实战

基于LangChain构建高效RAG问答系统&#xff1a;向量检索与LLM集成实战 在本文中&#xff0c;我将详细介绍如何使用LangChain框架构建一个完整的RAG&#xff08;检索增强生成&#xff09;问答系统。通过向量检索获取相关上下文&#xff0c;并结合大语言模型&#xff0c;我们能够…...

告别局域网:实现NASCab云可云远程自由访问

文章目录 前言1. 检查NASCab本地端口2. Qindows安装Cpolar3. 配置NASCab远程地址4. 远程访问NASCab小结 5. 固定NASCab公网地址6. 固定地址访问NASCab 前言 在数字化生活日益普及的今天&#xff0c;拥有一个属于自己的私有云存储&#xff08;如NASCab云可云&#xff09;已成为…...

25_05_29docker

Linux_docker篇 欢迎来到Linux的世界&#xff0c;看笔记好好学多敲多打&#xff0c;每个人都是大神&#xff01; 题目&#xff1a; 版本号: 1.0,0 作者: 老王要学习 日期: 2025.04.25 适用环境: Centos7 文档说明 环境准备 硬件要求 服务器&#xff1a; 2核CPU、2GB内存…...

Java-IO流之缓冲流详解

Java-IO流之缓冲流详解 一、缓冲流概述1.1 什么是缓冲流1.2 缓冲流的工作原理1.3 缓冲流的优势 二、字节缓冲流详解2.1 BufferedInputStream2.1.1 构造函数2.1.2 核心方法2.1.3 使用示例 2.2 BufferedOutputStream2.2.1 构造函数2.2.2 核心方法2.2.3 使用示例 三、字符缓冲流详…...

vscode code runner 使用python虚拟环境

转载如下&#xff1a; z​​​​​​​VS Code插件Code Runner使用python虚拟环境_coderunner python-CSDN博客...

Python实现markdown文件转word

1.markdown内容如下&#xff1a; 2.转换后的内容如下&#xff1a; 3.附上代码&#xff1a; import argparse import os from markdown import markdown from bs4 import BeautifulSoup from docx import Document from docx.shared import Inches from docx.enum.text import …...

NLP学习路线图(十七):主题模型(LDA)

在浩瀚的文本海洋中航行&#xff0c;人类大脑天然具备发现主题的能力——翻阅几份报纸&#xff0c;我们迅速辨别出"政治"、"体育"、"科技"等板块&#xff1b;浏览社交媒体&#xff0c;我们下意识区分出美食分享、旅行见闻或科技测评。但机器如何…...

深度学习之模型压缩三驾马车:基于ResNet18的模型剪枝实战(2)

前言 《深度学习之模型压缩三驾马车&#xff1a;基于ResNet18的模型剪枝实战&#xff08;1&#xff09;》里面我只是提到了对conv1层进行剪枝&#xff0c;只是为了验证这个剪枝的整个过程&#xff0c;但是后面也有提到&#xff1a;仅裁剪 conv1层的影响极大&#xff0c;原因如…...

综采工作面电控4X型铜头连接器 conm/4x100s

综采工作面作为现代化煤矿生产的核心区域&#xff0c;其设备运行的稳定性和安全性直接关系到整个矿井的生产效率。在综采工作面的电气控制系统中&#xff0c;电控连接器扮演着至关重要的角色&#xff0c;而4X型铜头连接器CONM/4X100S作为其中的关键部件&#xff0c;其性能优劣直…...

用ApiFox MCP一键生成接口文档,做接口测试

日常开发过程中&#xff0c;尤其是针对长期维护的老旧项目&#xff0c;许多开发者都会遇到一系列相同的困扰&#xff1a;由于项目早期缺乏严格的开发规范和接口管理策略&#xff0c;导致接口文档缺失&#xff0c;甚至连基本的接口说明都难以找到。此外&#xff0c;由于缺乏规范…...

在compose中的Canvas用kotlin显示多数据波形闪烁的问题

在compose中的Canvas显示多数据波形闪烁的问题&#xff1a;当在Canvas多组记录波形数组时&#xff0c;从第一组开始记录多次显示&#xff0c;如图&#xff0c;当再次回到第一次记录位置再显示时&#xff0c;波形出现闪烁。 原码如下&#xff1a; data class DcWaveForm(var b…...

【学习笔记】MIME

文章目录 1. 引言2. MIME 构成Content-Type&#xff08;内容类型&#xff09;Content-Transfer-Encoding&#xff08;传输编码&#xff09;Multipart&#xff08;多部分&#xff09; 3. 常见 MIME 类型 1. 引言 早期的电子邮件只能发送 ASCII 文本&#xff0c;无法直接传输二进…...

【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析

1. 元器件定义与核心特性 OPA855QDSGRQ1 是德州仪器&#xff08;TI&#xff09;推出的一款 汽车级高速运算放大器&#xff0c;专为宽带跨阻放大&#xff08;TIA&#xff09;和电压放大应用优化。核心特性包括&#xff1a; 超高速性能&#xff1a;增益带宽积&#xff08;GBWP&a…...

单北斗定位芯片AT9880B

AT9880B 是面向北斗卫星导航系统的单模接收机单芯片&#xff08;SOC&#xff09;&#xff0c;内部集成射频前端、数字基带处理单元、北斗多频信号处理引擎及电源管理模块&#xff0c;支持北斗二号与三号系统的 B1I、B1C、B2I、B3I、B2a、B2b 频点信号接收。 主要特征 支持北斗二…...

旅游微信小程序制作指南

想创建旅游微信小程序吗&#xff1f;知道旅游业企业怎么打造自己的小程序吗&#xff1f;这里有零基础小白也能学会的教程&#xff0c;教你快速制作旅游类微信小程序&#xff01; 旅游行业能不能开发微信小程序呢&#xff1f;答案是肯定的。微信小程序对旅游企业来说可是个宝&am…...

Ubuntu ifconfig 查不到ens33网卡

BUG&#xff1a;ifconfig查看网络配置信息&#xff1a; 终端输入以下命令&#xff1a; sudo service network-manager stop sudo rm /var/lib/NetworkManager/NetworkManager.state sudo service network-manager start - service network - manager stop &#xff1a;停止…...

zookeeper 学习

Zookeeper 简介 github&#xff1a;https://github.com/apache/zookeeper 官网&#xff1a;https://zookeeper.apache.org/ 什么是 Zookeeper Zookeeper 是一个开源的分布式协调服务&#xff0c;用于管理分布式应用程序的配置、命名服务、分布式同步和组服务。其核心是通过…...

【python深度学习】Day 45 Tensorboard使用介绍

知识点&#xff1a; tensorboard的发展历史和原理tensorboard的常见操作tensorboard在cifar上的实战&#xff1a;MLP和CNN模型 效果展示如下&#xff0c;很适合拿去组会汇报撑页数&#xff1a; 作业&#xff1a;对resnet18在cifar10上采用微调策略下&#xff0c;用tensorboard监…...

【图像处理入门】5. 形态学处理:腐蚀、膨胀与图像的形状雕琢

摘要 形态学处理是基于图像形状特征的处理技术,在图像分析中扮演着关键角色。本文将深入讲解腐蚀、膨胀、开闭运算等形态学操作的原理,结合OpenCV代码展示其在去除噪声、提取边缘、分割图像等场景的应用,带你掌握通过结构元素雕琢图像形状的核心技巧。 一、形态学处理:基…...

并行智算MaaS云平台:打造你的专属AI助手,开启智能生活新纪元

目录 引言&#xff1a;AI助手&#xff0c;未来生活的必备伙伴 并行智算云&#xff1a;大模型API的卓越平台 实战指南&#xff1a;调用并行智算云API打造个人AI助手 3.1 准备工作 3.2 API调用示例 3.3 本地智能AI系统搭建 3.4 高级功能实现 并行智算云的优势 4.1 性能卓越…...

在 SpringBoot+Tomcat 环境中 线程安全问题的根本原因以及哪些变量会存在线程安全的问题。

文章目录 前言Tomcat SpringBoot单例加载结果分析多例加载&#xff1a;结果分析&#xff1a; 哪些变量存在线程安全的问题&#xff1f;线程不安全线程安全 总结 前言 本文带你去深入理解为什么在web环境中(Tomcat SpringBoot)会存在多线程的问题以及哪些变量会存在线程安全的…...

Day45 Python打卡训练营

知识点回顾&#xff1a; 1. tensorboard的发展历史和原理 2. tensorboard的常见操作 3. tensorboard在cifar上的实战&#xff1a;MLP和CNN模型 一、tensorboard的基本操作 1.1 发展历史 TensorBoard 是 TensorFlow 生态中的官方可视化工具&#xff08;也可无缝集成 PyTorch&…...

2025年目前最新版本Android Studio自定义xml预览的屏幕分辨率

一、前言 在实际开发项目当中&#xff0c;我们的设备的分辨率可能会比较特殊&#xff0c;AS并没有自带这种屏幕分辨率的设备&#xff0c;但是我们又想一边编写XML界面&#xff0c;一边实时看到较为真实的预览效果&#xff0c;该怎么办呢&#xff1f;在早期的AS版本中&#xff…...

黑马Java面试笔记之 并发编程篇(线程池+使用场景)

一. 线程池的核心参数&#xff08;线程池的执行原理&#xff09; 线程池核心参数主要参考ThreadPoolExecutor这个类的7个参数的构造函数 corePoolSize 核心线程数目 maximumPoolSize 最大线程数目 (核心线程救急线程的最大数目) keepAliveTime 生存时间 - 救急线程的生存时…...

float和float32有什么区别

这是一个非常重要但容易混淆的问题。我们来一步一步讲清楚&#xff1a; ✅ 简答&#xff1a;float 和 float32 的区别 项目float&#xff08;通用名称&#xff09;float32&#xff08;精确定义&#xff09;含义通常指“浮点数”&#xff0c;具体精度由语言/平台决定明确指 32 …...

【AI学习】KV-cache和page attention

目录 带着问题学AI KV-cache KV-cache是什么&#xff1f; 之前每个token生成的K V矩阵给缓存起来有什么用&#xff1f; 为啥缓存K、V,没有缓存Q? KV-cache为啥在训练阶段不需要&#xff0c;只在推理阶段需要&#xff1f; KV cache的过程图解 阶段一&#xff1a;KV cac…...

七彩喜智慧养老平台:科技赋能下的市场蓝海,满足多样化养老服务需求

在人口老龄化加速与科技快速发展的双重驱动下&#xff0c;七彩喜智慧养老平台正成为破解养老服务供需矛盾、激活银发经济的核心引擎。 这一领域依托物联网、人工智能、大数据等技术&#xff0c;构建起覆盖居家、社区、机构的多层次服务体系。 既满足老年人多样化需求&#xf…...