当前位置: 首页 > article >正文

生成式AI助力无线视觉系统透视遮挡物体技术突破

麻省理工学院的研究人员经过十多年的研究开发出了一套能够让机器人通过透视障碍物来发现和操作隐藏物体的技术。该技术利用能够穿透表面的无线信号这些信号会从隐藏的物体上反射回来。现在研究人员正在利用生成式人工智能模型来克服长期以来限制先前方法精度的瓶颈。这一新方法能够产生更精确的形状重建从而提高机器人可靠抓取和操作被遮挡物体的能力。这项新技术通过反射的无线信号构建隐藏物体的部分重建图像然后使用专门训练的生成式AI模型来填补其形状的缺失部分。研究人员还推出了一个扩展系统该系统使用生成式AI准确重建整个房间包括所有家具。该系统利用从一个固定雷达发送的无线信号这些信号会从在空间中移动的人体上反射。这克服了许多现有方法的一个关键挑战即需要将无线传感器安装在移动机器人上来扫描环境。与一些流行的基于摄像头的技术不同他们的方法保护了环境中人员的隐私。这些创新可以让仓库机器人在发货前验证包装物品消除产品退货造成的浪费。它们还可以让智能家居机器人了解某人在房间中的位置提高人机交互的安全性和效率。我们现在所做的是开发了生成式AI模型帮助我们理解无线反射。这开启了许多有趣的新应用但从技术上讲这也是能力的质的飞跃从能够填补我们之前无法看到的空白到能够解释反射并重建整个场景电气工程和计算机科学系副教授、麻省理工学院媒体实验室信号动力学小组主任、这些技术两篇论文的资深作者Fadel Adib说。我们正在使用AI来最终解锁无线视觉。克服镜面反射难题Adib团队此前已经演示了使用毫米波信号来创建被隐藏的3D物体的精确重建比如埋在一堆物品下面的丢失钱包。这些波长与Wi-Fi中使用的信号类型相同可以穿过干式墙、塑料和纸板等常见障碍物并从隐藏物体上反射。但毫米波通常以镜面反射的方式反射这意味着波在撞击表面后会向单一方向反射。因此表面的大部分区域会将信号反射到远离毫米波传感器的地方使这些区域实际上变得不可见。当我们想要重建一个物体时我们只能看到顶部表面无法看到底部或侧面Dodds解释说。研究人员之前使用物理原理来解释反射信号但这限制了重建3D形状的准确性。在新论文中他们通过使用生成式AI模型来填补部分重建中缺失的部分从而克服了这一局限性。但挑战在于如何训练这些模型来填补这些空白Adib说。通常研究人员使用极大的数据集来训练生成式AI模型这是像Claude和Llama等模型表现如此出色的原因之一。但没有足够大的毫米波数据集可用于训练。相反研究人员调整了大型计算机视觉数据集中的图像以模拟毫米波反射的特性。我们模拟了镜面反射的特性和从这些反射中获得的噪声这样我们就可以将现有数据集应用到我们的领域。收集足够的新数据来做这件事可能需要数年时间Lam说。研究人员将毫米波反射的物理特性直接嵌入到这些调整后的数据中创建了一个合成数据集用于教授生成式AI模型执行合理的形状重建。完整的系统名为Wave-Former它基于毫米波反射提出一组潜在的物体表面将它们输入生成式AI模型以完成形状然后细化表面直到实现完整重建。Wave-Former能够生成约70个日常物体的忠实重建如罐子、盒子、餐具和水果比最先进的基线方法提高了近20%的准确率。这些物体被隐藏在纸板、木材、干式墙、塑料和织物后面或下面。识别幽灵信号团队使用相同的方法构建了一个扩展系统该系统通过利用房间中移动人体的毫米波反射来完全重建整个室内场景。人体运动产生多径反射。一些毫米波从人体反射然后再次从墙壁或物体反射最后回到传感器Dodds解释说。这些二次反射产生所谓的幽灵信号即原始信号的反射副本随着人的移动而改变位置。这些幽灵信号通常被当作噪声丢弃但它们也包含有关房间布局的信息。通过分析这些反射随时间的变化我们可以开始对周围环境有一个粗略的理解。但试图直接解释这些信号在准确性和分辨率方面会受到限制Dodds说。他们使用类似的训练方法来教授生成式AI模型解释这些粗略的场景重建并理解多径毫米波反射的行为。该模型填补空白细化初始重建直到完成场景。他们使用100多个由单个毫米波雷达捕获的人体轨迹测试了他们的场景重建系统RISE。平均而言RISE生成的重建比现有技术精确约两倍。未来研究人员希望提高重建的粒度和细节。他们还希望为无线信号构建大型基础模型就像GPT、Claude和Gemini为语言和视觉构建的基础模型一样这可能会开启新的应用。这项工作得到了美国国家科学基金会、麻省理工学院媒体实验室和亚马逊的部分支持。QAQ1Wave-Former系统是什么它如何工作AWave-Former是麻省理工学院开发的无线视觉系统能够通过毫米波信号透视遮挡物来重建隐藏物体。它首先基于毫米波反射提出潜在物体表面然后使用生成式AI模型完成形状重建最后细化表面直到实现完整重建准确率比现有方法提高近20%。Q2毫米波信号为什么能透过障碍物看到隐藏物体A毫米波信号与Wi-Fi使用的信号类型相同具有穿透干式墙、塑料和纸板等常见障碍物的能力并能从隐藏物体表面反射回来。研究人员通过分析这些反射信号的特征结合生成式AI模型来重建被遮挡物体的完整3D形状。Q3RISE系统如何重建整个房间场景ARISE系统利用人体在房间中移动时产生的多径毫米波反射来重建室内场景。当毫米波从人体反射后再次从墙壁或物体反射回传感器时会产生幽灵信号。系统通过分析这些信号随时间的变化模式使用生成式AI模型理解房间布局并完成场景重建。

相关文章:

生成式AI助力无线视觉系统透视遮挡物体技术突破

麻省理工学院的研究人员经过十多年的研究,开发出了一套能够让机器人通过"透视"障碍物来发现和操作隐藏物体的技术。该技术利用能够穿透表面的无线信号,这些信号会从隐藏的物体上反射回来。现在,研究人员正在利用生成式人工智能模型…...

深入解析Java中的hashCode与equals方法:从理论到应用

在Java编程中,hashCode()和equals()方法是非常重要的,它们被广泛应用于对象比较和哈希表等数据结构中。这两个方法之间存在着紧密的联系,了解它们的工作原理和用法对于掌握Java编程至关重要。01重要方法概述◉ hashCode与equals简介在Java编程…...

利用快马平台快速构建openclaw安卓自动化工具原型

最近在尝试做一个安卓端的自动化工具,类似openclaw这样的应用。我的想法是,先快速做出一个能验证核心概念的原型,看看功能逻辑是否跑得通,而不是一开始就陷入复杂的架构和UI细节里。这个过程,我用到了一个非常顺手的在…...

**发散创新:用函数式思维重构不可变设施的配置管理**在现代分布式系统中,**不可变基础设施

发散创新:用函数式思维重构不可变设施的配置管理 在现代分布式系统中,不可变基础设施(Immutable Infrastructure) 已成为云原生架构的核心实践之一。它强调通过版本化、自动化的方式部署和更新环境,避免手动修改运行中…...

Nanbeige 4.1-3B 嵌入式开发辅助:基于STM32项目生成C语言驱动代码

Nanbeige 4.1-3B 嵌入式开发辅助:基于STM32项目生成C语言驱动代码 你是不是也经历过这样的时刻?面对一块崭新的STM32开发板,想要接上一个I2C温湿度传感器,却不得不花上半天甚至一天的时间,去翻阅数据手册、查找HAL库函…...

SVG格式转换全攻略:从基础操作到自动化流程

SVG格式转换全攻略:从基础操作到自动化流程 【免费下载链接】logos A huge collection of SVG logos 项目地址: https://gitcode.com/gh_mirrors/lo/logos 在数字设计与开发领域,SVG(可缩放矢量图形)凭借其无限缩放不失真的…...

SiamRPN++实战:用ResNet-50打造高精度目标跟踪器(附代码详解)

SiamRPN实战:用ResNet-50打造高精度目标跟踪器(附代码详解) 在计算机视觉领域,目标跟踪技术正经历着从传统方法到深度学习驱动的革命性转变。当我们面对复杂场景中的快速运动目标、遮挡干扰或光照变化时,基于深度学习的…...

# 发散创新:用TensorFlow构建动态图神经网络实现社交关系预测在深度学习飞速发展的今天

发散创新:用TensorFlow构建动态图神经网络实现社交关系预测 在深度学习飞速发展的今天,TensorFlow 不仅是模型训练的利器,更是复杂数据结构建模的强大工具。本文将带你深入一个前沿方向——基于动态图神经网络(Dynamic GNN&#x…...

GanttProject 项目管理神器:5步告别混乱,让团队协作效率提升300%

GanttProject 项目管理神器:5步告别混乱,让团队协作效率提升300% 【免费下载链接】ganttproject Official GanttProject repository 项目地址: https://gitcode.com/gh_mirrors/ga/ganttproject 你是否曾为项目管理中的这些痛点而烦恼&#xff1f…...

Matlab综合能源系统优化代码:光热电站与ORC建模求解及9节点电网等多网仿真分析

Matlab综合能源系统优化代码 考虑光热电站(CSP电站)和ORC的综合能源系统优化的建模求解 程序中包含了新能源发电、ORC循环等,以运行成本、碳排放成本、弃风弃光惩罚成本等为目标函数,基于9节点电网、6节点气网、8节点热网、4节点冷…...

智能编码伙伴:如何用快马AI增强你的Texstudio写作体验与问题解决能力

作为一名长期使用LaTeX撰写技术文档的用户,我深刻体会到在Texstudio中遇到复杂排版需求时的困扰。最近尝试了InsCode(快马)平台的AI辅助功能,发现它能显著提升LaTeX写作效率。以下是我的真实使用场景记录: 神经网络绘图方案选择 当需要绘制CN…...

基于MATLAB的储能优化配置策略应对风电并网调峰需求与灵活性供需不确定性挑战

MATLAB代码:考虑灵活性供需不确定性的储能参与电网调峰优化配置 关键词:储能优化配置 电网调峰 风电场景生成 灵活性供需不确定性 参考文档:《考虑灵活性供需不确定性的储能优化配置》复现其上层模型,下层模型未实现 仿真平台&am…...

LongCat-Image-Edit在Java开发中的应用:动物形象智能生成系统

LongCat-Image-Edit在Java开发中的应用:动物形象智能生成系统 1. 引言 游戏开发者和动漫设计师们经常面临一个共同的挑战:如何快速生成多样化、高质量的动物角色形象?传统的手工设计方式不仅耗时耗力,而且很难保证创意的新颖性和…...

新手必看!PyTorch-2.x-Universal-Dev-v1.0快速上手指南,从安装到运行

新手必看!PyTorch-2.x-Universal-Dev-v1.0快速上手指南,从安装到运行 1. 引言:为什么选择这个镜像? 如果你正在寻找一个开箱即用的PyTorch开发环境,PyTorch-2.x-Universal-Dev-v1.0镜像可能是你的理想选择。这个镜像…...

Win11安装必备:绕过TPM校验的3种方法(含最新2023实测有效方案)

Win11安装实战指南:无TPM设备的三种系统部署方案 每次Windows重大版本更新都会引发硬件兼容性讨论,Win11的TPM 2.0要求让许多性能完好的老设备陷入尴尬境地。作为长期从事系统部署的技术顾问,我见证了从最初修改注册表到如今成熟的绕过方案演…...

Depth Anything V2环境配置避坑指南:从numpy版本到xFormers适配全解析

Depth Anything V2环境配置避坑指南:从numpy版本到xFormers适配全解析 最近在配置Depth Anything V2环境时,我发现不少开发者都在重复踩同样的坑。作为一个刚趟过这趟浑水的人,我想分享一些实战经验,帮助大家少走弯路。Depth Anyt…...

【Dify生产环境Rerank避坑白皮书】:92%开发者忽略的reranker_model配置陷阱及3步热修复法

第一章:Dify生产环境Rerank报错的典型现象与影响评估在Dify v0.12.0生产部署中,Rerank模块(尤其启用BGE-Reranker或Cohere Rerank API时)频繁出现HTTP 500或超时中断,伴随日志中重复输出rerank_service: failed to cal…...

UM2 3D 打印机 DIY 进阶:LCD12864 显示驱动与固件优化全攻略

1. LCD12864 显示屏基础认知与选型指南 第一次接触UM2 3D打印机DIY时,我被这块巴掌大的液晶屏难住了。LCD12864看似简单,实际藏着不少门道。市面上常见的两种控制器板——RepRapDiscount Full Graphic Smart Controller和RepRapDiscount Smart Controlle…...

Linux 的 chroot 命令

Linux 的 chroot 命令详解 基本概念 chroot(Change Root)是 Linux 系统中的一个重要命令,用于将当前进程及其子进程的根目录更改为指定的目录。这个命令名称来源于"change root directory"的缩写。 工作原理 当执行 chroot 命令…...

手把手重构你的评估流水线:用Dify替代人工标注——3天上线、误差率↓68%、ROI 23.7倍的实战路径

第一章:手把手重构你的评估流水线:用Dify替代人工标注——3天上线、误差率↓68%、ROI 23.7倍的实战路径传统NLP评估依赖人工标注,平均耗时14人日/任务,单次标注一致性仅72.3%,且难以复现。我们通过将人工标注流水线迁移…...

【Frida Android】实战篇:Java层Hook进阶——拦截与篡改普通方法参数

1. 从基础到进阶:为什么需要拦截方法参数? 在之前的Frida基础教程中,我们已经学会了如何Hook普通方法并修改其返回值。但实际逆向工程中,仅仅修改返回值往往不够——我们需要更深入地干预方法的执行流程,而拦截并篡改方…...

Mermaid Subgraph避坑指南:如何避免在绘制流程图时常见的布局混乱问题

Mermaid Subgraph避坑指南:如何避免在绘制流程图时常见的布局混乱问题 在技术文档和系统架构设计中,流程图是传达复杂逻辑关系的利器。而Mermaid作为一款基于文本的图表工具,因其易用性和版本控制的友好性,已成为开发者绘制流程图…...

JetBrains Mono终极开发者字体:七年技术演进与完整功能解析

JetBrains Mono终极开发者字体:七年技术演进与完整功能解析 【免费下载链接】JetBrainsMono JetBrains Mono – the free and open-source typeface for developers 项目地址: https://gitcode.com/gh_mirrors/je/JetBrainsMono 你是否曾在深夜调试代码时&am…...

Python基于vue的建筑企业员工考勤信息管理系统的设计与开发

目录技术选型与架构设计核心功能模块划分开发阶段规划测试与部署关键注意事项项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作技术选型与架构设计 后端采用Python的Django或Flask框架,提供…...

API认证机制全解析:从概念到实践的进阶指南

API认证机制全解析:从概念到实践的进阶指南 【免费下载链接】public-api-lists A collective list of free APIs for use in software and web development 🚀 (Clone of https://github.com/public-apis/public-apis) 项目地址: https://gitcode.com/…...

Linux下用tc命令配置CBS流量整形:从参数计算到实战避坑

Linux CBS流量整形实战指南:从参数计算到工业场景优化 在工业自动化、音视频传输等对网络确定性要求极高的场景中,传统的"尽力而为"网络模型已无法满足需求。时间敏感网络(TSN)技术栈中的信用整形器(CBS)成为解决这一挑战的核心工具。本文将深…...

nodejs+vue基于springboot高校教务管理系统

目录技术栈选择系统架构设计数据库设计功能模块划分接口规范定义前端实现方案后端实现方案系统集成测试部署运维方案安全防护措施性能优化策略项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作技术栈选择…...

SpectFormer: 融合频域与注意力机制的视觉Transformer新架构

1. SpectFormer:当频域分析遇上注意力机制 第一次看到SpectFormer这个架构时,我正被一个图像分类项目困扰——传统视觉Transformer在细粒度分类任务上总是差那么点意思。直到在arXiv上翻到这篇论文,才发现原来把傅里叶变换和注意力机制"…...

星闪开发进阶之CMake与Ninja构建问题精解

1. 星闪开发中的CMake与Ninja构建系统概述 在星闪开发过程中,CMake和Ninja作为构建系统的核心组件,承担着项目配置和高效编译的重要角色。CMake是一个跨平台的自动化构建系统,它使用名为CMakeLists.txt的配置文件来控制软件编译过程。而Ninja…...

高品质资源集合:涵盖SAR ADC电路、以太网及PLL电路设计文档与仿真资源

一个10bit SAR ADC电路,有200多页详细的设计和仿真文档,附带对应的gpdk045工艺,testbench都有,可直接导入virtuoso仿真 另外还有以太网,PLL等电路的例程,以及一些进阶的ADC 在gpdk045工艺上折腾10bit SAR A…...