当前位置: 首页 > article >正文

FAST: Efficient Action Tokenization for Vision-Language-Action Models

FAST: Efficient Action Tokenization for Vision-Language-Action ModelsFAST高效机器人动作分词方法详解1. 核心背景为什么要提出 FAST2. FAST 技术流水线 (Pipeline)3. 具体数学公式推导(1) 频域转换 (DCT)(2) 量化与稀疏化(3) BPE 序列化4. FAST实验结果FAST 方法的表现稳定性 (依据论文 Figure 3)5. FAST 的主要优势原文链接FAST高效机器人动作分词方法详解FAST(Frequency-space Action Sequence Tokenization) 是由 Physical Intelligence 团队提出的一种针对 VLA视觉-语言-动作模型的新型分词方案。它通过将动作序列从时域转换到频域解决了自回归模型在处理高频、精细机器人动作时的效率与精度瓶颈。1. 核心背景为什么要提出 FAST在传统的自回归 VLA 模型如 OpenVLA 或 RT-2中通常使用**简单分箱Naive Binning**方案将每个维度的连续值直接离散化为 256 个桶。痛点在高频控制如 50Hz下相邻时间步的动作极度相似。自回归模型预测时容易陷入“直接复制上一个动作”的局部最优解导致无法学会捏取、折叠等复杂的精细动作。解决方案借鉴 JPEG 图像压缩原理利用动作序列在时间上的冗余性将其压缩为信息密度极高的频域 Token。2. FAST 技术流水线 (Pipeline)FAST 将一段动作块Action Chunk转化为 Token 的具体步骤如下归一化 (Normalization)使用 1% 到 99% 分位数将原始动作数值映射到[ − 1 , 1 ] [-1, 1][−1,1]之间消除不同机器人量纲和离群点的影响。离散余弦变换 (DCT)对每个动作维度的序列单独进行 DCT 变换。由于自然动作通常是平滑的变换后能量会高度集中在低频系数上。量化 (Quantization)引入缩放因子γ \gammaγ超参数将连续的频域系数乘以γ \gammaγ后取整。此步会使大量不重要的高频系数直接变为 0。频率优先展平 (Frequency-first Flattening)按照“先所有维度的低频再所有维度的高频”顺序将矩阵展平。这让模型在预测时优先决定动作的整体轮廓。BPE 压缩 (Byte Pair Encoding)使用 NLP 中常用的 BPE 算法将经常出现的整数序列如连续的 0合并为单个 Token进一步提升压缩率。3. 具体数学公式推导假设动作序列长度为H HH如 1 秒钟内包含 50 个步长动作维度为D DD。(1) 频域转换 (DCT)频域转换的核心思想是与其描述每一毫秒手在哪不如描述这个动作的“成分”是什么。为什么要转换时域的烦恼想象你要教一个机器人**“伸手抓杯子”**这个动作持续 1 秒钟。在电脑里这个动作被切成了 50 份50Hz第 1 毫秒手在 10.0cm 处第 2 毫秒手在 10.1cm 处第 3 毫秒手在 10.2cm 处我们可以把任何一个平滑的动作拆解成不同“速度”的波动组合低频成分动作的大轮廓 “手整体向前移动了 20 厘米。”这是动作的基调中频成分动作的微调 “在移动过程中手腕稍微旋转了 30 度。”这是动作的细节高频成分动作的抖动 “手指尖有 0.1 毫米的细微颤动。”这是动作的噪声DCT离散余弦变换干的活就是 把那 50 个极其相似的坐标点变成 50 个描述成分的系数。频域转换DCT是基于傅里叶变换的一个分支。傅里叶提出任何一段信号比如机器人的手臂移动轨迹都可以看作是许多个不同频率的简谐波波浪线叠加而成的。在处理图像和动作这种“一段一段”的数据时**余弦变换DCT**比普通的傅里叶变换更有效。公式推导计算当前的动作序列 at与某个标准余弦波的“相似度”。对于第i ii个维度的动作序列a 1 : H i [ a 1 i , a 2 i , … , a H i ] a^i_{1:H} [a^i_1, a^i_2, \dots, a^i_H]a1:Hi​[a1i​,a2i​,…,aHi​]其第j jj个 DCT 系数C j i C^i_jCji​的计算公式为C j i w j ∑ t 1 H a t i cos ⁡ ( π ( 2 t − 1 ) ( j − 1 ) 2 H ) , j 1 , … , H C^i_j w_j \sum_{t1}^{H} a^i_t \cos \left( \frac{\pi (2t-1)(j-1)}{2H} \right), \quad j1, \dots, HCji​wj​t1∑H​ati​cos(2Hπ(2t−1)(j−1)​),j1,…,H其中权重系数w j w_jwj​定义为w j { 1 H , j 1 2 H , j 1 w_j \begin{cases} \sqrt{\frac{1}{H}}, j1 \\ \sqrt{\frac{2}{H}}, j 1 \end{cases}wj​⎩⎨⎧​H1​​,H2​​,​j1j1​频率项 (j−1):当j1 时cos(0)1。这计算的是动作的平均值直流分量。随着j 增大波变得越来越快频率越来越高。采样项 (2t−1) 和分母 2H这是为了确保波在 H 个点内正好完成半个或整数个周期。(2t−1) 是一个数学上的偏移确保采样点刚好落在每一小段动作的“中心”避免计算偏差。累加 ∑把动作序列里的每个点和余弦波上的对应点相乘再加起来。物理意义 如果动作的走势和这个波的走势非常接近加出来的结果系数 Cj就会很大如果不像结果就会接近 0。这个系数 wj是为了满足正交性。简单来说 转换前后的总能量数字的大小规模必须保持一致。它确保了你把动作变到频域、再变回时域后数值不会莫名其妙地变大或变小。(2) 量化与稀疏化利用缩放因子γ \gammaγ对连续系数进行离散化生成整数序列C ˉ j i round ( γ ⋅ C j i ) \bar{C}^i_j \text{round}(\gamma \cdot C^i_j)Cˉji​round(γ⋅Cji​)推导意义经过取整后大部分代表噪声或微小抖动的高频系数会变为0 00从而实现极大的有损压缩。(3) BPE 序列化将序列中出现频率较高的词汇打包成新的tokenFAST自己训练的BPE模型将量化后的矩阵C ˉ \bar{C}Cˉ按照频率优先顺序排成一维整数序列T TTT [ C ˉ 1 1 , C ˉ 1 2 , … , C ˉ 1 D , … , C ˉ H 1 , … , C ˉ H D ] T [\bar{C}^1_1, \bar{C}^2_1, \dots, \bar{C}^D_1, \dots, \bar{C}^1_H, \dots, \bar{C}^D_H]T[Cˉ11​,Cˉ12​,…,Cˉ1D​,…,CˉH1​,…,CˉHD​]最后通过预训练好的 BPE 映射函数ϕ \phiϕ得到最终发送给模型的 TokenTokens BPE ( T , ϕ ) \text{Tokens} \text{BPE}(T, \phi)TokensBPE(T,ϕ)4. FAST实验结果任务名称环境控制频率核心挑战在 FAST 论文中的意义数据集内容LIBERO模拟器10 Hz任务切换基础性能评估验证模型在标准仿真环境下的稳定性。包含一系列厨房场景的操作。例如把锅盖盖上、把物体放进碗里、把碗放进柜子等。DROID真实世界15 Hz场景多样性测试通用性与零样本Zero-shot能力看模型能否在陌生环境下工作。它不是单一的任务而是包含了成千上万种日常操作开关抽屉、擦桌子、拿杯子等由全球多个实验室合作完成。TABLE BUSSING真实世界20 Hz分类与精度测试逻辑推理餐具 vs 垃圾与真实物理操作的结合。机器人需要清理一张杂乱的餐桌。它必须区分什么是“垃圾”丢进垃圾桶什么是“餐具”丢进洗碗盆。T-SHIRT FOLDING真实世界50 Hz高频冗余核心突破点证明在高频、高冗余任务下必须使用频域压缩才能实现有效训练。机器人从平铺状态开始将一件 T 恤衫对折好。在高自由度上取得不错的效果例如T-SHIRT FOLDING其他任务上基本与π0相当但也有些任务不如π0并不是所有任务碾压级的存在。FAST 方法的表现稳定性 (依据论文 Figure 3)在模拟插值任务的实验中作者对比了不同频率下的重建误差频率范围 (Sampling Frequency)传统方法 (Naive Binning) 表现FAST (DCT) 方法表现0 Hz 到 800 Hz误差随频率升高大幅飙升 (10 − 1 → 10 0 10^{-1} \to 10^010−1→100)L2 误差始终稳定在10 − 2 10^{-2}10−2到10 − 3 10^{-3}10−3水平抗高频干扰能力极强传统分词方法在频率升高时会迅速失效因为 Token 间相关性太强而 FAST 凭借 DCT 变换成功提取了核心频率成分。重建精度极高10 − 3 10^{-3}10−3级别的误差意味着在物理执行中重建动作与原始动作的偏差仅为总量程的千分之一例如1 米的量程内误差仅为 1 毫米这种误差对机器人操作而言是微不可察且极其丝滑的。总结特性原始π 0 \pi_0π0​(Black et al.)π 0 \pi_0π0​-FAST (Pertsch et al.)生成机制流匹配 (Flow Matching / Diffusion)自回归 (Autoregressive)动作表示连续数值 (Continuous)频域压缩 Token (FAST Tokens)训练计算量高 (1.0x 基准)极低 (0.2x / 5倍加速)收敛速度较慢极快推理延迟约 100ms (快)约 750ms (较慢)5. FAST 的主要优势极高的压缩率在 50Hz 控制频率下Token 数量比传统分箱方法减少了13.2 倍。训练大幅提速在相同任务性能下训练速度比 Diffusion版本的模型快5 倍。精细动作增强摆脱了时域上的高度冗余使模型能够关注真正重要的动作变化从而学会折衣服、组装纸箱等复杂任务。通用分词器 (FAST)作者发布了基于 100 万条真实机器人轨迹预训练的通用分词器支持单臂、双臂、移动底盘等多种形态。

相关文章:

FAST: Efficient Action Tokenization for Vision-Language-Action Models

FAST: Efficient Action Tokenization for Vision-Language-Action ModelsFAST:高效机器人动作分词方法详解1. 核心背景:为什么要提出 FAST?2. FAST 技术流水线 (Pipeline)3. 具体数学公式推导(1) 频域转换 (DCT)(2) 量化与稀疏化(3) BPE 序列…...

CSS如何控制全屏显示的元素样式

全屏元素应设display: block或flex、position: fixed并绑定top/left/width/height,:fullscreen中显式声明box-sizing: border-box,移动端优先用webkit-playsinline模拟全屏。全屏元素的display和position怎么设才不“飘”全屏显示的元素(比如…...

文墨共鸣:如何用AI理解文字“意思”而不仅仅是“文字”?

文墨共鸣:如何用AI理解文字“意思”而不仅仅是“文字”? 你有没有遇到过这样的情况?两段文字,用词完全不同,但说的却是同一个意思。或者反过来,字面看起来差不多,但想表达的核心观点天差地别。…...

嵌入式状态机(FSM)深度思考与架构实践

# 1. 前言在早期的嵌入式开发中,我对状态机的理解仅停留在“使用 switch-case 进行条件跳转”,没有去思考过状态机的本质是什么。今天重新整理了一下工程,从整体来看布局,又有新的不同看法与见解。状态机不仅仅是逻辑切换的工具&a…...

研发公司一物一码如何打通产品研发与渠道数字化

研发公司一物一码如何打通产品研发与渠道数字化在快消行业,产品研发、渠道动销与消费者反馈原本应该形成闭环,但多数企业现实中仍是“研发看内部数据,销售看出货数据,市场看活动数据”。当产品从立项到铺市缺少统一的数据连接&…...

权威公布!AI时代剪辑学习秘籍,效率直接拉满!

我是深圳市好青春教育的技术老师,在AI时代,很多小伙伴对学习视频剪辑存在诸多疑问和困惑。比如,学习视频剪辑难不难?需要具备哪些基础?怎样才能快速掌握剪辑技术?进入这个行业有哪些途径?又该如…...

MindSpore 环境配置完全指南仆

前面我们对 Kafka 的整体架构和一些关键的概念有了一个基本的认知,本文主要介绍 Kafka 的一些配置参数。掌握这些参数的作用对我们的运维和调优工作还是非常有帮助的。 写在前面 Kafka 作为一个成熟的事件流平台,有非常多的配置参数。详细的参数列表可以…...

HTML 页面中精准控制 Chrome 翻译功能的实用技巧

1. 为什么需要控制Chrome翻译功能? 作为网页开发者,你可能遇到过这样的场景:用户使用Chrome浏览器的翻译功能时,页面上的品牌名称、专业术语或代码片段被错误翻译,导致内容失真。比如公司名称"Apple"被翻译成…...

OFA模型与Python集成实战:构建智能图片问答系统

OFA模型与Python集成实战:构建智能图片问答系统 用最简单的方式,让AI看懂你的图片并回答任何问题 1. 引言:当AI有了"眼睛"和"大脑" 想象一下这样的场景:你拍了一张街景照片,AI不仅能识别出图中的…...

MySQL超详细安装教程(保姆级)

1.官网下载mysql安装包 MySQL :: 下载MySQL社区服务器https://dev.mysql.com/downloads/mysql/ 2.下载完成后解压到一个文件夹 注意:不带中文 这个路径要记住,我们等下会用到 3.添加环境变量 环境变量里面有很多选项,这里我们只用到Path这…...

OpenClaw+Qwen3-14B科研助手:文献自动归档与摘要生成

OpenClawQwen3-14B科研助手:文献自动归档与摘要生成 1. 为什么需要自动化文献管理 去年写毕业论文时,我的Zotero里堆了487篇PDF文献。每天手动整理文献、标注关键词、写摘要要花2小时,最崩溃的是明明读过某篇文献,需要引用时却找…...

Android Camera开发避坑指南:HAL3与MediaCodec整合的那些坑

Android Camera开发避坑指南:HAL3与MediaCodec整合的那些坑 在移动设备的多媒体开发中,Camera HAL3与MediaCodec的整合堪称"地狱级"难度。我曾在一个旗舰机项目中,因为这两个模块的配合问题导致视频录制帧率从30fps暴跌到12fps&…...

OpenClaw隐私计算:Phi-3-mini-128k-instruct本地处理加密医疗笔记

OpenClaw隐私计算:Phi-3-mini-128k-instruct本地处理加密医疗笔记 1. 为什么需要本地化医疗数据处理 去年我参与了一个医疗数据分析项目,客户特别强调数据不能离开本地环境。他们需要处理大量患者就诊记录,但传统方式要么需要人工脱敏&…...

【2025 最新版】Hugging Face 下载命令全教程(hf download 替代旧版,亲测有效)

前言近期许多用户发现网上旧版的 Hugging Face 下载教程已完全失效! 旧命令 huggingface-cli download 频繁出现报错或无法执行,核心原因是 huggingface-hub 库已完成重大更新,官方统一采用 hf 作为新命令行入口,替代了老旧的 hug…...

DAMO-YOLO多尺度检测优化:小目标检测性能提升方案

DAMO-YOLO多尺度检测优化:小目标检测性能提升方案 无人机航拍场景下的小目标检测一直是计算机视觉领域的难点,DAMO-YOLO通过特征金字塔改进、anchor调整和智能数据增强等技术,为这一挑战提供了实用解决方案。 1. 小目标检测的挑战与DAMO-YOLO…...

PCA vs PCoA vs NMDS vs LDA vs t-SNE:5种降维方法的核心差异与应用场景解析

1. 降维方法的基本概念与核心价值 当你面对一个包含数百个特征的数据集时,就像站在一个装满各种调料的厨房里——每个瓶子看起来都很重要,但真正做菜时可能只需要其中几种。这就是降维技术的用武之地,它能帮我们从高维数据的"调料架&quo…...

GLM-4.1V-9B-Base实战案例:会议纪要截图→待办事项→中文结构化提取

GLM-4.1V-9B-Base实战案例:会议纪要截图→待办事项→中文结构化提取 1. 项目背景与需求 在日常工作中,我们经常需要处理各种会议纪要截图。这些图片通常包含大量文字信息,需要人工整理成结构化待办事项。传统方法需要手动输入或复制粘贴&am…...

Clawdbot+Qwen3:32B快速上手:免开发Web界面搭建私有ChatGPT

ClawdbotQwen3:32B快速上手:免开发Web界面搭建私有ChatGPT 1. 为什么选择这个方案? 你是否遇到过这些困扰: 想使用强大的Qwen3:32B大模型,但本地硬件资源不足希望拥有一个美观易用的Web界面,但不想从头开发需要确保…...

如何突破八大网盘限速:终极直链解析下载方案

如何突破八大网盘限速:终极直链解析下载方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

蓝桥杯双阶乘解答

题目:代码:import java.math.BigInteger;import java.util.Scanner;// 1:无需package// 2: 类名必须Main, 不可修改public class Main {public static void main(String[] args) {Scanner scan new Scanner(System.in);//在此输入您的代码...BigInteger…...

APK安全加固公司怎么选?2026年技术实力与选型决策指南

作为移动端安全负责人,当你面对市场上众多APK安全加固服务商时,最头疼的往往不是找不到公司,而是如何从技术方案、成功案例、价格体系等多维度中,筛选出真正能防住破解、保障上架、并且符合合规要求的那一家。选错公司的代价不仅是…...

Hotkey Detective:三分钟定位Windows热键冲突的智能侦探

Hotkey Detective:三分钟定位Windows热键冲突的智能侦探 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 当你在…...

Rust 异步 ORM 新选择:Toasty 初探

Rust 异步 ORM 新选择:Toasty 初探 2026年4月,Rust 生态迎来了一款新异步 ORM 框架 Toasty。为什么它如此收到 Rust 开发者的广泛关注呢?因为它是来自于鼎鼎大名的 Tokio 团队,该团队研发的 tokio(异步运行时&#xf…...

Ollama一键部署【书生·浦语】internlm2-chat-1.8b:镜像免配置实操手册

Ollama一键部署【书生浦语】internlm2-chat-1.8b:镜像免配置实操手册 想体验一个轻量又好用的中文对话模型吗?今天给大家介绍一个超级简单的部署方法,让你在几分钟内就能用上【书生浦语】的 internlm2-chat-1.8b 模型。这个模型只有18亿参数…...

Adafruit MPR121电容触摸库深度解析与嵌入式集成指南

1. 项目概述Adafruit MPR121 是一款专为 Adafruit 官方 MPR121 电容式触摸传感器模块设计的 Arduino 兼容库,面向嵌入式硬件工程师与固件开发者提供稳定、可复用的底层驱动能力。该库并非通用型 MPR121 封装,而是深度适配 Adafruit 自研硬件(…...

Windows下OpenClaw避坑指南:Qwen3.5-9B镜像对接全记录

Windows下OpenClaw避坑指南:Qwen3.5-9B镜像对接全记录 1. 为什么选择WindowsOpenClaw组合 作为一个长期在Windows环境下工作的开发者,我一直在寻找能够提升本地自动化效率的工具。OpenClaw的出现让我眼前一亮——它不像那些需要复杂配置的企业级系统&a…...

Chord视频理解工具开源可部署:支持国产昇腾/寒武纪平台适配路线

Chord视频理解工具开源可部署:支持国产昇腾/寒武纪平台适配路线 1. 引言:让AI看懂视频,本地部署更安心 你有没有遇到过这样的场景?手头有一段视频,想快速知道里面发生了什么,或者想精准找出某个特定的人或…...

XUnity.AutoTranslator:Unity游戏翻译终极指南,5分钟实现游戏汉化

XUnity.AutoTranslator:Unity游戏翻译终极指南,5分钟实现游戏汉化 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator XUnity.AutoTranslator 是一款专为Unity游戏设计的实时翻译插件&…...

通义千问3-4B模型语义搜索优化:ES插件集成部署实战

通义千问3-4B模型语义搜索优化:ES插件集成部署实战 1. 引言:为什么需要语义搜索优化 传统的搜索引擎主要依赖关键词匹配,当你搜索"苹果"时,它可能返回水果苹果、苹果公司、甚至人名苹果的各种结果。而语义搜索能理解你…...

从Java转行大模型应用,Python + LangChain + 大模型 + Streamlit 生成简历与智能分析实战

这是一个开箱即用、完整可运行的实战项目,实现两大核心功能: AI 智能生成简历(基于个人信息自动生成专业简历)简历智能分析 可视化(评分、关键词匹配、优势 / 短板分析、图表展示) 技术栈: …...