AR界安卓在中国,Rokid引爆空间计算狂潮
击关注
文丨刘雨琦
你可能很难想象,在一个没有显示屏也没有鼠标的空间,仅凭一副AR眼镜和一台口袋主机,就能完成一篇5000字的文章。
没错,8月26日,在2023 Rokid Jungle 新品发布会现场,这样的场景正在真实发生着。会上,Rokid 发布了消费级OST(光学透视)个人空间计算平台 Rokid AR Studio,包括Rokid Max Pro(售价4999元)和Rokid Station Pro(售价3999元)两大硬件产品
Rokid创始人、CEO祝铭明在发布会上表示:“让空间计算能更自然地融入日常生活和工作,让Rokid AR Studio成为你的第一台空间计算机。”
这和以往人们对AR眼镜的认知有很大不同。在此之前,AR眼镜一直被“锁死”在娱乐场景中,靠影视和游戏两大支柱产业生存,而Rokid AR Studio 真正成为了个人生产力工具,IM软件、写文章、写代码,搜索信息等等工作场景,都能通过最新的硬件完成。
使用场景的扩展,让AR设备从边缘化的场景中,转向更为实际的使用价值。消费者愿意买单,整个AR产业链才会进入消费级市场正循环。
说自己是个“社恐”的老板祝铭明,是个十足的产品和技术控,他在内部曾毙掉两版产品设计初稿,差点把产品部“逼疯”。可当最后产品部偷偷拿出设计好的产品时,祝铭明立刻下令资源都倾斜到这个产品上。“我只关心一个数据,就是用户使用时长。目前,我们的真实用户使用时长已经接近一个半小时,周留存率超过20%。做到这个,用户会自然增长。”
用户数积累达到百万级别,也意味着,AR行业进入了软件系统和生态建设的第二阶段。近年来,已经有越来越多的系统厂商、应用软件厂商、内容厂商加入到AR生态建设中来。
“一群疯子,一个梦想,十年光阴。”
正如祝铭明所言,从娱乐场景到生产力工具,Rokid用了10年,这背后不只是思考的跃进,更是从硬件技术到软件技术,乃至整个产业链向前迈的一大步。苹果和Rokid开启了AR竞赛第二阶段,行业比拼也正在加速。
01 单目SLAM,怎么重新定义交互?
在整场发布会中,最令人意外的,不是Rokid Max Pro 76g的机身,而是只有一颗摄像头,竟然能完成SLAM(空间定位技术)、微手势交互、第一视角分享、视觉定位VPS能力等多种融合型的交互方式。
AR/VR设备在经历了物理交互(手柄)、语音交互、手势交互后,正在往眼球追踪和现在的多感知融合交互方案发展。
但多感知融合的交互,对于硬件的要求更高,除了要满足基本的需求,更要全方位、多角度的捕捉到用户动作、手势,才能精准地完成交互。
而用单颗摄像头完成SLAM交互有多难呢?
视觉SLAM方法包含两个模块,一个是Tracking,已知3D点位置,基础定位;一个是Mapping,更新3D点的位置。而无论是哪个环节哪种方法,单目意味着只能选择一种摄像头,以及固定位置和固定角度,对于识别的范围、追踪速度和精度都存在极大的挑战。
“业界都认为单目SLAM不可置信、很难做到”,祝铭明戏称,“这可能也是对Rokid的一种肯定吧”。
目前,市场上为数不多的具备空间交互的AR眼镜至少会搭载三颗摄像头,来承担算法功能。视觉路线的不同,也形成了以苹果为代表的VST(视频透视)和以Rokid为代表的OST(光学透视)两大阵营。
仍以苹果Vision Pro为例,其用12颗摄像头“堆”出了快速定位捕捉、高精度的全景感知以及精密追踪,并通过VST的方式,将外部的世界通过摄像头显示在终端屏幕上,通过摄像头的实时拍摄来看到外部世界。
但为了交互而堆硬件的方法,成本提高的同时价格也在翻番上涨,同时导致了机体重以及难量产两大落地难题。这也就是为什么,苹果Vision Pro定价3499美元,并要在2024年才能实现量产的根本原因。
而Rokid坚持的OST方案本身便存在着一定的技术壁垒,由于管路设计复杂,且显示画面视角有限,光学零部件成本造价较高,在价格不进行较大涨幅的情况下,Rokid只能通过技术突破的方式,来降低叠加成本。
而让行业认为“不可置信”的单目SLAM是如何做到的?会后,光锥智能与祝铭明进行了深度的交流,发现Rokid的“绝招”在于,用AI算法来突破硬件的壁垒。
祝铭明介绍到,单目SLAM技术虽然早就存在,但还从没有被应用在AR眼镜中,手机的前置摄像头也同样应用了此类技术,唯一不同的是:算法。
从AI到AR,这是一条看似跨越但实际上本质融通的道路,但也正是因为Rokid此前数年在AI领域的积累,通过多维度视觉算法模型,包括视觉定位与增强、数字人技术、2D/3D手势识别、OCR识别等技术,让AI在具体的场景中落地。
比如AR视觉定位与增强功能,就是在解决和突破单目的限制,通过构建厘米级的视觉地图,将虚拟信息在真实物体世界进行精准叠加融合,实现物体和场景的高精度三维重建。
Rokid副总裁、XR中心负责人王俊杰介绍道:“空间定位基于SLAM技术,然后才能在空间中进行稳定的自然交互。1~2秒的时间通过算法快速初始化,建立映射空间。”
而市场上,大多数设备还是采用双目的方案来解决,但双目融合也存在很多问题,除了成本多增加了一个摄像头之外,还需要不断用算法来实时拟合两个摄像头的数据,从而带来更多的复杂问题。
由此看来,如果单目方案能够顺利进行,Rokid就又率先踩准了一个技术趋势。此前,Rokid也是行业首创Station 主机的厂商,眼镜和主机分离的方案已经被证明是行业体验的最优解。
另外,在手势识别中,Rokid采用了微手势的交互方式,手指一捏,即可进行点击和选中;手势左右拨动,还可对正在浏览的界面或内容进行切换。简单的捏合和滑动手势等逻辑定义比较自然,上手较快。
通过我们的现场测试结果来看,目前Rokid可以实现双手的裸手空间交互,目前,Rokid手势识别的算法支持水平/空间轴转、明/暗光等复杂场景识别,同时可识别的手势类型丰富、算法精准,整体识别率约90%以上,并拥有毫秒级识别的响应能力及99%的可靠性保障。
Rokid表示,基于深度学习算法和大量实验数据,单目3D手势算法能在移动端实时重建手部姿态参数,包括手部6DoF、手部关节点6DoF,以及Hand Mesh信息,为AR的手势交互提供良好的算法基础。
目前,Rokid的手势识别在3D空间中可实现多种操作,包括点、捏、抓、握、拖、拉等等,完全可以满足AR交互应用需求。例如,戴上Rokid Max Pro,伸出手,在眼前张开手掌即可呼出菜单。
毕竟想要支持如此复杂的算法结构,背后的功臣不只摄像头,更与“大脑”也就是Rokid Station Pro的算力和性能息息相关。
02 口袋里的空间计算机
一直以来,整个VR/AR行业都存在着“算力、舒适度、价格”的不可能三角。算力更高的设备往往更重,价格也更贵,舒适度高的轻量级设备又无法满足使用需求。
从现实的情况来看,目前并没有一种“完美”的解决方案,主流厂商们试图在二者中找平衡,当下市场上存在着两类主流的解决方案:一种是以苹果为代表的显示计算一体,电池外接的方案;另一种,则是以Rokid为代表的显示计算分体设计。
苹果一体化的设计,将两块micro-OLED屏幕、多个摄像头和传感器、扬声器等元件集成在一起,在显示效果、计算等方面效率更高,但同时也会增加机体本身重量,导致只能将电池外接。
而Rokid坚持的分体式设计,将佩戴性拉到了极致,对比Vision Pro 454g重量,76g的眼镜重量,几乎和普通眼镜没有差别;同时主机算力也可以不那么受空间资源限制,同时一定程度上避免散热带来的不适问题。
总的来说,分体式的路线可以做到眼镜的轻便和主机算力的双向极致发展,同时也更加灵活,算力的迭代和眼镜的技术路线可以异步进行。
Rokid Station Pro就是在分体式设计的基础上,进行了更高的算力升级,打造集计算、成像、通信等功能为一体的All in One终端,也是真正可以被称之为“生产力工具”的超级终端。
据光锥智能了解到,Rokid Station Pro 搭载了高通骁龙XR2+、12G RAM + 128G ROM, 支持WIFI6/6E和BT5.1,Station Pro续航能力将是手机方案的2倍以上,同时具有更佳的散热和更高性能,可以达到厘米级6DoF跟踪精度和极低MTP(Motion to Photon)渲染延迟。
公开信息显示,骁龙XR2+是高通推出最新旗舰的XR平台,能够实现50%的续航能力和30%的散热性能提升,从而支持更小更轻薄的设备外形中赋能更丰富和沉浸式的体验。同时骁龙 XR2 + 平台引入全新图像处理管线,能够实现低于 10 毫秒的时延,开启全彩视频透视 MR 体验。
从光锥智能在现场的体验来看,无论是观影、游戏过程中还是调用键盘进行工作生产流程,尤其是在游戏的高频交互和打斗下,画面的流畅度和反应速度,都十分丝滑。
值得一提的是,目前市场上核心算法还是3DoF(三自由度追踪),是指该设备能够检测到向上、前、下三个方向的转动,但不能检测到头部的前后左右的空间位移。
而升级后的Station Pro采用的6DoF算法,除了能检测到头部的转动带来的视野角度变化外,还能够检测到由于身体移动带来的“上下前后左右”6种位移的变化。
这个算法的升级,更重要的在于玩家的自由度。举个例子,3DoF算法下的打僵尸,射程范围在前方的一定角度,而升级后僵尸从360度出现,一回头身后僵尸扑面的体感,是前者无法达到的。
也就是说,不只算力更高、体验更丝滑、算力空间的拓展也带来了体感上的巨大不同。
高通技术公司XR产品管理高级总监Said Bakadir表示:“第一代骁龙XR2+平台是赋能下一代XR体验的不二之选。高通技术公司为Rokid Station Pro提供业界领先的平台,支持其打造了自身独特的AR应用生态系统。”
03 做AR行业中的iOS
当然,苹果手机之所以能在手机市场上常年称王称霸,成功的原因并不只于它的硬件,更在于它的系统和生态。通过软件系统来培养用户使用习惯所筑下的壁垒,往往要比硬件本身更牢固。
这是Rokid自研AR空间操作系统——YodaOS-Master的部分原因,但却不是全部的原因。
今年三月Rokid Open Day上,Rokid正式推出了YodaOS-Master,并发布了“AR空间创作平台灵境”,让每个人都能在3D空间内创作AR内容,人人可参与,彻底打破AR创作的门槛,让生态势能爆发。
如果说单目SLAM、3D手势识别、骁龙XR+、灵境平台都是一把把利刃,那YodaOS-Master,通过一套自研的系统,才能将这些绝招释放。
简单来说,Rokid 是在走一条没有人走过的路,而Rokid的理念是“软件定义一切”,所有的软件都需要系统进行承载和提供,才能发挥出价值。
围绕感知、理解、交互、展现、协同和数字创作五个方面,YodaOS-Master从芯片优化、硬件设计、软件架构、AR算法还有创作工具等诸多方面都做了巨大升级,或是目前最为完整的一套面向AR时代的空间操作系统。
发布会现场,Rokid也展示了自研系统带来的开放性和便捷性。举几个明显的例子,基于自研系统和骁龙XR+平台,Rokid开发了多任务并行模式,打破了之前只能单任务的掣肘,实现一边聊钉钉、一边写代码、一边看文档的场景,能够同时实现并充分的发挥了空间大屏的优势,让生产效率提升到最大。
另一个极为创新的案例是,Rokid基于自研系统,重新定义了空间搜索。祝铭明介绍道,这打破了此前搜索信息的陈列方式,搜索结果的呈现不再是二维的平面的效果,而是存在在三维空间中。“与问题最相关的结果会离你最近,有点相关的结果在二级页面,离的越远越不相关,当然,你也可以划掉前面的结果,动态挑选你想要的结果”。
如此,未来感瞬间拉满,也展示出了与第一阶段AR设备的本质不同。
可以看到, AR行业开放生态已经开始进入第二阶段,苹果和Rokid不仅在硬件方向上一个向左,一个向右,在行业系统软件、生态发展上也是如此。通过硬件、算法、软件生态、开发者和用户与平台共创,AR在一个彻底开放的生态下,会更快速的迈向高速发展的第二阶段。
Rokid系统研发总工程师石文峰表示,“YodaOS-Master操作系统通过服务化的方式,将 Rokid语音识别、手势识别、SLAM等在内的多项核心技术集成为系统服务,并提供多种client SDK供开发者高效开发,比如SDK for Unity,可以让Unity开发者(开发者申请通道:开放平台网址(ar.rokid.com))能够快速使用Rokid核心技术进行开发”。
从硬件到软件,从系统到生态,Rokid的发展路径,颇有点当年乔布斯时代苹果的意味。
“AR 行业就在黎明前”,祝铭明说道。
#rokid##AR#
欢迎关注光锥智能,获取更多科技前沿知识!
相关文章:

AR界安卓在中国,Rokid引爆空间计算狂潮
击关注 文丨刘雨琦 你可能很难想象,在一个没有显示屏也没有鼠标的空间,仅凭一副AR眼镜和一台口袋主机,就能完成一篇5000字的文章。 没错,8月26日,在2023 Rokid Jungle 新品发布会现场,这样的场景正在真实…...

在 React 中如何使用定时器
在React中使用定时器通常有两种方式:使用setInterval和setTimeout函数。 使用setInterval函数: 首先,在组件中导入useEffect和useState函数: import React, { useEffect, useState } from "react";在组件中声明一个状…...

Unity记录4.6-存储-第四阶段总结
文章首发见博客:https://mwhls.top/4822.html。 无图/格式错误/后续更新请见首发页。 更多更新请到mwhls.top查看 欢迎留言提问或批评建议,私信不回。 汇总:Unity 记录 摘要:存储初步实现的总结 总结-2023/08/19 实现了tile存储&…...

【Python】从入门到上头— 使用包、模块、安装第三方模块(7)
一.什么是模块 在Python中,一个.py文件就称之为一个模块(Module)。 模块好处?: 方便重用代码,写完一个通用的模块,可以在很多地方直接拿来用相同名字的函数和变量完全可以分别存在不同的模块中…...

flutter和原生利用pigeon建立通道
首先导入依赖: dependencies: pigeon: ^10.0.0定义一个文件: /// 用于定于flutter和平台的桥接方法 /// HostApi() 标记的,是用于 Flutter 调用原生的方法; /// FlutterApi() 标记的,是用于原生调用 Flutter 的方法&…...

TCP连接分析:探寻TCP的三次握手
文章目录 一、实验背景与目的二、实验需求三、实验解法1. 预先抓包监测使用Wireshark工具2.进行TCP三次握手,访问www.baidu.com3.分析Wireshark捕获的TCP包 摘要: 本实验使用Wireshark工具,通过抓包监测和分析,深入研究了与百度服…...

gitHooks使用教程
1. 安装所需依赖 npm install eslint prettier husky lint-staged --save-dev 2.初始化 husky npx husky-init && npm install 这将创建一个 .husky/ 目录,并且在其中包含一个示例的 pre-commit 文件。 3.设置 pre-commit 钩子 npx husky add .husky/…...

2023.8 - java - 数组
声明数组变量 首先必须声明数组变量,才能在程序中使用数组。下面是声明数组变量的语法: dataType[] arrayRefVar; // 首选的方法或dataType arrayRefVar[]; // 效果相同,但不是首选方法int[] a {1,2,3};int b[] new int[10];TS:let a:…...

ChatGPT怎么辅助解决社会问题?
ChatGPT作为一个强大的自然语言处理模型,具有潜力辅助解决多种社会问题。其能力可以应用于信息传递、教育、宣传、意识提高等领域,为社会问题的解决提供支持。以下将详细探讨ChatGPT如何辅助解决社会问题。 **1. 教育与意识提高**: ChatGPT可…...

Rust之自动化测试(一):如何编写测试
开发环境 Windows 10Rust 1.71.1 VS Code 1.81.1 项目工程 这里继续沿用上次工程rust-demo 编写自动化测试 Edsger W. Dijkstra在他1972年的文章《谦逊的程序员》中说,“程序测试可以是一种非常有效的方法来显示错误的存在,但它对于显示它们的不存在…...

简单聊聊Https的来龙去脉
简单聊聊Https的来龙去脉 Http 通信具有哪些风险Https Http SSL/TLS对称加密 和 非对称加密数字证书数字证书的申请数字证书怎么起作用 Https工作流程一定需要Https吗? Http 通信具有哪些风险 使用明文通信,通信内容可能会被监听不验证通信双方身份&a…...

【注册岩土】Python土力学与基础工程计算.PDF-土中的应力
Python 求解代码如下: 1.#计算竖向有效自重应力2.h12#m3.h21.5#m4.h31#m5.gamma1 19# kN/m^36.gamma218# kN/m^37.gamma317# kN/m^38.sigma_c gammal * h1 gamma2*h2 gamma3 *h39.print("竖向有效自重应力…...

祝贺!Databend Cloud 和阿里云 PolarDB 达成认证
近日,北京数变科技有限公司旗下产品与阿里云 PolarDB 开源数据库社区展开产品集成认证。 测试结果表明,北京数变科技有限公司旗下产品《Databend Cloud(V1.25)》正式通过了《阿里云 PolarDB 数据库管理软件》的技术认证ÿ…...

SQL语言-01
SQL Structured Query Language 的简单介绍 SQL 中的书写规则 SQL 中的数据类型...

PyCharm软件安装包分享(附安装教程)
目录 一、软件简介 二、软件下载 一、软件简介 PyCharm是一种集成开发环境(IDE),专门为Python开发者设计。它是由捷克软件公司JetBrains开发的,为Python开发人员提供了高效、易用和功能丰富的工具集。 以下是PyCharm软件的主要…...

AI文本标注的概念,类型和方法
我们每天都在与不同的媒介(例如文本、音频、图像和视频)交互,我们的大脑对收集到的信息进行处理和加工,从而指导我们的行为。在我们日常接触到的信息中,文本是最常见的媒体类型之一,由我们交流使用的语言构…...

【AutoLayout案例04-游戏图片-按钮适配 Objective-C语言】
一、好,我们再看一个案例, 刚才,这个案例, 这么一个案例 这个案例,是什么意思呢, 这里给大家做一个3.5英寸、4.0英寸的屏幕适配, 因为我们这里图片,只有一个,就是4英寸的这么一个图片 什么意思呢,要求我们在3.5英寸的屏幕、和4英寸的屏幕的时候,都能正常显示这个图…...

Spring Boot业务系统如何实现海量数据高效实时搜索
1.概述 我们都知道随着业务系统的发展和使用,数据库存储的业务数据量会越来越大,逐渐成为了业务系统的瓶颈。在阿里巴巴开发手册中也建议:单表行数超过500万行或者单表容量超过2GB才推荐进行分库分表,如果预计三年后数据量根本达…...

面向对象的设计原则
设计模式 Python 设计模式:对软件设计中普遍存在(反复出现)的各种问题,所提出的解决方案。每一个设计模式系统地命名、解释和评价了面向对象系统中一个重要的和重复出现的设计 面向对象 三大特性:封装、继承、多态 …...

前端需要理解的工程化知识
1 Git 1.1 Git 常见工作流程 Git 有4个区域:工作区(workspace)、index(暂存区)、repository(本地仓库)和remote(远程仓库),而工作区就是指对文件发生更改的地方ÿ…...

【Terraform学习】使用 Terraform创建DynamoDB添加项目(Terraform-AWS最佳实战学习)
本站以分享各种运维经验和运维所需要的技能为主 《python》:python零基础入门学习 《shell》:shell学习 《terraform》持续更新中:terraform_Aws学习零基础入门到最佳实战 《k8》暂未更新 《docker学习》暂未更新 《ceph学习》ceph日常问题解…...

基于单片机教室人数实时检测系统
一、系统方案 主程序中main函数主要是引脚的初始化,给单片机引脚初始化,初始化LCD1602,初始化红外对管,通过对LCD1602赋值,采集进入教室的人数,显示在LCD1602上面进出人数我们采用按键的形式,检…...

alibabacloud的简单使用,nacos配置中心+服务中心。作者直接给自己写的源码
文章目录 依赖关键主要的程序启动文件配置文件bootstrap.yml依赖文件nacos配置中心上的文件截图 启动成功截图参考文档 依赖关键 SpringBoot版本和com.alibaba.cloud版本需要对应,不然会程序会启动失败作者使用的版本 SpringBoot: 2.1.6.RELEASE alibabacloud: 2.…...

Python爬虫:一个爬取豆瓣电影人像的小案例
从谷歌浏览器的开发工具进入 选择图片右键点击检查 
STM32CubeMX配置STM32G0 Standby模式停止IWDG(HAL库开发)
1.打开STM32CubeMX选择好对应的芯片,打开IWDG 2.打开串口1进行调试 3.配置好时钟 4.写好项目名称,选好开发环境,最后获取代码。 5.打开工程,点击魔术棒,勾选Use Micro LIB 6.修改main.c #include "main.h"…...

39.RESTful案例
RESTful案例 准备环境 Employee.java public class Employee {private Integer id;private String lastName;private String email;//1 male, 0 femaleprivate Integer gender; } //省略get、set和构造方法EmployeeDao.java package com.atguigu.SpringMVC.dao;import com.…...

Power Pivot 实现数据建模
一、简介 Excel中的透视表适合小规模数据;如果想在稍微大一些的数据中进行高性能透视表分析,就要使用Power Pivot;再大一些数据,可能就需要大数据分析服务来进行分析。 Power Pivot,可以让没有技术背景的企业业务人员…...

Ansible自动化运维之playbooks剧本
文章目录 一.playbooks介绍1.playbooks简述2.playbooks剧本格式3.playbooks组成部分4.运行playbooks及检测文件配置 二.模块实战实例1.playbooks模块实战实例2.vars模块实战实例3.指定远程主机sudo切换用户4.when模块实战实例5.with_items迭代模块实战实例6.Templates 模块实战…...

Docker - Docker安装MySql并启动
因为项目需要连接数据库,但是远程服务器上的mysql我不知道账户和密码,这个时候便是docker发挥作用的关键时刻了! 目录 docker安装安装gcc卸载老docker(如有)安装软件包设置镜像仓库更新yum软件包索引安装docker启动doc…...

SQL Server 2019导入txt数据
1、选择导入数据 2、选择Flat file Source 选择文件,如果第一行不是列名,就不勾选。 3、下一步 可以看看数据是否是对的 4、下一步 选择SQL server Native Client 11,数据库选择导入进的库 输入连接数据库的名字和要导入的数据库 下一…...