当前位置: 首页 > news >正文

​​给【AI硬件】创业者的论文、开源项目和产品整理

一、AI 硬件精选论文

《DrEureka: Language Model Guided Sim-To-Real Transfer》

瑜伽球上遛「狗」这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka),这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法,可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务,例如四足机器人平衡和在瑜伽球上行走,而无需迭代手动设计。

https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf

《Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving》

该论文介绍了一个进化框架 LaserMix++,整合了来自不同 LiDAR 扫描的激光束操作,并结合了 LiDAR- 相机对应关系,进一步辅助数据有效学习,通过整合多模态来增强 3D 场景一致性正则化,推进自动驾驶中的 3D 场景理解。

http://arxiv.org/abs/2405.05258v1

《Evaluating Real-World Robot Manipulation Policies in Simulation》

机器人领域在通用机器人操作策略方面取得了重要进展。然而,对这些策略进行真实世界的评估不可扩展,并面临再现性挑战。同时随着策略扩展能执行的任务范围扩大,这些挑战可能会加剧。文章指出真实与模拟环境之间的控制和视觉差距是可靠模拟评估的关键挑战,并提出了一些方法来减轻这些差距,而无需制作真实环境的完整数字孪生体。

http://arxiv.org/abs/2405.05941v1

《Octo: An Open-Source Generalist Robot Policy》

加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌 DeepMind 的 18 位研究者组成的 Octo Model Team 发布了他们的开创性研究成果:Octo 模型。能让 GRP 更轻松地应对下游机器人应用的接口多样化问题。

https://arxiv.org/pdf/2405.12213

《iVideoGPT: Interactive VideoGPTs are Scalable World Models》

清华、华为等提出 iVideoGPT ,一个可扩展的自动回归变换器框架,通过将多模态信号(视觉观察、动作和奖励)整合成序列令牌,实现 agents 的交互式体验,并利用其可扩展架构,预训练 iVideoGPT 在数百万人类和机器人操纵轨迹上,使其适应各种下游任务。

https://arxiv.org/pdf/2405.15223

《YOLOv10: Real-Time End-to-End Object Detection》

YOLOv10 被认为是计算机视觉领域的突破性框架,该论文中在从后续处理和模型架构两个方面进一步提高 YOLO 系列模型的性能-效率边。

https://arxiv.org/pdf/2405.14458

《面向开放世界感知、具有互补通路的视觉芯片》

清华「天眸芯」是全球首款类脑互补视觉芯片,标志着国内芯片领域在类脑计算和类脑感知两个重要方向上均已取得基础性突破。

https://www.nature.com/articles/s41586-024-07358-4

《PowerInfer-2: Fast Large Language Model Inference on a Smartphone》

上交大发布 LLM 手机推理框架 PowerInfer-2,提速 29 倍,该论文针对手机模型遇到的挑战提出了新的解决方案。

https://arxiv.org/abs/2406.06282

《OpenVLA: An Open-Source Vision-Language-Action Model》

本文介绍了 OpenVLA,一个开源的视觉语言行动(VLA)模型,该模型通过大规模互联网视觉语言数据和多样化的机器人演示进行预训练,实现了对视觉运动控制的强大性能,并可通过微调获得鲁棒且泛化的策略,解决了现有 VLA 模型封闭和不可访问的问题,并提出了有效的 VLA 微调新方法。

http://arxiv.org/abs/2406.09246v1

《李飞飞最新 DataBricks 峰会演讲》

李飞飞教授介绍了其空间智能领域团队的系列研究。该团队通过结合视觉、语言和空间智能,开发出了一系列先进的算法,使机器人能够理解三维空间并执行复杂任务。

https://mp.weixin.qq.com/s/zs31ld6bZUzuqmz28KZLPQ

《Pandora: Towards General World Model with Natural Language Actions and Video States》

Pandora 通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。展示了 Pandora 在不同领域(室内/室外、自然/城市、人类/机器人、2D/3D 等)的广泛输出。

http://arxiv.org/abs/2406.09455v1

二、AI 硬件开源项目

OpenGlass

OpenGlass 旨在将普通眼镜改造成具有人工智能功能的智能眼镜。

https://github.com/BasedHardware/OpenGlass

Barkour Robot

Barkour Robot 是由 Google DeepMind 开发的一系列敏捷四足机器人,为各种机器学习和机器人研究提供支持。

https://github.com/google-deepmind/barkour_robot

Octo

Octo,一个基于 80 万条来自 Open X-Embodiment 数据集的轨迹进行训练的大型 Transformer 策略,这是迄今为止最大的机器人操作数据集。

http://arxiv.org/abs/2405.12213v1

InternGPT

一种基于指向语言驱动的视觉交互系统,允许用户使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。

https://github.com/OpenGVLab/InternGPT/blob/main/README_CN.md

三、AI 硬件产品案例

AutoLife Robotics (奇绩校友产品)

AutoLife Robotics 致力于规模化推广低成本通用半人形 AI 机器人,首先解决零售环境下的重复劳动,例如替换大型连锁咖啡店的重复性劳动、服装店衣物整理工作,或在免税店部署智能的机器人销售助理。

Rabbit-R1(本周潜空间嘉宾)

是由 Rabbit Tech 推出的手持 AI 设备,设计为个人的日常数字助理,主要通过自然语言交互进行操作。这款设备的核心特点是它的操作系统 Rabbit OS 和底层的“ Large Action Model (LAM) ”,这使得它不仅能执行简单任务,还能学习并执行更复杂的数字任务。

https://www.rabbit.tech/rabbit-r1

特斯拉 Optimus 人形机器人

二代 Optimus 在机器人的 FSD 计算机上实时运行,而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡,同时网络驱动着整个上半身。

https://mp.weixin.qq.com/s/P5pJFKGxxvi-jBuPCmk-RQ

大脑—脊柱接口小装置

瑞士的研究人员利用 AI 来读取用户意图,然后转化成电信号,再和肌肉的运动相匹配,在用户大脑和脊髓之间建立了一座「数字桥梁」。

https://mp.weixin.qq.com/s/cxKQAO-2-NhCwSB69dccVQ

Mi-GPT

MiGPT 是一个将小爱音箱与 ChatGPT 等大语言模型完美融合的产品,致力于打造一个更智能、更懂你的智能家居助手。

https://github.com/idootop/mi-gpt

苹果智能

加持 GPT-4o,全家桶都上生成式 AI ,Siri 脱胎换骨。

https://mp.weixin.qq.com/s/sCD2DKx9-rroCoTh1bSvBQ

AI Pin

Ai Pin 是一款集成了 AI 交互功能的无屏幕激光投影穿戴设备,重量为 34.2 g,外形类似方形手表表盘,可以轻松别在衣服上。它采用无屏幕设计,通过激光投影技术将界面投射至手掌,结合手势控制能力,来实现无屏幕交互体验。

https://humane.com/

相关文章:

​​给【AI硬件】创业者的论文、开源项目和产品整理

一、AI 硬件精选论文 《DrEureka: Language Model Guided Sim-To-Real Transfer》 瑜伽球上遛「狗」这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka)&am…...

模拟面试题卷二

1. 什么是JavaEE框架,你能列举一些常用的JavaEE框架吗? 答:JavaEE框架是一套用于开发企业级应用的技术规范和工具集合。常用的JavaEE框架有Spring、Hibernate、Struts、JSF等。 2. 请解释一下面向对象技术和设计原则是什么,你能…...

22种常用设计模式示例代码

文章目录 创建型模式结构型模式行为模式 仓库地址https://github.com/Xiamu-ssr/DesignPatternsPractice 参考教程 refactoringguru设计模式-目录 创建型模式 软件包复杂度流行度工厂方法factorymethod❄️⭐️⭐️⭐️抽象工厂abstractfactory❄️❄️⭐️⭐️⭐️生成器bui…...

Java面试题:对比ArrayList和LinkedList的内部实现,以及它们在不同场景下的适用性

ArrayList和LinkedList是Java中常用的两个List实现,它们在内部实现和适用场景上有很大差异。下面是详细的对比分析: 内部实现 ArrayList 数据结构:内部使用动态数组(即一个可变长的数组)实现。存储方式:…...

ping: www.baidu.com: 未知的名称或服务(IP号不匹配)

我用的是VMware上的Red Hat Enterprise Linux 9,出现了能联网但ping不通外网的情况。 问题描述:设置中显示正常连接,而且虚拟机右上角有联网的图标,但不能通外网。 按照网上教程修改了/etc/resolv.conf和/etc/sysconfig/network-…...

谷神前端组件增强:子列表

谷神Ag-Grid导出Excel // 谷神Ag-Grid导出Excel let allDiscolumns detailTable.getAllDisColumns() let columnColIds columns.map(column > column.colId) let columnKeys columnColIds.filter(item > ![select, "_OPT_FIELD_"].includes(item)) detailT…...

测试cudaStream队列的深度

测试cudaStream队列的深度 一.代码二.编译运行[得出队列深度为512] 以下代码片段用于测试cudaStream队列的深度 方法: 主线程一直发任务,启一个线程cudaEventQuery查询已完成的任务,二个计数器的值相减 一.代码 #include <iostream> #include <thread> #include …...

​海康威视 isecure center 综合安防管理平台任意文件上传漏洞

文章目录 前言声明一、漏洞描述二、影响版本三、漏洞复现四、修复方案 前言 海康威视是以视频为核心的智能物联网解决方案和大数据服务提供商,业务聚焦于综合安防、大数据服务和智慧业务。 海康威视其产品包括摄像机、多屏控制器、交通产品、传输产品、存储产品、门禁产品、消…...

shadertoy-安装和使用

一、安装vscode 安装vscode流程 二、安装插件 1.安装glsl编辑插件 2.安装shader toy插件 三、创建glsl文件 test.glsl文件 float Grid(float size, vec2 fragCoord) {vec2 r fragCoord / size;vec2 grid abs(fract(r - 0.5) - 0.5) / fwidth(r);float line min(grid…...

matlab线性多部法求常微分方程数值解

用Adamas内差二步方法&#xff0c;内差三步方法&#xff0c;外差二步方法&#xff0c;外差三步方法这四种方法计算。 中k为1和2. k为2和3 代码 function chap1_adams_methodu0 1; T 2; h 0.1; N T/h; t 0:h:T; solu exact1(t);f f1; u_inter_2s adams_inter_2steps(…...

前端页面实现【矩阵表格与列表】

实现页面&#xff1a; 1.动态表绘制&#xff08;可用于矩阵构建&#xff09; <template><div><h4><b>基于层次分析法的权重计算</b></h4><table table-layout"fixed"><thead><tr><th v-for"(_, colI…...

GPT4v和Gemini-Pro调用对比

要调用 GPT-4 Vision (GPT-4V) 和 Gemini-Pro&#xff0c;以下是详细的步骤分析&#xff0c;包括调用流程、API 使用方法和两者之间的区别&#xff0c;以及效果对比和示例。 GPT-4 Vision (GPT-4V) 调用步骤 GPT-4 Vision 主要通过 OpenAI 的 API 进行调用&#xff0c;用于处…...

破布叶(Microcos paniculata)单倍型染色体级别基因组-文献精读22

Haplotype-resolved chromosomal-level genome assembly of Buzhaye (Microcos paniculata) 破布叶、布渣叶&#xff08;Microcos paniculata&#xff09;单倍型解析染色体级别基因组组装 摘要 布渣叶&#xff08;Microcos paniculata&#xff09;是一种传统上用作民间药物和…...

浅谈RC4

一、什么叫RC4&#xff1f;优点和缺点 RC4是对称密码&#xff08;加密解密使用同一个密钥&#xff09;算法中的流密码&#xff08;一个字节一个字节的进行加密&#xff09;加密算法。 优点&#xff1a;简单、灵活、作用范围广&#xff0c;速度快 缺点&#xff1a;安全性能较差&…...

uniapp微信小程序开发物料

开发工具 HBuilder&#xff1a; HBuilderX-高效极客技巧 vscode 1、在vscode中新建一个项目npx degit dcloudio/uni-preset-vue#vite-ts 项目名称 2、在HBuilder中可以可视化进行新建项目 路由 在app.json文件中配置pages路由路径 路由跳转方法 uni.navigateTo(OBJECT)…...

大数据工程师如何做到数据可视化?

好的数据可视化作品都是通过不断的数据对比分析实战出来的。 今天给大家带来一篇大数据工程师干货&#xff0c;从多角度解析做数据可视化的重要性&#xff0c;并解读一些适用的应用场景。大数据工程师们刷到这篇文章时一定要进来看看&#xff0c;满满的干货。 目录 1. 什么是数…...

Java 序列化与反序列化

Java 序列化是一种将对象的状态转换为字节流的机制&#xff0c;以便可以将该对象的状态保存到文件、数据库或通过网络传输。在反序列化过程中&#xff0c;这些字节流可以被重新转换为对象。序列化主要用于以下几种情况&#xff1a; 持久化存储&#xff1a;将对象的状态保存到文…...

自定义防抖注解

问题场景 在开发中由于可能存在的网络波动问题导致用户重复提交&#xff0c;所以自定义一个防抖注解。设计思路&#xff1a;自定义注解加在接口的方法上&#xff0c;注解中设置了SPEL表达式&#xff0c;可以通过SPEL表达式从接口参数中提取Redis的Key&#xff0c;以这个Key作为…...

【尚庭公寓SpringBoot + Vue 项目实战】登录管理(十八)

【尚庭公寓SpringBoot Vue 项目实战】登录管理&#xff08;十八&#xff09; 文章目录 【尚庭公寓SpringBoot Vue 项目实战】登录管理&#xff08;十八&#xff09;1、登录业务介绍2、接口开发2.1、获取图形验证码2.2、登录接口2.3、获取登录用户个人信息 1、登录业务介绍 登…...

【html】用html+css做地表最强王者荣耀辅助工具

源码&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8" /><title></title><style>* {margin: 0;padding: 0;}body{background-color: blue;}.con {width: 300px;height: 500px;background-color: rgba(230,…...

FPGA状态机实战:用Verilog实现自动售卖机(附三段式完整代码)

FPGA状态机实战&#xff1a;用Verilog实现自动售卖机&#xff08;附三段式完整代码&#xff09; 在数字电路设计中&#xff0c;状态机是最核心的设计思想之一。它能够将复杂的控制逻辑分解为有限的状态和状态之间的转换&#xff0c;使得设计更加清晰、可维护。自动售卖机作为一…...

Pixel Fashion Atelier实战教程:如何导出带元数据的PNG并适配Unity像素精灵管线

Pixel Fashion Atelier实战教程&#xff1a;如何导出带元数据的PNG并适配Unity像素精灵管线 1. 教程概述 Pixel Fashion Atelier作为一款专为像素艺术设计的AI生成工具&#xff0c;其输出结果需要经过特殊处理才能完美适配Unity的像素精灵管线。本教程将手把手教你如何导出带…...

机器人路径规划算法之VFH算法详解+MATLAB代码实现

目录 一、 运作原理&#xff1a;三步把地图变成方向 1. 建图&#xff1a;构建直方图网格&#xff08;Histogram Grid&#xff09; 2. 降维&#xff1a;生成极坐标直方图&#xff08;Polar Histogram&#xff09; 3. 决策&#xff1a;代价函数与山谷选择 二、 算法演进&…...

4 大平台 “免费拿” 玩法大拆解,看完不踩坑

现在很多平台都有 “0元领东西” 的活动&#xff0c;玩法不一样&#xff0c;难度也差很多。今天用大白话对比拼dd、淘b、京d、全能锦鲤&#xff0c;简单易懂&#xff0c;看完就知道该选哪个。一、各平台免费拿怎么玩&#xff1f;1. 拼dd&#xff08;老牌砍价&#xff09;玩法&a…...

你有多难拒绝别人?免费个人边界感与拒绝能力测试,看清你的“不敢拒绝“根源

你有多难拒绝别人&#xff1f;免费个人边界感与拒绝能力测试&#xff0c;看清你的"不敢拒绝"根源 引言 你有没有过这样的时刻—— 朋友临时约你&#xff0c;你明明很累想休息&#xff0c;却还是答应了同事请你帮忙做不属于你的工作&#xff0c;你不好意思拒绝&…...

精益生产方式的核心功能拆解:精益生产方式如何解决多品种小批量场景下的库存积压难题

在当前制造业从“少品种大批量”向“多品种小批量”急剧转型的背景下&#xff0c;精益生产方式已成为企业打破库存僵局的唯一出路&#xff0c;它通过准时化拉动和消除浪费的核心逻辑&#xff0c;精准解决了传统模式下因预测失效导致的严重库存积压问题&#xff1b;面对多变的订…...

s2-pro语音合成教程:参考音频采样率/格式/信噪比最佳实践

s2-pro语音合成教程&#xff1a;参考音频采样率/格式/信噪比最佳实践 1. 认识s2-pro语音合成工具 s2-pro是Fish Audio开源的专业级语音合成模型镜像&#xff0c;它不仅能将文本转换为自然流畅的语音&#xff0c;还能通过参考音频来复用特定的音色。这意味着你可以上传一段样本…...

从51单片机到STM32:我的裸机架构升级踩坑实录(附代码片段)

从51单片机到STM32&#xff1a;我的裸机架构升级踩坑实录 第一次用STM32F103替换掉手头的STC89C52时&#xff0c;我对着闪烁的LED灯陷入了沉思——这个32位的"怪兽"显然不应该继续沿用51那套超级循环的编程方式。三年前那个在延时函数里死等按键响应的菜鸟程序员&…...

春联生成模型-中文-base多线程批量生成教程,为公司百名员工定制春节祝福

春联生成模型-中文-base多线程批量生成教程&#xff0c;为公司百名员工定制春节祝福 春节将至&#xff0c;为公司员工准备个性化春联是传递祝福的好方式。传统手工创作耗时耗力&#xff0c;而春联生成模型-中文-base结合多线程技术&#xff0c;能高效完成批量定制。本文将详细…...

C++ 模板与泛型编程入门

C 模板与泛型编程入门 模板把类型&#xff08;及非类型参数&#xff09;作为参数&#xff0c;在编译期由编译器按用法生成具体函数或类&#xff0c;是 C 泛型编程与 STL 的基础。下文以 Max、简单类模板、选择排序及可定制比较器为例说明常见写法&#xff1b;排序复杂度为 (O(…...