当前位置: 首页 > news >正文

AI “自主运行”的计算机概念正逐渐成为现实

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

晚上和新生儿在一起的时光,有时会催生出意想不到的突破。OthersideAI的开发人员Josh Bickett就是在一次深夜喂养女儿时,萌生了一个开创性的“自主运行计算机框架”的想法。Bickett向VentureBeat解释说:“我非常享受和我四周大的女儿在一起的时光,这段时间我学到了很多关于为人父的新课程。但同时,我也有点时间去思考,因为我看到了GPT-4视觉的不同演示。我们现在正在研究的事情实际上可以通过GPT-4视觉实现。”

在抱着女儿的同时,Bickett在电脑上勾勒出了基本框架。“我找到了一个初步的实现……它在正确点击鼠标方面还不是很好。但我们正在做的是定义问题:我们需要弄清楚如何操作计算机。”当OthersideAI的联合创始人兼CEO Matt Shumer看到这个新框架时,他意识到了它巨大的潜力。Shumer对VentureBeat说:“这是通往计算机自动驾驶的里程碑。我们现在拥有传感器。我们有激光雷达系统。接下来,我们要构建智能。”

正如Bickett所描述的,这个框架“让AI控制鼠标的点击位置和所有键盘触发器。它就像一个自动GPT代理,但它不是基于文本的。它是基于视觉的,所以它会截取电脑屏幕的截图,然后决定鼠标点击和键盘操作,就像人类一样。”Shumer进一步阐释了这个框架如何代表了超越之前完全依赖APIs的方法的重大进步。“很多人在计算机上做的事情,你用APIs是做不到的,这是很多其他人在解决这个问题时的方法,他们想要构建一个代理。他们在这项服务的公开API之上构建它,但这并不能扩展到所有东西。”正如Shumer所断言的,“如果你真的想解决一个自主的问题,可以真正帮助我们或让我们完成更多的事情。你必须允许它像人一样工作,因为世界是为人们构建的。”这个框架将屏幕截图作为输入,输出鼠标点击和键盘命令,就像人类一样。但正如Bickett和Shumer所承认的,真正的潜力不在于轻量级框架本身,而在于可以插入它的先进的计算机视觉和推理模型。“框架将只是插入和播放,你只需要插入一个更好的模型,它就会变得更好,”Bickett说。

看看怎样:

AI 自主运行的计算机概念正逐渐成为现实

当被VentureBeat问及未来的影响时,Shumer描绘了一个大胆的愿景:“一旦这个东西足够可靠,它将成为你的电脑,它将成为你进入数字世界的界面。”有了自主运行计算机框架,先进的AI模型可以学会通过对话命令接管所有计算机交互。正如Shumer所预测的,不同类型的专业计算机代理模型可能会出现来处理不同的任务。

一些可能专注于简单任务的速度,而其他人则擅长复杂推理。模型也可能因企业与消费者使用案例而有所不同。但据Shumer所说,总体目标是开发使人们可以说,“这是我讨厌做的事情。现在,我不必再做了。我们想让它变得如此容易,以至于几乎不会使用计算机的人也可以做到。”Bickett相信,框架的开源性质将进一步加速进展,使全球开发者能够尝试新的应用。Shumer也同意,这个领域有“很多玩家的空间……各种模型提供者。各种应用。并且在这个行业中有很多空间来构建非常非常大的企业。”

尽管Bickett和Shumer看到了巨大的潜力,但要实现真正智能计算机代理的愿景,将需要巨大的资源和持续的创新。为此,AI研究公司Imbue(以前称为Generally Intelligent)最近与Dell建立了一项价值1.5亿美元的合作伙伴关系,以建立一个强大的AI训练平台。大约10000个Nvidia H100 GPU的大型集群将使Imbue能够开发专门针对推理能力优化的新基础模型,这是他们工作的关键重点。正如Imbue联合创始人兼首席执行官Kanjun Qiu所指出的,“推理是代理工作得非常好的核心障碍。”Imbue认为,强大的推理对于开发真正有效的AI代理至关重要,因为它允许机器处理不确定性,适应方法,收集新信息,做出复杂决策,并处理现实世界的复杂性——这些能力对于在狭窄任务之外自主运作至关重要。

该公司采用“全栈”方法,包括优化的基础模型训练、实验性代理和界面原型制作、健壮的工具构建和理论AI研究——旨在推进深度学习的实用和基本理解,以实现具有人类级推理能力和最终人工普遍智能的工程AI。

虽然自主运行计算机框架只是第一步,但Bickett和Shumer认为它将开启一个新时代,届时复杂的AI代理将完全取代人类的计算机界面。深夜可能会继续孕育出颠覆性的想法,但要实现电脑仅通过普通语言就能为任何人、任何地方服务的完整愿景,还需要专注的工作。

去看看 https://github.com/OthersideAI/self-operating-computer

相关文章:

AI “自主运行”的计算机概念正逐渐成为现实

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

数据库系统概论期末经典大题讲解(用关系代数进行查询)

今天也是结束的最为密集的考试周,在分析过程中自己也有些许解题的感悟,在此分享出来,希望能帮到大家期末取得好成绩。 一.专门的关系运算 1.选择(σ) 选择操作符用于从关系中选择满足特定条件的元组 例如,…...

算法通关村第十六关-黄金挑战滑动窗口与堆的结合

大家好我是苏麟 , 今天带来一道小题 . 滑动窗口最大值 描述 : 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 题目 : …...

基于jsp的搜索引擎

摘 要 随着互联网的不断发展和日益普及,网上的信息量在迅速地增长,在2004年4月,全球Web页面的数目已经超过40亿,中国的网页数估计也超过了3亿。 目前人们从网上获得信息的主要工具是浏览器,搜索引擎在网络中占有举足轻…...

【Altium designer 20】

Altium designer 20 1. Altium designer 201.1 原理图库1.1.1 上划岗 在字母前面加\在加字母1.1.2 自定义快捷键1.1.3 对齐1.1.4 在原有的电路图中使用封装1.1.5 利用excel创建IC类元件库1.1.6 现有原理图库分类以及调用1.1.7 现有原理图库中自动生成原理图库 1.2 绘制原理图1.…...

Proteus仿真--基于1602LCD与DS18B20设计的温度报警器

本文介绍基于1602LCD与DS18B20设计的温度报警器设计(完整仿真源文件及代码见文末链接) 仿真图如下 其中温度传感器选用DS18B20器件,主要用于获取温度数据并上传,温度显示1602LCD液晶显示器,报警模块选用蜂鸣器&#…...

Clickhouse Join

ClickHouse中的Hash Join, Parallel Hash Join, Grace Hash Join https://www.cnblogs.com/abclife/p/17579883.html https://clickhouse.com/blog/clickhouse-fully-supports-joins-full-sort-partial-merge-part3 总结 本文描述并比较了ClickHouse中基于内存哈希表的3种连接…...

Arduino驱动STS35数字温度传感器(温湿度传感器)

目录 1、传感器特性 2、硬件原理图 3、控制器和传感器连线图 4、驱动程序 STS35瑞士Sensirion公司新推出的温度传感器,STS35提供了一个完全校准、线性和供电电压补偿的数字输出&...

一起学docker系列之十八Docker可视化工具 Portainer:简介与安装

目录 前言1 简介2 安装过程2.1 创建docker容器数据卷2.2 构建运行protainer容器 3 Portainer 软件详细说明与界面导览3.1 查看本地Docker情况3.2 操作功能3.3 创建容器3.4 部署容器 4 Portainer的优势结语参考地址 前言 Docker作为容器化解决方案的热门工具,其可视…...

【数据结构】线段树

目录 1.概述2.代码实现2.1.聚合操作——求和2.2.聚合操作——求和、求最小值、求最大值 3.应用4.与前缀和之间的区别 更多数据结构与算法的相关知识可以查看数据结构与算法这一专栏。 1.概述 (1)线段树 (Segment Tree) 是一种二叉树形数据结构&#xff…...

王道数据结构课后代码题p175 06.已知一棵树的层次序列及每个结点的度,编写算法构造此树的孩子-兄弟链表。(c语言代码实现)

/* 此树为 A B C D E F G 孩子-兄弟链表为 A B E C F G D */ 本题代码如下 void createtree(tree* t, char a[], int degree[], int n) {// 为B数组分配内存tree* B (tree*)malloc(sizeof(tree) * n);int i 0;i…...

filter过滤器

package com.it.filter;import javax.servlet.*; import javax.servlet.annotation.WebFilter;import java.io.IOException;WebFilter(urlPatterns"/*") public class DemoFilter implements Filter {Override // 初始化的方法 只要调用一次public void init(Filte…...

MES物料的动态批次管理漫谈

在制造企业中,原辅材料占产品制造总成本基本在60%以上,特殊材料加工企业可能达到80%以上,按“2/8管理原则”管理好物料就基本做好制造企业的成本管理,这也许是很多企业向“数字化转型”的一个主要原因,希望借助数字信息…...

【爬虫逆向分析实战】某笔登录算法分析——本地替换分析法

前言 作者最近在做一个收集粉币的项目,可以用来干嘛这里就不展开了😁,需要进行登录换算token从而达到监控收集的作用,手机抓包发现他是通过APP进行计算之后再请求接口的,通过官网分析可能要比APP逆向方便多&#xff0…...

vue3使用动态component

使用场景: 多个组件通过component标签挂载在同一个组件中,通过触发时间进行动态切换。vue3与vue2用法不一样,这里有坑! 使用方法: 1.通过vue的defineAsyncComponent实现挂载组件 2.component中的is属性 父组件&am…...

单机游戏推荐:巨击大乱斗 GIGABASH 中文安装版

在泰坦之中称霸天下吧!《GigaBash 巨击大乱斗》是一款多人战斗擂台游戏,有着受特摄片启发的巨型怪兽,具有传奇色彩的英雄,震天动地的特别攻击,以及可以完全摧毁的擂台场景。 ​游戏特点 怪物大解放 多达10个独特的角…...

计算机系统启动过程

计算机系统启动过程 阅读笔记: 《计算机体系结构基础(第三版)》-- 胡伟武 第7章:计算机系统启动过程分析 系统启动的整个过程中, 计算机系统在软件的控制下由无序到有序, 所有的组成部分都由程序管理, 按照程序的执行发挥各自的功…...

DedeCms后台文章列表文档id吗?或者快速定位id编辑文章

我们在建站时有的时候发现之前的文章有错误了,要进行修改,但又不知道文章名,只知道大概的文章id,那么可以搜索到DedeCms后台文章列表文档id吗?或者快速定位文章id方便修改? 第一种方法:复制下面…...

【开发问题解决方法记录】03.dian

登录提示 ERR-1002 在应用程序 "304" 中未找到项 "ROLE_ID" 的项 ID。 一开始找错方向了,以为是代码错误,但是后来在蒋老师的提醒下在共享组件-应用程序项 中发现设的项不是ROLE_ID而是ROLEID,怪不得找不到ORZ 解决方法…...

QT之QString

QT之QString 添加容器 点击栅格布局 添加容器,进行栅格布局 布局总结:每一个模块放在一个Group中,排放完之后,进行栅格布局。多个Group进行并排时,先将各个模块进行栅格布局,然后都选中进行垂直布…...

APK Installer完整指南:在Windows上快速安装Android应用的终极方案

APK Installer完整指南:在Windows上快速安装Android应用的终极方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上轻松安装An…...

3分钟掌握微信聊天记录永久保存:从数据备份到智能分析完全攻略

3分钟掌握微信聊天记录永久保存:从数据备份到智能分析完全攻略 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/…...

Google Meet开启Gemini字幕后CPU飙升300%?资深SRE教你用Chrome Tracing+Gemini Profiling Dashboard精准定位瓶颈

更多请点击: https://intelliparadigm.com 第一章:Google Meet开启Gemini字幕后CPU飙升300%?资深SRE教你用Chrome TracingGemini Profiling Dashboard精准定位瓶颈 当团队在Google Meet中启用Gemini实时字幕功能后,参会终端Chrom…...

青少年情绪障碍辅导机构大筛选,教你选流程规范的靠谱机构

一、为什么要看这份榜单当孩子出现情绪障碍,如叛逆、抑郁、焦虑等问题时,家长往往会感到焦虑和无助,不知道该选择哪家辅导机构。一份客观、专业的辅导机构榜单,可以为家长提供有价值的参考,帮助他们快速了解不同机构的…...

第1篇:认识Go——我的第一个程序 Go中文编程

第1篇:认识Go——我的第一个程序**作者:**中文编程倡导者—— 李金雨 联系方式: wbtm2718qq.com目标:让你成功运行第一个Go程序,建立学习信心! 预计时间:2课时(90分钟) 难…...

5分钟快速部署WebRTC Camera到Home Assistant:终极低延迟监控方案

5分钟快速部署WebRTC Camera到Home Assistant:终极低延迟监控方案 【免费下载链接】WebRTC Home Assistant custom component for real-time viewing of almost any camera stream using WebRTC and other technologies. 项目地址: https://gitcode.com/gh_mirror…...

SAPO Ink UI组件实战:10个常用交互组件快速上手

SAPO Ink UI组件实战:10个常用交互组件快速上手 【免费下载链接】Ink An HTML5/CSS3 framework used at SAPO for fast and efficient website design and prototyping 项目地址: https://gitcode.com/gh_mirrors/ink2/Ink SAPO Ink是一个由SAPO开发的HTML5/…...

告别龟速下载!用阿里云Maven仓库和离线驱动包,5分钟搞定DBeaver所有JDBC驱动配置

极速配置DBeaver JDBC驱动的双轨方案:阿里云Maven加速与离线整合包实战 每次打开DBeaver准备连接数据库时,看着进度条缓慢爬升的驱动下载界面,你是否也感到焦虑?特别是在紧急排查生产环境问题的关键时刻,这种等待简直让…...

图解人工智能(8)图灵测试作为智能与否的标准

有人不同意将图灵测试作为智能与否的标准。他们认为,就算机器表现得和人一样,也不能说机器拥有了智能,因为它只是一堆电路,和人的思维方式完全不同。你是否赞同这种说法?说说你赞同或反对的理由。开放讨论题。有几种观…...

NVIDIA aicr:AI容器运行时核心原理与生产部署指南

1. 项目概述:当AI遇见容器运行时如果你在AI开发或者高性能计算领域摸爬滚打过一段时间,大概率会遇到一个让人头疼的问题:如何高效、稳定地管理那些“胃口”巨大、依赖复杂的AI工作负载?从训练一个大型语言模型到运行一个实时的计算…...