当前位置: 首页 > news >正文

大语言模型之五 谷歌Gemini

近十年来谷歌引领着人工智能方向的发展,从TensorFlow到TPU再到Transformer,都是谷歌在引领着,然而,在大语言模型上,却被ChatGPT(OpenAI)抢了风头,并且知道GPT-4(OpenAI)的推出,谷歌依然没有推出能打的竞品都没有,甚至是后来居上的LlaMA(Meta)类的Google也败下阵来,也许是Google倾尽资源在Gemini上了。
Gemini是谷歌大脑和DeepMind和ChatGPT竞争的多模态( Visual-Language-Action (VLA) )大语言模型,其是将CPT-4和AlphaGo类系统相结合的新的多模态大语言模型。
据传Gemini是将融合多模态Encoder-Decoder的新架构,Encdoer部分对不同的数据提出供Decoder理解的特征,Decoder的任务是理解和执行。

目前的大模型是不具备规划能力,需要用知识图谱等符号主义的方法来增强,也许 Google DeepMind 找到的方法是行为主义【强化学习】的方法,而非符号主义【知识图谱】的方法。
要在人工智能中真正实现 AGI ,这中间最关键的环节是让机器能够自主地从物理世界中学习,这就要求 AGI 具备连续的视觉理解能力。当前的ChatGPT离真正的AGI还欠缺以下能力:
1.感知世界的能力:这个基础是连续视觉感知。可以猜测,Gemini 显然在尝试这个,但发布时是否具备该能力,或者到了哪种程度,现在还未知。
2.推理决策的能力:这个的基础就包括记忆和规划。在 Gemini 有关的信息中显然提到了这一点。关于记忆方面没有很多内容,神经网络本身就具备记忆功能,同时基于此前Google LaMDA模型,在记忆中加入 Google 的知识图谱(Knowledge Graph)也未必不可能。而规划方面,目前已经明确的是使用了 AlphaGo所使用的强化学习方法来增强大模型的规划能力。
3.使用工具的能力:这个就是使用工具和调用 API 的能力,使用工具可以认为是“硬”的能力,比如类似 PaLM-E 操纵机械臂的能力,而调用 API可以认为是“软”的能力。
4.自我意识能力。

在GPT-4的 “Code Interpreter”功能开放之后,我认为使用“软”工具的能力趋于成熟
Google DeepMind 在这块的技术储备是很强的,不管是 PaLM-E 还是 RoboCat,都是成功的尝试。Gemini 从视频中学习出连续的视觉理解能力是非常可能的。而一旦AGI 具备了连续的视觉理解能力,接下来的发展将势不可挡了。
Gemini 应该使用了Youtube 的视频来训练模型,结合哈萨比斯所说的在尝试使用机器人和神经科学【ranging from robotics to neuroscience】的创新方法来增强模型的能力,这就很值得品味了。很有可能就使用视频数据来训练模型的连续视觉理解能力,毕竟机器人视觉和神经科学的很重要一环就是视觉理解。

Gemini 的做一些猜测:

1.神经网络使用MoE架构【高可能性】
2.用某种方法融合了知识图谱来增强记忆【中可能性】
3.训练时用了强化学习,使用了 PPO 之外的优化方法【高可能性】
4.推断时使用了强化学习【低可能性】
5.最大参数在1T~10T 之间【高可能性】,大于10T【中可能性】,小于1T【低可能性】
6.推断时激活参数大于100B【高可能性】,小于100B【低可能性】
7.训练语料的文本词元(tokens)数量大于20~100T【高可能性】(2023年6月谷歌的monorepo Piper 模型的训练数据量是86TB),大于100T【中可能性】,小于10T【低可能性】
8.训练语料的图片10~50B 张【高可能性】,小于10B 张【低可能性】,大于50B 张【中可能性】
9.训练语料的视频大于1000万分钟【高可能性】。
10.训练时间:TPUv4 和 TPUv5 约120 天 ( GPT-5 约 ~25,000 H100/A100 ~120 天, GPT-4 @ ~25,000 A100s for ~90 天, GPT-3 @ ~1,024 A100s for 34 天)
11.预计发布时间也许是2023年9月27日Google 的25岁生日【随便猜测】,2023年年底前【高可能性】。

Gemini相关paper

Gemini在谷歌的定位是AGI,其中之一自我意识是最难的点,谷歌2023年Consciousness in Artificial Intelligence: Insights from the Science of Consciousness 的论文中预测下一个10年将产生具有自我意识的AGI,AGI的发展相关Paper。而代号Gemini是具有自我意识AGI的最迟的原型产品。下面是关于AGI发展进度情况

日期进展总结参考文献
2023年8月22日60%人工智能中的意识——来自意识科学的见解,讨论的意识的定义以及如何评估是否真正具备意识arXiv
2023年8月55%GDM Soft MoE:“一个完全可微的稀疏转换器……保持MoE的优势。”。Soft MoE通过将所有输入代币的不同加权组合传递给每个专家来执行隐含的软分配…Soft MoE大大优于标准Transformers(ViTs)和流行的MoE变体(代币选择和专家选择)。”(arXiv)
2023年7月54% GDM RT-2:“在机器人轨迹数据和互联网规模的视觉语言任务(如视觉问答)上共同微调最先进的视觉语言模型。”(项目地址)
2023年7月52%:Anthropic (PDF)
2023年7月51%: 谷歌DeepMind/普林斯顿:寻求帮助的机器人(“建模不确定性,可以补充和扩展基础模型不断增长的能力。”)Project page
2023年7月51%: 微软LongNet:1B令牌序列长度(“为建模超长序列开辟了新的可能性,例如,将整个语料库甚至整个互联网视为序列。”)Microsoft (arxiv)
2023年6月50%: 谷歌DeepMind RoboCat(“自主改进循环……RoboCat不仅表现出跨任务转移的迹象,而且在适应新任务方面变得更加高效。”)DeepMind blog, Paper (PDF)
2023年6月50%: 微软推出了监视器引导解码(MGD)(“提高了LM…生成与基本事实相匹配的标识符的能力……提高了编译率并与基本事实保持一致。”)Paper (arxiv)
2023年6月50%:前OpenAI顾问使用GPT-4在化学中实现人工智能(“指令、机器人动作、合成分子”)Paper (arxiv), notes
2023年6月50%: 哈佛大学引入了“推理时间干预”(ITI)(“在高水平上,我们首先识别出一组稀疏的注意力头,这些注意力头对真实性的线性探测精度很高。然后,在推理过程中,我们沿着这些与真实性相关的方向转移激活。我们自回归地重复相同的干预,直到生成完整的答案。”)Harvard (arxiv)
2023年6月49%: Google DeepMind在其86TB代码库中对LLM(DIDACT)进行迭代代码训练(“经过训练的模型可以以各种令人惊讶的方式使用……通过将多个预测链接在一起,以展开更长的活动轨迹……我们从一个空白文件开始,并要求模型连续预测接下来会进行哪些编辑,直到它写下完整的代码文件。令人惊讶的是,该模型以一种循序渐进的方式开发代码开发者)Google Blog, Twitter
2023年5月49%: Ability Robotics将LLM与他们的人形机器人Digit相结合。Agility Robotics (YouTube)
2023年5月49%:PaLM 2打破了WinoGrande的90%大关。WinoGrande是一个“更具挑战性、对抗性”的Winograd版本,设计对人工智能来说非常困难,一个大型语言模型首次突破了90%的大关。微调后的PaLM 2得分为90.9%;人类占94%PaLM 2 paper (PDF, Google)
2023年5月49%: Robot+text-davinci-003(“……我们展示了LLM可以直接使用现成的LLM来实现机器人的泛化,利用它们从大量文本数据中学习到的强大摘要功能。”)Princeton/Google/others
2023年4月48%: 波士顿 Dynamics+ChatGPT(“我们将ChatGPT与我们的[波士顿 Dynamics Spot]机器人集成在一起。”)Levatas
2023年5月48%:微软推出了TaskMatrix.ai(“我们展示TaskMatrix.ai如何通过[LLM]在物理世界中执行任务与机器人和物联网设备交互……所有这些案例都已在实践中实施……通过摄像头API了解环境,并将用户指令转换为机器人提供的动作API……通过连接物联网设备,促进在机器人的帮助下处理体力工作和建造智能家居…”)。Microsoft (arxiv)
2023年5月48%: OpenAI引入了GPT-4,可考证的记录微软认为GPT-4是“早期AGI”(“鉴于GPT-4能力的广度和深度,以合理地被视为人工通用智能(AGI)系统的早期(但仍然不完整)版本。”)。微软删除的论文原标题是“首次接触AGI系统”。请注意,LLM仍然没有体现。Microsoft Research
2023年5月42%: 谷歌推出了PaLM-E 562B(PaLM体现。“PaLM-E可以根据视觉和语言输入成功规划多个阶段……成功规划长期任务……”)Google
2023年2月41%: 微软在机器人中使用了ChatGPT,它自我改进了(“我们对ChatGPT仅使用语言反馈进行本地化代码改进的能力印象深刻。”)Microsoft
2022年12月39%: 通过人工智能反馈强化学习(RLAIF)训练的人类RL-CAI 52B(“我们已经远离了对人类监督的依赖,更接近于自我监督的对齐方法”)LifeArchitect.ai, Anthropic paper (PDF)
2022年7月39%: NVIDIA的Hopper(H100)电路由人工智能设计(“最新的NVIDIA Hopper GPU架构有近13000个人工智能设计的电路实例”)。LifeArchitect.ai, NVIDIA
2022年5月39%: DeepMind Gato是第一个多面手特工,可以“玩Atari、配图片、聊天、用真正的机械臂堆叠区块等等”。Watch Alan’s video about Gato.
2021年6月31% 谷歌的TPUv4芯片由人工智能设计(“允许芯片设计由比任何人类设计师都更有经验的人工代理执行。我们的方法被用于设计谷歌的下一代人工智能(AI)加速器,有可能为每一代新产品节省数千小时的人力。”我们相信,更强大的人工智能设计硬件将推动人工智能的发展,在这两个领域之间建立共生关系”)。LifeArchitect.ai, Nature, Venturebeat
2020年11月30%: Connor Leahy,EleutherAI的联合创始人,GPT-2的再创造者,GPT-J和GPT-NeoX-20B的创造者,谈到OpenAI GPT-3时说:“我认为GPT-3是人工通用智能,AGI。我认为GPT-3和人类一样聪明。我认为它可能在某种程度上比人类更聪明……在很多方面,它比人类更纯粹聪明。我觉得人类正在接近GPT-3的所作所为,而不是相反。”视频 (timecode)
2017年8月20%: Google Transformer 架构对搜索、翻译以及语言模型产生了深远的影响初始报道文章.

Gemini团队组成

Gemini 将团队划分为约 10 个小组,分别负责预训练、数据、基础设施、模型微调、模型评估、代码库、多模态、强化学习、工具使用以及人工标注数据。
在这里插入图片描述

Gemini细节

实现Paper、技术report以及开源资料,待谷歌发布后

相关文章:

大语言模型之五 谷歌Gemini

近十年来谷歌引领着人工智能方向的发展,从TensorFlow到TPU再到Transformer,都是谷歌在引领着,然而,在大语言模型上,却被ChatGPT(OpenAI)抢了风头,并且知道GPT-4(OpenAI&a…...

使用selenium实现对页面元素的抓取

一、背景介绍 工作中有个需求是需要对某个页面进行监控,但由于要监控页面数据是异步加载的,因此很难从状态码和返回结果层面进行校验。于是乎想到了通过判断页面元素是否存在且显示内容是否正确来达到此目标。调研了一下发现selenium可以实现对这种动态…...

大数据课程K12——Spark的MLlib概述

文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解Spark的MLlib概念; ⚪ 掌握Spark的MLlib基本数据模型; ⚪ 掌握Spark的MLlib统计量基础; 一、Spark MLlib介绍 1. 概述 MLlib是Apache Spark的可迭代机器学习库。 2. 易于使用 …...

流程制造智能工厂总体架构及建设路线规划方案PPT

本资料来源公开网络,仅供个人学习,请勿商用,如有侵权请联系删除,更多浏览公众号:智慧方案文库 数字孪生智能制造(智改数转)数字化架构设计及应用..水泥智能工厂解决方案.pptx智慧制造规划设计解决方案.pptx智能工厂落…...

网络有源号角(50W-100W)社区小区广播 工地语音播报,隧道广播,钢铁广播广播系统

网络有源号角(50W-100W)社区小区广播 工地语音播报,隧道广播,钢铁广播广播系统 SV-7042T 50W网络有源号角 SV-7042T是深圳锐科达电子有限公司的一款壁挂式网络有源号角,具有10/100M以太网接口,可将网络音…...

【Kali Linux高级渗透测试】深入剖析Kali Linux:高级渗透测试技术与实践

📕作者简介:热爱跑步的恒川,致力于C/C、Java、Python等多编程语言,热爱跑步,喜爱音乐的一位博主。 📗本文收录于恒川的日常汇报系列,大家有兴趣的可以看一看 📘相关专栏C语言初阶、C…...

DHCP中继实验

文章目录 一、实验背景与目的二、实验拓扑三、实验需求四、实验解法1. 配置IP地址2.配置R1为DHCP服务器,能够跨网段为192.168.2.0/24网段自动分配IP地址3. 在PC3上Ping 192.168.1.1,确认可以Ping通 摘要: 本实验旨在通过配置DHCP中继实现跨网…...

C++进阶之多态

多态 多态的概念多态的定义及实现1.多态的构成条件2.虚函数3.虚函数的重写4.虚函数重写的两个例外5.C11 override 和 final6.重载、覆盖(重写)、隐藏(重定义)的对比 抽象类1.概念2.接口继承和实现继承 多态的原理1.虚函数表2.多态的原理3.动态绑定与静态绑定 单继承和多继承关系…...

QtCreator中三种不同编译版本 debug、release、profile 的区别

debug调试模式,编译后的可执行文件很大,带了很多调试符号信息等,方便开发阶段调试的时候进入具体的堆栈查看值。会打开所有的断言,运行阶段性能差速度慢,可能会有卡顿感觉。 release发布模式,编译后的可执…...

golang中map赋值

众所周知,golang中map是一个指针,既然是一个指针,那么参数传递、赋值应该都是指针传递,而下面的例子也印证了我的想法 package mainimport "fmt"func test_map2(m map[string]string) {fmt.Printf("inner: %v, %p…...

myspl使用指南

mysql数据库 使用命令行工具连接数据库 mysql -h -u 用户名 -p -u表示后面是用户名-p表示后面是密码-h表示后面是主机名,登录当前设备可省略。 如我们要登录本机用户名为root,密码为123456的账户: mysql -u root -p按回车,然后…...

【深度学习_TensorFlow】过拟合

写在前面 过拟合与欠拟合 欠拟合: 是指在模型学习能力较弱,而数据复杂度较高的情况下,模型无法学习到数据集中的“一般规律”,因而导致泛化能力弱。此时,算法在训练集上表现一般,但在测试集上表现较差&…...

uniapp授权小程序隐私弹窗效果demo(整理)

<template> <view class"dealBox"><view class"txtBox padding10"><!-- 查看协议 -->在您使用施工现场五星计划小程序之前&#xff0c;请仔细阅读<text class"goToPrivacy" click"handleOpenPrivacyContract&qu…...

c++学习之string实现

字符串 - C引用 (cplusplus.com)这里给出标准官方的string实现&#xff0c;可以看到设计还是较为复杂的&#xff0c;有成员函数&#xff0c;迭代器&#xff0c;修饰符&#xff0c;容量&#xff0c;元素访问&#xff0c;字符串操作等&#xff0c;将字符尽可能的需求都设计出来&a…...

kubevirt虚机创建svc通过NodePort的方式暴露端口

背景 存在kubevit存在的三个虚机&#xff1a; ubuntu-4tlg7 7d22h Running True ubuntu-7kgrk 7d22h Running True ubuntu-94kg2 7d22h Running True 网络没有做透传&#xff0c;pod也不是underlay网络想要通过NodePort方式暴露虚机22端口进行远程登录。 …...

Elasticsearch终端命令行用法大全

API作用使用场景curl localhost:9200/_cluster/health?pretty查看ES健康状态curl localhost:9200/_cluster/settings?pretty查看ES集群的设置其中persistent为永久设置&#xff0c;重启仍然有效&#xff1b;trainsient为临时设置&#xff0c;重启失效curl localhost:9200/_ca…...

nacos版本升级注意事项

背景&#xff1a;nacos版本升级&#xff0c;1.0.1升级到2.1.2&#xff0c;nacos主要用作配置中心 1 从官网下载新版本nacos压缩包 2 由于1.x到2.x版本数据结构发生变化&#xff0c;无法沿用旧的数据库&#xff0c;所以新建一个数据库实例&#xff0c;来保存具体的nacos配置信息…...

JavaScript作用域与作用域链

JavaScript作用域与作用域链 JavaScript的作用域和作用域链是理解这门语言的关键概念之一。作用域指的是变量和函数在程序中可被访问的范围。作用域链是由函数的嵌套关系决定的变量对象的链式结构。 静态作用域与动态作用域 JavaScript使用静态作用域&#xff0c;也称为词法…...

MQTT异常掉线原因

一、业务场景 我们在使用MQTT协议的时候&#xff0c;有些伙伴可能会遇到MQTT客户端频繁掉线、上线问题 二、原因分析及异常处理 1.原因&#xff1a;使用相同的clientID 方案&#xff1a;全局使用的clientID保证唯一性&#xff0c;可以采用UUID等方式 2.原因: 当前用户没有Top…...

重新理解百度智能云:写在大模型开放后的24小时

在这些回答背后共同折射出的一个现实是——大模型不再是一个单选题&#xff0c;而更是一个综合题。在这个新的时代帆船上&#xff0c;产品、服务、安全、开放等全部都需要成为必需品&#xff0c;甚至是从企业的落地层面来看&#xff0c;这些更是刚需品。 作者| 皮爷 出品|产…...

Stable Diffusion 提示词技巧

文章目录 背景介绍如何写好提示词提示词的语法正向提示词负向提示词 随着AI技术的不断发展&#xff0c;越来越多的新算法涌现出来&#xff0c;例如Stable Diffusion、Midjourney、Dall-E等。相较于传统算法如GAN和VAE&#xff0c;这些新算法在生成高分辨率、高质量的图片方面表…...

VS2019编译curl库

下载&#xff1a; curl-7.61.0.tar.gz 编译&#xff1a; 解压到一个文件下&#xff0c;然后右键以管理员权限运行buildconf.bat 编译x64的库使用的是x64 Native Tools Command Prompt for VS 2019 本机工具命令提示&#xff0c;如果想编译x86的库&#xff0c;可以选择x86 Nat…...

yolov5自定义模型训练三

经过11个小时cpu训练完如下 在runs/train/expx里存放训练的结果&#xff0c; 测试是否可以检测ok 网上找的这张识别效果不是很好&#xff0c;通过加大训练次数和数据集的话精度可以提升。 训练后的权重也可以用视频源来识别&#xff0c; python detect.py --source 0 # webca…...

服务器中了mkp勒索病毒该怎么办?勒索病毒解密,数据恢复

mkp勒索病毒算的上是一种比较常见的勒索病毒类型了。它的感染数量上也常年排在前几名的位置。所以接下来就由云天数据恢复中心的技术工程师来对mkp勒索病毒做一个分析&#xff0c;以及中招以后应该怎么办。 一&#xff0c;中了mkp勒索病毒的表现 桌面以及多个文件夹当中都有一封…...

Docker环境搭建Prometheus实验环境

环境&#xff1a; OS&#xff1a;Centos7 Docker: 20.10.9 - Community Centos部署Docker 【Kubernetes】Centos中安装Docker和Minikube_云服务器安装docker和minikube_DivingKitten的博客-CSDN博客 一、拉取Prometheus镜像 ## 拉取镜像 docker pull prom/prometheus ## 启动p…...

Python Qt学习(七)Listview

源代码&#xff1a; # -*- coding: utf-8 -*-# Form implementation generated from reading ui file qt_listview.ui # # Created by: PyQt5 UI code generator 5.15.9 # # WARNING: Any manual changes made to this file will be lost when pyuic5 is # run again. Do not…...

哈希表HashMap(基于vector和list)

C数据结构与算法实现&#xff08;目录&#xff09; 1 什么是HashMap&#xff1f; 我们这里要实现的HashMap接口不会超过标准库的版本&#xff08;是一个子集&#xff09;。 HashMap是一种键值对容器&#xff08;关联容器&#xff09;&#xff0c;又叫字典。 和其他容易一样…...

go中的函数

demo1:函数的几种定义方式 package mainimport ("errors""fmt" )/* 函数的用法 跟其他语言的区别&#xff1a;支持多个返回值*///函数定义方法1 func add(a, b int) int {return a b }//函数定义方法2 func add2(a, b int) (sun int) {sun a breturn s…...

小试 InsCode AI 创作助手

个人理解&#xff1a; 自ChatGPT新版现世&#xff0c;一直被视面替代人工工作的世大挑战&#xff0c;各类人工智能语言生成工目层出不穷&#xff0c;也在不断影响着我们日常的工作和生活 小试CSDN的InsCode AI&#xff1a; - 基本概念查询方便&#xff0c;与个人了解&…...

粉丝经验分享:13:00 开始的面试,13:06 就结束了,问题真是变态

&#x1f337;&#x1f341; 博主猫头虎&#xff08;&#x1f405;&#x1f43e;&#xff09;带您 Go to New World✨&#x1f341; &#x1f984; 博客首页——&#x1f405;&#x1f43e;猫头虎的博客&#x1f390; &#x1f433; 《面试题大全专栏》 &#x1f995; 文章图文…...