当前位置：首页 > news >正文

MOE论文详解(4)-GLaM

news 2025/7/7 16:05:40

2022年google在GShard之后发表另一篇跟MoE相关的paper, 论文名为GLaM (Generalist Language Model), 最大的GLaM模型有1.2 trillion参数, 比GPT-3大7倍, 但成本只有GPT-3的1/3, 同时效果也超过GPT-3. 以下是两者的对比:

在这里插入图片描述

跟之前模型对比如下, 跟GShard和Switch-C相比, GLaM是第一个MoE在Decoder-only模型上的应用. (整体变化其实不大)

在这里插入图片描述

1. 训练数据

GLaM模型使用开源的1.6万亿(trillion)个token进行训练, 下图说明了训练数据的种类与混合比例:

在这里插入图片描述

2. 模型结构

整体模型结构跟GShard类似, 如下图所示, 总共有64个expert, 门控网络每次从中选择2个expert进行计算. 另外还有几点改动:

使用relative positional bias(From Transformer-XL) 替换标准的position embedding
在非MoE Transformer层, 使用Gated Linear Unit(GLU)和Gaussian Error Linear Unit(GeLU)激活来替换第一个线性层和激活.
GLaM模型训练中权重和计算的切分使用2维的切分算法(From GSPMD).
- 把不同MoE layer上相同位置(具有相同的index值)的专家放到同一个device设备上, 使得不同的MoE layer得到相同的计算图
- 使用while_loop控制语句wrap重复性的MoE layer
- 要使得模型效果好, expert要足够大. 如果一个expert足够大时一个expert就对应多个core来分配, 也就是一个expert对应 $\frac{N}{E}$ 个device. expert的权重shape为 $[E, M, H]$ , 按专家维度 $E$ 和hidden维度 $H$ 来切分; input activation tensor 的shape大小为 $[B, S, M]$ , 按 batch维度 $B$ 和 model维度 $M$ 来进行切分.
- 同时也依赖GSPMD的编译pass过程来决定剩下tensor的切分策略

在这里插入图片描述

3. 结果

GPT-3与GLaM的比较如下, 分别在zero-shot, one-shot, few-shot等多个方面进行了比较, 效果比GPT-3要好

在这里插入图片描述

4. 参考

GLaM
MOE论文详解(4)-GLaM

MOE论文详解(4)-GLaM

2022年google在GShard之后发表另一篇跟MoE相关的paper, 论文名为GLaM (Generalist Language Model), 最大的GLaM模型有1.2 trillion参数, 比GPT-3大7倍, 但成本只有GPT-3的1/3, 同时效果也超过GPT-3. 以下是两者的对比: 跟之前模型对比如下, 跟GShard和Switch-C相比, GLaM是第一…...

编程日记 2024/10/18 7:08:21

LeetCode322：零钱兑换

题目链接：322. 零钱兑换 - 力扣（LeetCode） 代码如下 class Solution { public:int coinChange(vector<int>& coins, int amount) {vector<int> dp(amount 1, INT_MAX);dp[0] 0;for(int i 0; i < coins.size(); i){fo…...

编程日记 2024/10/18 7:03:17

速盾：高防 cdn 提供 cc 防护？

在当今网络环境中，网站面临着各种安全威胁，其中 CC（Challenge Collapsar）攻击是一种常见的分布式拒绝服务攻击方式。高防 CDN（Content Delivery Network，内容分发网络）作为一种有效的网络安全防…...

编程日记 2024/10/18 7:02:16

【大数据应用开发】2023年全国职业院校技能大赛赛题第10套

如有需要备赛资料和远程培训，可私博主，详细了解目录任务A：大数据平台搭建（容器环境）（15分）任务B：离线数据处理（25分）任务C：数据挖掘（10分）任务D：数据采集与实时计算（20分）任务E：数据可视化（15分）任务F：综合分析（10分）任务A：大数据平台搭…...

编程日记 2024/10/18 7:01:15

【源码部署】解决SpringBoot无法加载yml文件配置，总是使用8080端口方案

打开idea，file ->Project Structure 找到Modules ，在右侧找到resource目录，是否指定了resource，点击对应文件夹会有提示...

编程日记 2024/10/18 7:00:14

2010年国赛高教杯数学建模B题上海世博会影响力的定量评估解题全过程文档及程序

2010年国赛高教杯数学建模 B题上海世博会影响力的定量评估 2010年上海世博会是首次在中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始，世博会正日益成为各国人民交流历史文化、展示科技成果、体现合作精神、展望未来发展等的重要舞台。请你们选择感兴…...

编程日记 2024/10/18 6:59:13

使用nginx配置静态页面展示

文章目录前言正文安装nginx配置前言目前有一系列html文件，比如sphinx通过make html输出的文件，需要通过ip远程访问，这就需要ngnix 主要内容参考：https://blog.csdn.net/qq_32460819/article/details/121131062 主要针对在do…...

编程日记 2024/10/18 6:57:11

[IOI2018] werewolf 狼人（Kruskal重构树 + 主席树）

https://www.luogu.com.cn/problem/P4899 首先，我们肯定要建两棵Kruskal重构树的，然后判两棵子树是否有相同编号节点这是个经典问题，我们首先可以拍成dfs序，然后映射过去，然后相当于是判断一个区间是否有 [ l , r …...

编程日记 2024/10/18 6:54:08

1.snmpgetnext介绍 snmpgetnext命令是用来获取下一个节点的OID的值。 2.snmpgetnext安装 1.snmpgetnext安装命令： yum -y install net-snmp net-snmp-utils [root@logstash ~]# yum -y install net-snmp net-snmp-utils Loaded plugins: fastestmirror Loading mirror …...

编程日记 2024/10/18 6:52:06

frameworks 之触摸事件窗口查找

frameworks 之触摸事件窗口查找 1. 初始化数据2. 查找窗口3. 分屏处理4. 检查对应的权限5.是否需要将事件传递给壁纸界面6. 成功处理触摸流程中最重要的流程之一就是查找需要传递输入事件的窗口，并将触摸事件传递下去。涉及到的类如下 frameworks/native/service…...

编程日记 2024/10/18 6:51:05

memset的用法

memset 是 C 语言标准库中的一个函数，用于将一块内存区域设置为特定的值。它的原型如下： c void *memset(void *s, int c, size_t n); - s 参数是要被填充的内存块的起始地址。 - c 参数是要填充的值。这个值会被转换为无符号字符，然后用来…...

编程日记 2024/10/18 6:50:01

阿里云国际站DDoS高防增值服务怎么样?

利用国外服务器建站的话，选择就具有多样性了，相较于我们常见的阿里云和腾讯云，国外的大厂商还有谷歌云，微软云，亚马逊云等，但是较之这些，同等产品进行比较的话，阿里云可以说当之无愧…...

编程日记 2024/10/18 6:46:57

open-cd中的changerformer网络结构分析

open-cd 目录 open-cd1.安装2.源码结构分析主干网络1.1 主干网络类2.neck2.Decoder3.测试模型6. changer主干网络总结该开源库基于： mmcv mmseg mmdet mmengine 1.安装在安装过程中遇到的问题： 1.pytorch版本问题，open-cd采用的mmcv版本比…...

编程日记 2024/10/18 6:44:55

太速科技-426-基于XC7Z100+TMS320C6678的图像处理板卡

基于XC7Z100TMS320C6678的图像处理板卡一、板卡概述板卡基于独立的结构，实现ZYNQ XC7Z100DSP TMS320C6678的多路图像输入输出接口的综合图像处理，包含1路Camera link输入输出、1路HD-SDI输入输出、1路复合视频输入输出、2路光纤等视频接口，…...

编程日记 2024/10/18 6:41:52

asp.net Core 自定义中间件

内联中间件中间件转移到类中推荐中间件通过IApplicationBuilder 公开中间件使用扩展方法调用中间件含有依赖项的》》》中间件参考资料...

编程日记 2024/10/18 6:40:51

掌握 C# 设计模式：从基础到依赖注入

设计模式是一种可以在开发中重复使用的解决方案，能够提高代码的可维护性、扩展性和复用性。C# 中常见的设计模式包括单例模式、工厂模式、观察者模式、策略模式等。本文将介绍这些常见的设计模式，并探讨 SOLID 原则和依赖注入（Dependency Inj…...

编程日记 2024/10/18 6:38:48

根据json转HttpClient脚本

String json “{\n” " “paths”: {\n" " “/dev-api/system/subjectResult/exportUserList”: {\n" " “post”: {\n" " “tags”: [\n" " “bd-subject-result-controller”\n" " ],\n" " “summ…...

编程日记 2024/10/18 6:37:48

如何将LiDAR坐标系下的3D点投影到相机2D图像上

将激光雷达点云投影到相机图像上做数据层的前融合，或者把激光雷达坐标系下标注的物体点云的3d bbox投影到相机图像上画出来，都需要做点云3D点坐标到图像像素坐标的转换计算，也就是LiDAR 3D坐标转像素坐标。看了网上一些文章都存在有错误或者…...

编程日记 2024/10/18 6:31:41

JAVA就业笔记6——第二阶段（3）

课程须知 A类知识：工作和面试常用，代码必须要手敲，需要掌握。 B类知识：面试会问道，工作不常用，代码不需要手敲，理解能正确表达即可。 C类知识：工作和面试不常用，代码不…...

编程日记 2024/10/18 6:28:39

02.04、分割链表

02.04、[中等] 分割链表 1、题目描述给你一个链表的头节点 head 和一个特定值 x ，请你对链表进行分隔，使得所有小于 x 的节点都出现在大于或等于 x 的节点之前。你不需要保留每个分区中各节点的初始相对位置。 2、解题思路本题要求将链表分隔…...

编程日记 2024/10/18 6:25:37

线程与协程

1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指：像函数调用/返回一样轻量地完成任务切换。举例说明： 当你在程序中写一个函数调用： funcA() 然后 funcA 执行完后返回&…...

编程新知 2025/6/16 12:40:21

工程地质软件市场：发展现状、趋势与策略建议

一、引言在工程建设领域，准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具，正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...

编程新知 2025/6/17 23:10:20

【配置 YOLOX 用于按目录分类的图片数据集】

现在的图标点选越来越多，如何一步解决，采用 YOLOX 目标检测模式则可以轻松解决要在 YOLOX 中使用按目录分类的图片数据集（每个目录代表一个类别，目录下是该类别的所有图片），你需要进行以下配置步骤&#x…...

编程新知 2025/7/6 22:03:48

2025盘古石杯决赛【手机取证】

前言第三届盘古石杯国际电子数据取证大赛决赛最后一题没有解出来，实在找不到，希望有大佬教一下我。还有就会议时间，我感觉不是图片时间，因为在电脑看到是其他时间用老会议系统开的会。手机取证 1、分析鸿蒙手机检材&#x…...

编程新知 2025/7/7 0:14:49

关于 WASM：1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么？ WebAssembly（WASM） 是一种能在现代浏览器中高效运行的二进制指令格式，它不是传统的编程语言，而是一种低级字节码格式，可由高级语言（如 C、C、Rust&am…...

编程新知 2025/7/6 13:07:43

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2025/6/26 4:10:00

深度学习水论文：mamba＋图像增强

🧀当前视觉领域对高效长序列建模需求激增，对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模，以及动态计算优势，在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内，就有不…...

编程新知 2025/7/6 1:03:44

日常一水C

多态言简意赅：就是一个对象面对同一事件时做出的不同反应而之前的继承中说过，当子类和父类的函数名相同时，会隐藏父类的同名函数转而调用子类的同名函数，如果要调用父类的同名函数，那么就需要对父类进行引用&#…...

编程新知 2025/6/16 17:00:42

6️⃣Go 语言中的哈希、加密与序列化：通往区块链世界的钥匙

Go 语言中的哈希、加密与序列化：通往区块链世界的钥匙一、前言：离区块链还有多远？区块链听起来可能遥不可及，似乎是只有密码学专家和资深工程师才能涉足的领域。但事实上，构建一个区块链的核心并不复杂，尤其当你已经掌握了一门系统编程语言，比如 Go。要真正理解区…...

编程新知 2025/6/16 8:33:36

如何做好一份技术文档？从规划到实践的完整指南

如何做好一份技术文档？从规划到实践的完整指南 🌟 嗨，我是IRpickstars！ 🌌 总有一行代码，能点亮万千星辰。 🔍 在技术的宇宙中，我愿做永不停歇的探索者。 ✨ 用代码丈量世界&…...

编程新知 2025/7/6 8:17:54

MOE论文详解(4)-GLaM

1. 训练数据

2. 模型结构

3. 结果

4. 参考

相关文章：

MOE论文详解(4)-GLaM

LeetCode322：零钱兑换

速盾：高防 cdn 提供 cc 防护？

【大数据应用开发】2023年全国职业院校技能大赛赛题第10套

【源码部署】解决SpringBoot无法加载yml文件配置，总是使用8080端口方案

2010年国赛高教杯数学建模B题上海世博会影响力的定量评估解题全过程文档及程序

使用nginx配置静态页面展示

[IOI2018] werewolf 狼人（Kruskal重构树 + 主席树）

snmpgetnext使用说明

frameworks 之触摸事件窗口查找

memset的用法

阿里云国际站DDoS高防增值服务怎么样?

open-cd中的changerformer网络结构分析

太速科技-426-基于XC7Z100+TMS320C6678的图像处理板卡

asp.net Core 自定义中间件

掌握 C# 设计模式：从基础到依赖注入

根据json转HttpClient脚本

如何将LiDAR坐标系下的3D点投影到相机2D图像上

JAVA就业笔记6——第二阶段（3）

02.04、分割链表

线程与协程

工程地质软件市场：发展现状、趋势与策略建议

【配置 YOLOX 用于按目录分类的图片数据集】

2025盘古石杯决赛【手机取证】

关于 WASM：1. WASM 基础原理

初探Service服务发现机制

深度学习水论文：mamba＋图像增强

日常一水C

6️⃣Go 语言中的哈希、加密与序列化：通往区块链世界的钥匙

如何做好一份技术文档？从规划到实践的完整指南