当前位置: 首页 > news >正文

MOE论文详解(4)-GLaM

2022年google在GShard之后发表另一篇跟MoE相关的paper, 论文名为GLaM (Generalist Language Model), 最大的GLaM模型有1.2 trillion参数, 比GPT-3大7倍, 但成本只有GPT-3的1/3, 同时效果也超过GPT-3. 以下是两者的对比:

在这里插入图片描述

跟之前模型对比如下, 跟GShard和Switch-C相比, GLaM是第一个MoE在Decoder-only模型上的应用. (整体变化其实不大)

在这里插入图片描述

1. 训练数据

GLaM模型使用开源的1.6万亿(trillion)个token进行训练, 下图说明了训练数据的种类与混合比例:

在这里插入图片描述

2. 模型结构

整体模型结构跟GShard类似, 如下图所示, 总共有64个expert, 门控网络每次从中选择2个expert进行计算. 另外还有几点改动:

  • 使用relative positional bias(From Transformer-XL) 替换标准的position embedding
  • 在非MoE Transformer层, 使用Gated Linear Unit(GLU)Gaussian Error Linear Unit(GeLU)激活来替换第一个线性层和激活.
  • GLaM模型训练中权重和计算的切分使用2维的切分算法(From GSPMD).
    • 把不同MoE layer上相同位置(具有相同的index值)的专家放到同一个device设备上, 使得不同的MoE layer得到相同的计算图
    • 使用while_loop控制语句wrap重复性的MoE layer
    • 要使得模型效果好, expert要足够大. 如果一个expert足够大时一个expert就对应多个core来分配, 也就是一个expert对应 N E \frac{N}{E} EN 个device. expert的权重shape为 [ E , M , H ] [E, M, H] [E,M,H], 按专家维度 E E E 和hidden维度 H H H 来切分; input activation tensor 的shape大小为 [ B , S , M ] [B, S, M] [B,S,M], 按 batch维度 B B B 和 model维度 M M M 来进行切分.
    • 同时也依赖GSPMD的编译pass过程来决定剩下tensor的切分策略

在这里插入图片描述

3. 结果

GPT-3与GLaM的比较如下, 分别在zero-shot, one-shot, few-shot等多个方面进行了比较, 效果比GPT-3要好

在这里插入图片描述

4. 参考

  • GLaM
  • MOE论文详解(4)-GLaM

相关文章:

MOE论文详解(4)-GLaM

2022年google在GShard之后发表另一篇跟MoE相关的paper, 论文名为GLaM (Generalist Language Model), 最大的GLaM模型有1.2 trillion参数, 比GPT-3大7倍, 但成本只有GPT-3的1/3, 同时效果也超过GPT-3. 以下是两者的对比: 跟之前模型对比如下, 跟GShard和Switch-C相比, GLaM是第一…...

LeetCode322:零钱兑换

题目链接&#xff1a;322. 零钱兑换 - 力扣&#xff08;LeetCode&#xff09; 代码如下 class Solution { public:int coinChange(vector<int>& coins, int amount) {vector<int> dp(amount 1, INT_MAX);dp[0] 0;for(int i 0; i < coins.size(); i){fo…...

速盾:高防 cdn 提供 cc 防护?

在当今网络环境中&#xff0c;网站面临着各种安全威胁&#xff0c;其中 CC&#xff08;Challenge Collapsar&#xff09;攻击是一种常见的分布式拒绝服务攻击方式。高防 CDN&#xff08;Content Delivery Network&#xff0c;内容分发网络&#xff09;作为一种有效的网络安全防…...

【大数据应用开发】2023年全国职业院校技能大赛赛题第10套

如有需要备赛资料和远程培训,可私博主,详细了解 目录 任务A:大数据平台搭建(容器环境)(15分) 任务B:离线数据处理(25分) 任务C:数据挖掘(10分) 任务D:数据采集与实时计算(20分) 任务E:数据可视化(15分) 任务F:综合分析(10分) 任务A:大数据平台搭…...

【源码部署】解决SpringBoot无法加载yml文件配置,总是使用8080端口方案

打开idea&#xff0c;file ->Project Structure 找到Modules &#xff0c;在右侧找到resource目录&#xff0c;是否指定了resource&#xff0c;点击对应文件夹会有提示...

2010年国赛高教杯数学建模B题上海世博会影响力的定量评估解题全过程文档及程序

2010年国赛高教杯数学建模 B题 上海世博会影响力的定量评估 2010年上海世博会是首次在中国举办的世界博览会。从1851年伦敦的“万国工业博览会”开始&#xff0c;世博会正日益成为各国人民交流历史文化、展示科技成果、体现合作精神、展望未来发展等的重要舞台。请你们选择感兴…...

使用nginx配置静态页面展示

文章目录 前言正文安装nginx配置 前言 目前有一系列html文件&#xff0c;比如sphinx通过make html输出的文件&#xff0c;需要通过ip远程访问&#xff0c;这就需要ngnix 主要内容参考&#xff1a;https://blog.csdn.net/qq_32460819/article/details/121131062 主要针对在do…...

[IOI2018] werewolf 狼人(Kruskal重构树 + 主席树)

https://www.luogu.com.cn/problem/P4899 首先&#xff0c;我们肯定要建两棵Kruskal重构树的&#xff0c;然后判两棵子树是否有相同编号节点 这是个经典问题&#xff0c;我们首先可以拍成dfs序&#xff0c;然后映射过去&#xff0c;然后相当于是判断一个区间是否有 [ l , r …...

snmpgetnext使用说明

1.snmpgetnext介绍 snmpgetnext命令是用来获取下一个节点的OID的值。 2.snmpgetnext安装 1.snmpgetnext安装 命令: yum -y install net-snmp net-snmp-utils [root@logstash ~]# yum -y install net-snmp net-snmp-utils Loaded plugins: fastestmirror Loading mirror …...

frameworks 之 触摸事件窗口查找

frameworks 之 触摸事件窗口查找 1. 初始化数据2. 查找窗口3. 分屏处理4. 检查对应的权限5.是否需要将事件传递给壁纸界面6. 成功处理 触摸流程中最重要的流程之一就是查找需要传递输入事件的窗口&#xff0c;并将触摸事件传递下去。 涉及到的类如下 frameworks/native/service…...

memset的用法

memset 是 C 语言标准库中的一个函数&#xff0c;用于将一块内存区域设置为特定的值。它的原型如下&#xff1a; c void *memset(void *s, int c, size_t n); - s 参数是要被填充的内存块的起始地址。 - c 参数是要填充的值。这个值会被转换为无符号字符&#xff0c;然后用来…...

阿里云国际站DDoS高防增值服务怎么样?

利用国外服务器建站的话&#xff0c;选择就具有多样性了&#xff0c;相较于我们常见的阿里云和腾讯云&#xff0c;国外的大厂商还有谷歌云&#xff0c;微软云&#xff0c;亚马逊云等&#xff0c;但是较之这些&#xff0c;同等产品进行比较的话&#xff0c;阿里云可以说当之无愧…...

open-cd中的changerformer网络结构分析

open-cd 目录 open-cd1.安装2.源码结构分析主干网络1.1 主干网络类2.neck2.Decoder3.测试模型6. changer主干网络 总结 该开源库基于&#xff1a; mmcv mmseg mmdet mmengine 1.安装 在安装过程中遇到的问题&#xff1a; 1.pytorch版本问题&#xff0c;open-cd采用的mmcv版本比…...

太速科技-426-基于XC7Z100+TMS320C6678的图像处理板卡

基于XC7Z100TMS320C6678的图像处理板卡 一、板卡概述 板卡基于独立的结构&#xff0c;实现ZYNQ XC7Z100DSP TMS320C6678的多路图像输入输出接口的综合图像处理&#xff0c;包含1路Camera link输入输出、1路HD-SDI输入输出、1路复合视频输入输出、2路光纤等视频接口&#xff0c;…...

asp.net Core 自定义中间件

内联中间件 中间件转移到类中 推荐中间件通过IApplicationBuilder 公开中间件 使用扩展方法 调用中间件 含有依赖项的 》》》中间件 参考资料...

掌握 C# 设计模式:从基础到依赖注入

设计模式是一种可以在开发中重复使用的解决方案&#xff0c;能够提高代码的可维护性、扩展性和复用性。C# 中常见的设计模式包括单例模式、工厂模式、观察者模式、策略模式等。本文将介绍这些常见的设计模式&#xff0c;并探讨 SOLID 原则和依赖注入&#xff08;Dependency Inj…...

根据json转HttpClient脚本

String json “{\n” " “paths”: {\n" " “/dev-api/system/subjectResult/exportUserList”: {\n" " “post”: {\n" " “tags”: [\n" " “bd-subject-result-controller”\n" " ],\n" " “summ…...

如何将LiDAR坐标系下的3D点投影到相机2D图像上

将激光雷达点云投影到相机图像上做数据层的前融合&#xff0c;或者把激光雷达坐标系下标注的物体点云的3d bbox投影到相机图像上画出来&#xff0c;都需要做点云3D点坐标到图像像素坐标的转换计算&#xff0c;也就是LiDAR 3D坐标转像素坐标。 看了网上一些文章都存在有错误或者…...

JAVA就业笔记6——第二阶段(3)

课程须知 A类知识&#xff1a;工作和面试常用&#xff0c;代码必须要手敲&#xff0c;需要掌握。 B类知识&#xff1a;面试会问道&#xff0c;工作不常用&#xff0c;代码不需要手敲&#xff0c;理解能正确表达即可。 C类知识&#xff1a;工作和面试不常用&#xff0c;代码不…...

02.04、分割链表

02.04、[中等] 分割链表 1、题目描述 给你一个链表的头节点 head 和一个特定值 x &#xff0c;请你对链表进行分隔&#xff0c;使得所有 小于 x 的节点都出现在 大于或等于 x 的节点之前。 你不需要 保留 每个分区中各节点的初始相对位置。 2、解题思路 本题要求将链表分隔…...

【AGI】Harness Engineering 深度解析:AI Agent 时代的工程范式革命

Harness Engineering 深度解析:AI Agent 时代的工程范式革命 引言:当 AI Agent 开始"翻车" 一、什么是 Harness Engineering? 二、Harness Engineering 的三大核心领域 2.1 架构约束:为 AI 划定"奔跑边界" 2.2 反馈闭环:让 AI"自愈"而非&qu…...

Lychee-Rerank高可用部署架构:基于Docker Compose的多实例负载均衡

Lychee-Rerank高可用部署架构&#xff1a;基于Docker Compose的多实例负载均衡 如果你正在把Lychee-Rerank这类重排序模型用到线上业务里&#xff0c;可能已经发现了一个问题&#xff1a;单个服务实例太脆弱了。流量一上来&#xff0c;服务就卡顿&#xff1b;服务器出点小毛病…...

AI超清画质增强实战:低分辨率图片修复,让模糊变清晰

AI超清画质增强实战&#xff1a;低分辨率图片修复&#xff0c;让模糊变清晰 1. 技术背景与核心价值 1.1 为什么需要超分辨率技术 在数字图像处理领域&#xff0c;我们经常遇到这样的困扰&#xff1a;珍贵的家庭老照片因年代久远变得模糊不清&#xff1b;从网络下载的图片分辨…...

基于Qt框架的桌面应用开发:集成nli-distilroberta-base实现本地文本分析工具

基于Qt框架的桌面应用开发&#xff1a;集成nli-distilroberta-base实现本地文本分析工具 1. 引言&#xff1a;当桌面应用遇上NLP模型 最近在开发一个跨平台的文本分析工具时&#xff0c;遇到了一个有趣的需求&#xff1a;如何让传统桌面应用具备自然语言理解能力&#xff1f;…...

RexUniNLU效果展示:多领域文本信息抽取真实案例解析

RexUniNLU效果展示&#xff1a;多领域文本信息抽取真实案例解析 1. 引言&#xff1a;当文本遇见“零样本”理解 想象一下&#xff0c;你拿到一份全新的合同、一篇陌生的行业报告&#xff0c;或者一堆杂乱无章的客户反馈。你需要快速从中找出关键信息&#xff1a;谁、在什么时…...

ComfyUI实战:Qwen-Image三大ControlNet方案深度评测与选型指南

1. Qwen-Image ControlNet方案全景概览 第一次在ComfyUI里看到Qwen-Image的ControlNet选项时&#xff0c;我对着三套方案发了半小时呆——就像站在自助餐厅里面对琳琅满目的菜品&#xff0c;每样都想尝却不知从哪下手。经过两周的密集测试&#xff0c;终于摸清了这些方案的脾性…...

SAP S/4HANA Cloud 公有云企业适配与工博科技行业化实施方案

目录 一、直击转型痛点&#xff1a;为何企业需要SAP S/4HANA Cloud 公有云版&#xff1f; 二、精准画像&#xff1a;SAP S/4HANA Cloud 公有云版适合哪些企业&#xff1f; 1. 跨区域经营&#xff0c;需统一管理的集团型企业 2. 生产计划频繁调整&#xff0c;需实时协同的制…...

为什么你的.NET 9容器镜像比别人胖47%?——官方SDK分层优化与多阶段构建深度拆解(实测数据支撑)

第一章&#xff1a;为什么你的.NET 9容器镜像比别人胖47%&#xff1f;——问题溯源与性能基线建立当你运行 docker build -t myapp . 构建一个标准的 ASP.NET Core 9 Web API 项目时&#xff0c;镜像大小可能悄然突破 380MB&#xff1b;而采用最佳实践的同类镜像仅约 265MB——…...

VS Code开发STM32:高效嵌入式开发环境搭建指南

1. 为什么选择VS Code开发STM32&#xff1f; 作为一名嵌入式开发工程师&#xff0c;我最初接触STM32开发时使用的也是Keil MDK。但随着项目复杂度提升&#xff0c;Keil的局限性逐渐显现&#xff1a;收费高昂&#xff08;虽然可以找到特殊版本&#xff09;、代码补全功能弱、界…...

前端使用AI试水报告读

1 实用案例 1.1 表格样式生成 本示例用于生成包含富文本样式与单元格背景色的Word表格文档。 模板内容&#xff1a; 渲染代码&#xff1a; # python-docx-template/blob/master/tests/comments.py from docxtpl import DocxTemplate, RichText # data: python-docx-template/bl…...