当前位置: 首页 > news >正文

稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一,稀疏计算模拟了对人脑的观察,人脑在处理信息的时候只有少数神经元在活动,多数神经元是不工作的。而稀疏计算的基本思想是:在计算过程中,将一些不重要的参数设置为0,从而减少计算量。而这种计算量的减少规模经常是10倍级别,这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作,并取得了一些成果,大家可以看他们的宣传视频(https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA),下面推荐几篇经典的文章:

The Lottery Ticket Hypothesis(彩票假说)

  • 推荐理由: 这是这个领域里非常经典的一篇文章,作者提出了一种生成稀疏的高性能网络的简单方法:在对网络进行训练后,将所有小于某个阈值的权重设置为0(对其进行剪枝),将其余权重重置回其初始配置,然后在保证被剪枝的权重处于冻结状态的情况下(未经过训练),从这个起始配置重新训练网络。在训练最多相同次数的迭代后,它可以与原始网络的测试精度相匹配。
  • 论文地址: https://openreview.net/pdf?id=rJl-b3RcF7
  • 相关解读: https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING (来自Jeff Dean的综述)

  • 推荐理由: 尽管彩票假说给业界提供了想象力,但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案,例如Mixtral 8✖️7B就是一种典型的MoE结构(https://zhuanlan.zhihu.com/p/673527090)。Jeff Dean的综述比较详细地介绍了什么是top-k routing、Upstream Scaling和Downstream Scaling
    在这里插入图片描述

  • 论文地址: https://arxiv.org/abs/2209.01667

  • 相关解读: https://mp.weixin.qq.com/s/mTqCMYUqo1ifcmxlYHYm2A 和 https://huggingface.co/blog/zh/moe

SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

在这里插入图片描述

  • 推荐理由: 该算法能够只用一张 A100(80G),在 4.5 个小时左右将 OPT-175B 的模型权重完成 60% 稀疏度的剪枝,且能保持较高的精度。而且可以很好地扩展到 2:4 模式的半结构化剪枝,以适配 A100 的稀疏计算。SparseGPT用来剪枝的思路其实和GPTQ有些类似,都是利用海森矩阵贪心地进行迭代更新,同时利用Cholesky分解来稳定数值计算
  • 论文地址: https://arxiv.org/pdf/2301.00774.pdf

相关文章:

稀疏计算、彩票假说、MoE、SparseGPT

稀疏计算可能是未来10年内最有潜力的深度学习方向之一,稀疏计算模拟了对人脑的观察,人脑在处理信息的时候只有少数神经元在活动,多数神经元是不工作的。而稀疏计算的基本思想是:在计算过程中,将一些不重要的参数设置为…...

Git Windows安装教程

Git简介 Git是目前世界上最先进的分布式版本控制系统。它的工作原理 / 流程如下: [ Workspace:工作区 Index / Stage:暂存区 Repository:仓库区(或本地仓库) Remote:远程仓库 ] Git的下载 去 Git 官网下载对应系统的软件了,下…...

iOS高级理论:Runtime应用

一、遍历类的属性,快速归档 在 iOS 中,可以使用 Runtime 遍历类的属性来实现快速的归档(Archiving)操作。归档是将对象转换为数据流以便存储或传输的过程。下面是一个简单的示例,展示如何使用 Runtime 遍历类的属性进…...

php判断和过滤get或者post的html标签,防止跨站点脚本(XSS),链接注入,框架注入等攻击

大部分网站都包含搜索功能,根据用户搜索的词去执行服务端的业务逻辑。如果一些黑客在搜索参数包含链接(a)、嵌入其他网页(iframe)、前端代码(script)等html字符,再加上服务端php不加…...

PySide6实现课堂点名程序

目录 一:实现思路 二:实现代码 三:完整代码和界面 一:实现思路 为了创建一点名程序,并编写一个基本的 GUI 应用程序。新建一个窗口,展在窗口界面添加开始和停止按钮的QPushButton,和展示正在显示的人名QLabel,点击开始时随机显示人名列表中的一个名字并且展示在QLab…...

瑞_Redis_Redis命令

文章目录 1 Redis命令Redis数据结构Redis 的 key 的层级结构1.0 Redis通用命令1.0.1 KEYS1.0.2 DEL1.0.3 EXISTS1.0.4 EXPIRE1.0.5 TTL 1.1 String类型1.1.0 String类型的常见命令1.1.1 SET 和 GET1.1.2 MSET 和 MGET1.1.3 INCR和INCRBY和DECY1.1.4 SETNX1.1.5 SETEX 1.2 Hash类…...

js 算法题 在数组中找出和为目标值 target 的那 两个 整数,并返回它们的数组下标

题目:给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。 你可以…...

基于springboot接口的编写

目录 1、模糊分页查询 2、批量删除 3、新增 4、编辑 此接口非彼接口。此接口是MVC的设计模式中的Controller层,一般我们会叫Controller层里的方法为接口。他们是负责接收前端或者其它服务的传来的请求,并对请求进行相应的处理,最终再将处…...

【HarmonyOS】鸿蒙开发之Video组件——第3.7章

Video组件内VideoOptions属性简介 src:设置视频地址。currentProgressRate:设置视频播放倍速,参数说明如下: number|string:只支持 0.75 , 1.0 , 1.25 , 1.75 , 2.0 。P…...

React引入css的几种方式以及应用

1.直接引入css文件 import "./parent.css" 2.引入css模块,定义文件名[组件名.module.css];该方式可避免类名的重复,每个组件都有独立的作用域,避免了全局污染,保证了类名的唯一性 import styles from &qu…...

[算法沉淀记录] 排序算法 —— 冒泡排序

排序算法 —— 冒泡排序 基本概念 冒泡排序是一种简单的排序算法。它重复地遍历要排序的列表,一次比较两个元素,并交换它们的位置,如果它们不是按照升序排列的。这步遍历是重复进行的,直到没有再需要交换,也就是说该…...

【机器人最短路径规划问题(栅格地图)】基于遗传算法求解

基于遗传算法求解机器人最短路径规划问题(栅格地图)的仿真结果 仿真结果: 路径长度的变化曲线: 遗传算法优化后的机器人避障路径:...

如何做代币分析:以 TRX 币为例

作者:lesleyfootprint.network 编译:cicifootprint.network 数据源:TRX 代币仪表板 (仅包括以太坊数据) 在加密货币和数字资产领域,代币分析起着至关重要的作用。代币分析指的是深入研究与代币相关的数据…...

关于地址引用与值引用的坑

List<UserInfo> userInfoList new List<UserInfo>(); List<UserInfo> userInfoList_new new List<UserInfo>(userInfoList);userInfoList_new 与userInfoList 指的是相同的内存吗&#xff1f; 答&#xff1a; 在C#中&#xff0c;userInfoList_new …...

初谈软件工程(一)

我就读于兰州交通大学的软件工程专业。虽然在全国众多的985、211高校中&#xff0c;兰州交通大学可能并不显眼&#xff0c;似乎未能跻身这些所谓的“顶尖”行列就意味着不被认可。然而&#xff0c;在甘肃省的教育领域中&#xff0c;它无疑是一座璀璨的明珠&#xff0c;名列前茅…...

自动化开展思路

自动化开展思路 本人在公司一直从事自动化测试推进工作&#xff0c;最近在好友的邀请下去其就职的公司分享如何开展自动化测试&#xff01; 希望能帮其解决如下几个痛点&#xff1a; 1.上线周期长&#xff1b; 2.测试时间紧张&#xff0c;上线信心不足&#xff0c;测试覆盖…...

安装使用zookeeper

先去官网下载zookeeper&#xff1a;Apache ZooKeeper 直接进入bin目录&#xff0c;使用powerShell打开。 输入: ./zkServer.cmd 命令&#xff0c;启动zookeeper。 zookeeper一般需要配合Dubbo一起使用&#xff0c;作为注册中心使用&#xff0c;可以参考另一篇博客&#xf…...

nginx实现http反向代理及负载均衡

目录 一、代理概述 1、代理概念 1.1 正向代理&#xff08;Forward Proxy&#xff09; 1.2 反向代理&#xff08;Reverse Proxy&#xff09; 1.3 正向代理与反向代理的区别 2、同构代理与异构代理 2.1 同构代理 2.2 异构代理 2.3 同构代理与异构代理的区别 二、四层代…...

vue组件中data为什么必须是一个函数

查看本专栏目录 关于作者 还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#x…...

科技论文编写思路

科技论文编写思路 1.基本框架2.课题可行性评估1.研究目标和意义2.研究方法和技术3.可行性和可操作性4.风险和不确定性5.经济性和资源投入6.成果预期和评估 3.写作思路4.利用AI读论文5.实验流程 1.基本框架 IntroductionRelated worksMethodExperiment and analysisDiscussionC…...

告别MATLAB环境:保姆级教程教你用App Designer打包独立EXE(含Runtime配置避坑)

MATLAB App Designer应用打包实战&#xff1a;从开发到分发的全流程指南 在工程计算和科研领域&#xff0c;MATLAB一直是不可或缺的工具。随着App Designer的推出&#xff0c;开发交互式GUI应用变得前所未有的简单。但当你完成了一个优秀的应用后&#xff0c;如何让没有MATLAB环…...

5分钟掌握上海交通大学LaTeX论文模板:终极排版解决方案

5分钟掌握上海交通大学LaTeX论文模板&#xff1a;终极排版解决方案 【免费下载链接】SJTUThesis 上海交通大学 LaTeX 论文模板 | Shanghai Jiao Tong University LaTeX Thesis Template 项目地址: https://gitcode.com/gh_mirrors/sj/SJTUThesis 上海交通大学LaTeX论文模…...

3步实现CATIA自动化装配:PyCATIA二次开发提升工程效率指南

3步实现CATIA自动化装配&#xff1a;PyCATIA二次开发提升工程效率指南 【免费下载链接】pycatia python module for CATIA V5 automation 项目地址: https://gitcode.com/gh_mirrors/py/pycatia 在现代制造业中&#xff0c;工程师们每天都在与各种重复性的装配工作打交道…...

富士胶片ApeosPort 3410SD静态IP设置保姆级教程:解决驱动装完找不到打印机的坑

富士胶片ApeosPort 3410SD静态IP设置全攻略&#xff1a;从原理到实战的深度解析 当你兴冲冲地拆开富士胶片ApeosPort 3410SD的包装&#xff0c;下载好官方驱动&#xff0c;准备大展身手时&#xff0c;却突然发现电脑怎么也找不到打印机——这种挫败感我太熟悉了。作为一位经历…...

linux基础命令整理合集

linux基础命令整理合集...

Phi-3-mini-4k-instruct-gguf行业落地:法律合同条款简写、医疗报告口语化转述

Phi-3-mini-4k-instruct-gguf行业落地&#xff1a;法律合同条款简写、医疗报告口语化转述 1. 模型简介与应用价值 Phi-3-mini-4k-instruct-gguf是微软推出的轻量级文本生成模型&#xff0c;特别适合处理专业领域的文本改写任务。这个模型虽然体积小&#xff0c;但在法律和医疗…...

从数据库索引到社交网络:用5个真实案例吃透离散数学的‘关系’与‘图’

从数据库索引到社交网络&#xff1a;用5个真实案例吃透离散数学的‘关系’与‘图’ 离散数学常被学生视为抽象难懂的"天书"&#xff0c;但当你拆开数据库索引、社交网络推荐、编译器优化的黑匣子&#xff0c;会发现这些技术奇迹的底层正是离散数学的精妙运用。本文将…...

2026奇点大会记忆系统分论坛未公开PPT泄露:12家头部AI公司提交的7种异构记忆接口协议,谁将定义下一代AIOS内存语义?

第一章&#xff1a;2026奇点智能技术大会&#xff1a;AGI与记忆系统 2026奇点智能技术大会(https://ml-summit.org) 本届大会首次将“记忆系统”确立为AGI架构的核心支柱&#xff0c;而非传统意义上的辅助模块。研究者提出&#xff0c;通用智能体必须具备可演化的长期记忆&am…...

C#怎么实现文件上传下载 C#如何用WebAPI实现大文件断点续传功能【网络】

ASP.NET Core 上传大文件需同时配置 IIS 最大请求体和控制器级 RequestSizeLimit&#xff1b;断点续传依赖服务端维护已上传字节数并校验唯一 ID&#xff1b;下载须流式处理避免内存溢出&#xff1b;合并分块需按序拼接并保证原子性。WebAPI 上传大文件时 IFormFile 直接报错或…...

uni-app怎么使用Vite uni-app Vue3版本构建工具配置【配置】

uni-app Vue3 项目自 v3.9.0 起默认使用 Vite 构建&#xff0c;无需手动切换&#xff1b;需确保 CLI ≥ 3.9.0、使用 Vue3 模板&#xff0c;配置应写在 vite.config.ts 中并调用 defineUniAppConfig&#xff0c;环境变量须以 UNI_APP_ 或 VUE_APP_ 开头&#xff0c;且第三方插件…...