当前位置：首页 > news >正文

大模型笔记：pytorch实现MOE

news 2026/2/9 10:45:37

0 导入库

import torch
import torch.nn as nn
import torch.nn.functional as F

1 专家模型

#一个简单的专家模型，可以是任何神经网络架构
class Expert(nn.Module):def __init__(self, input_size, output_size):super(Expert, self).__init__()self.fc = nn.Linear(input_size, output_size)def forward(self, x):return self.fc(x)

2 MOE

class MoE(nn.Module):def __init__(self, num_experts, input_size, output_size,topk):super(MoE, self).__init__()self.num_experts = num_experts self.topk=topkself.experts = nn.ModuleList([Expert(input_size, output_size) for _ in range(num_experts)])#创建多个专家self.gating_network = nn.Linear(input_size, num_experts)  #门控网络def forward(self, x):#假设x的维度是(batch,input_size)gating_scores = self.gating_network(x)# 门控网络决定权重 （选择每一个专家的概率）#输出维度是(batch_size, num_experts)topk_gate_scores,topk_gate_index=gating_scores.topk(topk,-1)#选取topk个专家#(batch_size,topk)gating_scores_filtered=torch.full_like(gating_scores,fill_value=float("-inf"))gating_scores_filtered=gating_scores_filtered.scatter(-1,topk_gate_index,topk_gate_scores)gating_scores_filtered=F.softmax(gating_scores_filtered,dim=-1)##创建一个全为负无穷的张量 zeros，并将 topk_gate_scores 的值插入到这个张量的对应位置#(batch_size,num_experts)expert_outputs = torch.stack([expert(x) for expert in self.experts], dim=1)  # 专家网络输出#每个expert的输出维度是 (batch_size, output_size)#stack沿着第二个维度堆叠，之后expert_outputs的维度是(batch_size,num_experts,output_size)moe_output = torch.bmm(gating_scores_filtered.unsqueeze(1), expert_outputs).squeeze(1) # 加权组合专家输出 #gating_scores.unsqueeze(1)——>(batch_size, 1,num_experts)#torch.bmm(gating_scores.unsqueeze(1), expert_outputs)——>(batch_size,1,output_size)#moe_output——>(batch_size,output_size)return moe_output

3 输入举例


input_size = 10  
# 输入特征是大小为10的向量
output_size = 5  
# 输出大小为5的向量
num_experts = 3  
# 3个专家moe_model = MoE(num_experts, input_size, output_size)
# 初始化MOE模型input_vector = torch.randn(1, input_size)
# 创建一个输入向量output_vector = moe_model(input_vector)
# 前向传递print(output_vector.shape,output_vector)
# 打印输出
'''
torch.Size([1, 5]) tensor([[ 2.7343e-04,  4.0966e-01, -3.6634e-01, -8.9064e-01,  4.0759e-01]],grad_fn=<SqueezeBackward1>)
'''

大模型笔记：pytorch实现MOE

0 导入库 import torch import torch.nn as nn import torch.nn.functional as F 1 专家模型 #一个简单的专家模型，可以是任何神经网络架构 class Expert(nn.Module):def __init__(self, input_size, output_size):super(Expert, self).__init__()self.fc nn.L…...

编程日记 2025/2/13 11:15:35

HAL库USART中断接收的相关问题

文章目录一、使用中断的步骤二、相关函数分析1、HAL_UART_IRQHandler2、UART_Receive_IT3、HAL_UART_Receive_IT4、UART_Start_Receive_IT5、总结三、HAL库使用心得一、使用中断的步骤 1、配置GPIO 2、配置USART1 3、设置UART1中断优先级（不开启手动中断&#x…...

编程日记 2025/2/13 11:11:29

@Transational事务注解底层原理以及什么场景事务会失效

Transactional的底层是如何实现的底层是通过动态代理实现的。Spring Boot 在运行时会生成一个代理对象，该代理对象被注解的方法调用，并在方法调用前后进行事务管理，事务管理包括开启事务，提交事务或回滚事务等操作。 1开启事务 …...

编程日记 2025/2/13 11:10:26

Linux扩容磁盘

启动 fdisk sudo fdisk /dev/sda输入p命令查询分区列表输入d命令删除所有分区需要一个一个删输入n命令创建新分区 40G可以不用输入，直接回车使用默认输入w命令保存操作查看分区情况 sudo fdisk -l会发现sda1不是启动分区（Boot列不是号&a…...

编程日记 2025/2/13 11:08:23

全面解析鸿蒙（HarmonyOS）开发：从入门到实战，构建万物互联新时代

文章目录引言一、鸿蒙操作系统概述二、鸿蒙开发环境搭建三、鸿蒙核心开发技术1. **ArkUI框架**2. **分布式能力开发**3. **原子化服务与元服务** 四、实战案例：构建分布式音乐播放器五、鸿蒙开发工具与调试技巧六、鸿蒙生态与未来展望结语引言随着万物互联时代…...

编程日记 2025/2/13 11:06:20

Uniapp 原生组件层级过高问题及解决方案

文章目录一、引言🏅二、问题描述📌三、问题原因❓四、解决方案💯4.1 使用 cover-view 和 cover-image4.2 使用 subNVue 子窗体4.3 动态隐藏原生组件4.4 使用 v-if 或 v-show 控制组件显示4.5 使用 position: fixed 布局五、总结&#x1f38…...

编程日记 2025/2/13 11:03:16

Android adb测试常用命令大全

目录一、查看最上层成activity名字: 二、查看Activity的任务栈： 三、获取安装包信息四、性能相关 1、显示CPU信息 : 2、查看CPU使用信息 3、内存信息（meminfo package_name or pid 使用程序的包名或者进程id显示内存信息） 4、电量信…...

编程日记 2025/2/13 11:02:15

linux的基础入门2

linux的root用户无论是Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。在Linux系统中,拥有最大权限的账户名为:root(超级管理员) 而在前期，我们一直使用的账户是普通的用户普通用户的权限，一般在其HOME目录内是不受限的一旦出了HOME目录…...

编程日记 2025/2/13 11:01:11

19.4.8 数据库综合运用

编程日记 2025/2/13 10:57:02

JAVA中的抽象学习

一、Java SE 中的抽象概念在 Java 中，抽象（Abstraction）是面向对象编程的重要特性之一。抽象的核心思想是“只关注重要的特性，而忽略不重要的细节”。抽象通常通过抽象类和接口来实现，它帮助开发者将复杂的系统隐藏在…...

编程日记 2025/2/13 10:56:00

在 Go 中实现事件溯源：构建高效且可扩展的系统

事件溯源（Event Sourcing）是一种强大的架构模式，它通过记录系统状态的变化（事件）来重建系统的历史状态。这种模式特别适合需要高可扩展性、可追溯性和解耦的系统。在 Go 语言中，事件溯源可以通过一些简单的…...

编程日记 2025/2/13 10:54:58

加解密 | AES加、解密学习

加解密 | AES加、解密学习你的代码实现了一个简单的AES（高级加密标准）加密和解密的测试程序。以下是对代码的分析和一些改进建议： 代码功能初始化数据和密钥： 定义了一个16字节的输入数据 input_data。定义了一个16字节的AES…...

编程日记 2025/2/13 10:52:52

【学术投稿-2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)】CSS样式解析：行内、内部与外部样式的区别与优先级分析

简介 2025年计算机视觉研究进展与应用（ACVRA 2025）将于2025年2月28-3月2日在中国广州召开，会议将汇聚世界各地的顶尖学者、研究人员和行业专家，聚焦计算机视觉领域的最新研究动态与应用成就。本次会议将探讨前沿技术，…...

编程日记 2025/2/13 10:51:51

MongoDB 基本操作

一、数据库操作 1. 切换或创建数据库使用use命令切换到指定数据库，若该数据库不存在，在首次插入数据时会自动创建。 use myDatabase 2. 查看所有数据库使用show dbs命令查看 MongoDB 实例中的所有数据库。 show dbs 3. 删除当前数据库使用db.…...

编程日记 2025/2/13 10:48:47

Eclipse JSP/Servlet 深入解析

Eclipse JSP/Servlet 深入解析引言随着互联网的快速发展，Java Web开发技术逐渐成为企业级应用开发的主流。在Java Web开发中，JSP（JavaServer Pages）和Servlet是两个核心组件，它们共同构成了Java Web应用程序的基础。本文将深入解析Eclipse平台下的JSP/Servlet技术，帮…...

编程日记 2025/2/13 10:47:46

Hyperledger caliper 性能测试

前言：Hyperledger caliper 的本质是使用node对被测试网络进行压力测试，因此需要nodejs。本次使用 Hyperledger caliper 0.5 对 fabric 1.4.6进行压测准备条件：nodejs 16 （略 linux下解压环境变量即可） # 创建工作…...

编程日记 2025/2/13 10:44:42

Record-Mode 备案免关站插件，让 WordPress 备案不影响 SEO 和收录

专为 WordPress 网站设计的实用工具，旨在帮助网站在备案期间无需关闭即可正常收录所有页面的信息，利于SEO。功能特性免关站展示：开启插件后，非管理员用户访问网站时，会看到以半透明遮罩层或不透明全屏遮罩样式呈现的…...

编程日记 2025/2/13 10:43:40

【Java 面试八股文】Redis篇

Redis 1. 什么是缓存穿透？怎么解决？2. 你能介绍一下布隆过滤器吗？3. 什么是缓存击穿？怎么解决？4. 什么是缓存雪崩？怎么解决？5. redis做为缓存，mysql的数据如何与redis进行同步呢&…...

编程日记 2025/2/13 10:40:34

介绍几款免费的显示器辅助工具！

今天为大家介绍几款实用的显示器辅助软件，它们可以帮助你轻松切换显示源调节、显示器亮度，甚至优化显示效果，让你的屏幕使用体验更加便捷和舒适。 Monitor Brightness Adjuster-多屏幕亮度调节工具如果你需要同时使用多个显示器&#xff0…...

编程日记 2025/2/13 10:38:31

django配置跨域

1、第一种 from django.views.decorators.csrf import csrf_exemptcsrf_exempt第二种安装 pip install django-cors-headers在配置文件settings.py进入 INSTALLED_APPS [..."corsheaders", # 添加 ]MIDDLEWARE [corsheaders.middleware.CorsMiddleware, # 添加…...

编程日记 2025/2/13 10:37:29

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2026/2/8 20:41:49

Cesium1.95中高性能加载1500个点

一、基本方式： 图标使用.png比.svg性能要好 <template><div id"cesiumContainer"></div><div class"toolbar"><button id"resetButton">重新生成点</button><span id"countDisplay&qu…...

编程新知 2025/12/17 2:10:10

ip子接口配置及删除

配置永久生效的子接口，2个IP 都可以登录你这一台服务器。重启不失效。永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

编程新知 2025/10/26 5:04:25

Go 并发编程基础：通道（Channel）的使用

在 Go 中，Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式，用于在多个 Goroutine 之间传递数据，从而实现高效的并发编程。本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。一、Channel…...

编程新知 2025/12/4 8:54:35

Java求职者面试指南：计算机基础与源码原理深度解析

Java求职者面试指南：计算机基础与源码原理深度解析第一轮提问：基础概念问题 1. 请解释什么是进程和线程的区别？ 面试官：进程是程序的一次执行过程，是系统进行资源分配和调度的基本单位；而线程是进程中的…...

编程新知 2025/12/9 14:22:07

GitFlow 工作模式（详解）

今天再学项目的过程中遇到使用gitflow模式管理代码，因此进行学习并且发布关于gitflow的一些思考 Git与GitFlow模式我们在写代码的时候通常会进行网上保存，无论是github还是gittee，都是一种基于git去保存代码的形式，这样保存代码…...

编程新知 2026/1/26 12:37:40

接口自动化测试：HttpRunner基础

相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具，支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议，涵盖接口测试、性能测试、数字体验监测等测试类型…...

编程新知 2026/1/29 7:31:17

结构化文件管理实战：实现目录自动创建与归类

手动操作容易因疲劳或疏忽导致命名错误、路径混乱等问题，进而引发后续程序异常。使用工具进行标准化操作，能有效降低出错概率。需要快速整理大量文件的技术用户而言，这款工具提供了一种轻便高效的解决方案。程序体积仅有 156KB，…...

编程新知 2026/2/7 12:58:21

2025.6.9总结（利与弊）

凡事都有两面性。在大厂上班也不例外。今天找开发定位问题，从一个接口人不断溯源到另一个接口人。有时候，不知道是谁的责任填。将工作内容分的很细，每个人负责其中的一小块。我清楚的意识到，自己就是个可以随时替换的螺丝钉&…...

编程新知 2025/10/14 3:13:44

0 导入库

1 专家模型

2 MOE

3 输入举例

相关文章：