当前位置：首页 > news >正文

python中不同维度的Tensor向量为何可以直接相加——广播机制

news 2026/2/9 21:01:37

文章目录

- - 广播机制
  - 示例解释
  - 广播机制如何工作
  - 代码示例
  - 输出解释
  - 广播机制的本质

在矩阵加法中，如果两个张量的形状不同，但其中一个张量的形状可以通过广播机制扩展到与另一个张量的形状相同，则可以进行加法操作。广播机制在深度学习框架（如 PyTorch 和 NumPy）中非常常见。

广播机制

广播机制允许在执行算术运算时自动扩展张量的形状，使其兼容。广播遵循以下规则：

如果两个张量的维度不同，在较小维度的张量前面添加1，使其与较大维度的张量的维度相同。
两个张量在某个维度上的长度相同，或者其中一个张量在该维度上的长度为1，可以进行操作。
在任何一个维度上，长度不相同且不为1，则引发错误。

示例解释

假设有两个张量 item_emb 和 position_emb，其形状分别为 (batch_size, sequence_length, embedding_dim) 和 (1, sequence_length, embedding_dim)。我们希望将它们相加。

广播机制如何工作

item_emb 的形状为 (batch_size, sequence_length, embedding_dim)。
position_emb 的形状为 (1, sequence_length, embedding_dim)。

在这种情况下，广播机制将 position_emb 在第一个维度上扩展，使其形状变为 (batch_size, sequence_length, embedding_dim)，与 item_emb 相同，然后进行逐元素加法。

代码示例

以下是一个使用 PyTorch 实现广播机制的示例：

import torch# 假设 batch_size=64, sequence_length=10, embedding_dim=32
batch_size = 64
sequence_length = 10
embedding_dim = 32# 创建随机张量
item_emb = torch.randn(batch_size, sequence_length, embedding_dim)
position_emb = torch.randn(1, sequence_length, embedding_dim)# 使用广播机制进行加法
result = item_emb + position_embprint("item_emb shape:", item_emb.shape)
print("position_emb shape:", position_emb.shape)
print("result shape:", result.shape)

输出解释

item_emb shape: torch.Size([64, 10, 32])
position_emb shape: torch.Size([1, 10, 32])
result shape: torch.Size([64, 10, 32])

在这个示例中：

item_emb 的形状为 (64, 10, 32)。
position_emb 的形状为 (1, 10, 32)。

通过广播机制，position_emb 的第一个维度从 1 扩展为 64，使其形状变为 (64, 10, 32)，然后逐元素与 item_emb 相加，得到的结果 result 的形状为 (64, 10, 32)。

广播机制的本质

广播机制的本质是为了简化代码编写和提高计算效率。当我们需要将某个值或较小形状的张量应用于较大形状的张量时，广播机制非常有用。它自动处理形状不匹配的问题，使得代码更简洁、更具可读性。

总结起来，广播机制是深度学习框架中非常强大的工具，允许我们在维度不同的张量之间进行算术运算，只要这些张量满足广播规则。

python中不同维度的Tensor向量为何可以直接相加——广播机制

文章目录

广播机制

示例解释

广播机制如何工作

代码示例

输出解释

广播机制的本质

相关文章：

python中不同维度的Tensor向量为何可以直接相加——广播机制

38.MessageToMessageCodec线程安全可被共享Handler

Linux中的全局环境变量和局部环境变量

【研究】AI大模型需要什么样的硬件？

人工智能--自然语言处理NLP概述

基于Java微信小程序火锅店点餐系统设计和实现(源码+LW+调试文档+讲解等)

SpringCloud_GateWay服务网关

使用Dropout大幅优化PyTorch模型，实现图像识别

Vue3中的常见组件通信（超详细版）

Stm32的DMA的学习

应用安全（补充）

鸿蒙开发Ability Kit（程序框架服务）：【FA模型切换Stage模型指导】 app和deviceConfig的切换

通过命令行配置调整KVM的虚拟网络

Apache POI操作excel

Python错误集锦：faker模块生成xml文件时提示：`xml` requires the `xmltodict` Python library

Vue3-尚硅谷笔记

RockChip Android12 System之MultipleUsers

第12天：前端集成与Django后端 - 用户认证与状态管理

在ROS2中蓝牙崩溃的原因分析

【PythonWeb开发】Flask中间件钩子函数实现封IP

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

Leetcode 3576. Transform Array to All Equal Elements

第25节 Node.js 断言测试

相机从app启动流程

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

重启Eureka集群中的节点，对已经注册的服务有什么影响

mac 安装homebrew (nvm 及git)

R 语言科研绘图第 55 期 --- 网络图-聚类

day36-多路IO复用

苹果AI眼镜：从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会