当前位置：首页 > news >正文

copy is all you need前向绘图和疑惑标记

news 2025/10/27 4:50:53

疑惑的起因
在这里插入图片描述
简化前向图

GPT4解释

这段代码实现了一个神经网络模型，包含了BERT、GPT-2和MLP等模块。主要功能是给定一个文本序列和一个查询序列，预测查询序列中的起始和结束位置，使其对应文本序列中的一个短语。具体实现细节如下：

首先，使用BERT将文本序列编码成一个张量作为输入，并从GPT-2模型中提取查询序列的表示。然后，将查询序列的表示拆分为起始和结束两部分，并使用MLP将短语的起始和结束点表示投影到另一个空间中。
接下来，利用生成式模型计算每个查询起始和结束位置之间的所有令牌的概率分布，并根据此生成预测位置。使用交叉熵损失函数来计算这些预测和真实值之间的差距。
最后，计算起始和结束位置的准确性和整个短语的准确性，并返回损失和准确性的值来优化模型的性能。

import torch
from transformers import AutoModel, AutoTokenizer, GPT2LMHeadModel
from torch import nn
from torch.nn import functional as Fclass Copyisallyouneed(nn.Module):def __init__(self, **args):super(Copyisallyouneed, self).__init__()self.args = args# bert-encoder modelself.phrase_encoder = AutoModel.from_pretrained(self.args['phrase_encoder_model'][self.args['lang']])self.bert_tokenizer = AutoTokenizer.from_pretrained(self.args['phrase_encoder_tokenizer'][self.args['lang']])self.bert_tokenizer.add_tokens(['<|endoftext|>', '[PREFIX]'])self.prefix_token_id = self.bert_tokenizer.convert_tokens_to_ids('[PREFIX]')self.phrase_encoder.resize_token_embeddings(self.phrase_encoder.config.vocab_size + 2)# model and tokenizerself.tokenizer = AutoTokenizer.from_pretrained(self.args['prefix_encoder_tokenizer'][self.args['lang']])self.vocab_size = len(self.tokenizer)self.pad = self.tokenizer.pad_token_id if self.args['lang'] == 'zh' else self.tokenizer.bos_token_idself.model = GPT2LMHeadModel.from_pretrained(self.args['prefix_encoder_model'][self.args['lang']])self.token_embeddings = nn.Parameter(list(self.model.lm_head.parameters())[0])# MLP: mapping bert phrase start representationsself.s_proj = nn.Sequential(nn.Dropout(p=args['dropout']),nn.Tanh(),nn.Linear(self.model.config.hidden_size, self.model.config.hidden_size // 2))# MLP: mapping bert phrase end representationsself.e_proj = nn.Sequential(nn.Dropout(p=args['dropout']),nn.Tanh(),nn.Linear(self.model.config.hidden_size, self.model.config.hidden_size // 2))self.gen_loss_fct = nn.CrossEntropyLoss(ignore_index=self.pad)@torch.no_grad()def get_query_rep(self, ids):self.eval()output = self.model(input_ids=ids, output_hidden_states=True)['hidden_states'][-1][:, -1, :]return outputdef get_token_loss(self, ids, hs, ids_mask):# no pad tokenlabel = ids[:, 1:]logits = torch.matmul(hs[:, :-1, :],self.token_embeddings.t())# TODO: inner loss function remove the temperature factorlogits /= self.args['temp']loss = self.gen_loss_fct(logits.view(-1, logits.size(-1)), label.reshape(-1))chosen_tokens = torch.max(logits, dim=-1)[1]gen_acc = (chosen_tokens.reshape(-1) == label.reshape(-1)).to(torch.long)valid_mask = (label != self.pad).reshape(-1)valid_tokens = gen_acc & valid_maskgen_acc = valid_tokens.sum().item() / valid_mask.sum().item()return loss, gen_accdef forward(self, batch):## gpt2 query encoderids, ids_mask = batch['gpt2_ids'], batch['gpt2_mask']last_hidden_states = \self.model(input_ids=ids, attention_mask=ids_mask, output_hidden_states=True).hidden_states[-1]# get token lossloss_0, acc_0 = self.get_token_loss(ids, last_hidden_states, ids_mask)## encode the document with the BERT encoder modeldids, dids_mask = batch['bert_ids'], batch['bert_mask']output = self.phrase_encoder(dids, dids_mask, output_hidden_states=True)['hidden_states'][-1]  # [B, S, E]# collect the phrase start representations and phrase end representationss_rep = self.s_proj(output)e_rep = self.e_proj(output)s_rep = s_rep.reshape(-1, s_rep.size(-1))e_rep = e_rep.reshape(-1, e_rep.size(-1))  # [B_doc*S_doc, 768//2]# collect the query representationsquery = last_hidden_states[:, :-1].reshape(-1, last_hidden_states.size(-1))query_start = query[:, :self.model.config.hidden_size // 2]query_end = query[:, self.model.config.hidden_size // 2:]# training the representations of the start tokenscandidate_reps = torch.cat([self.token_embeddings[:, :self.model.config.hidden_size // 2],s_rep], dim=0)logits = torch.matmul(query_start, candidate_reps.t())logits /= self.args['temp']# build the padding mask for query sidequery_padding_mask = ids_mask[:, :-1].reshape(-1).to(torch.bool)# build the padding mask: 1 for valid and 0 for maskattention_mask = (dids_mask.reshape(1, -1).to(torch.bool)).to(torch.long)padding_mask = torch.ones_like(logits).to(torch.long)# Santiy check overpadding_mask[:, self.vocab_size:] = attention_mask# build the position mask: 1 for valid and 0 for maskpos_mask = batch['pos_mask']start_labels, end_labels = batch['start_labels'][:, 1:].reshape(-1), batch['end_labels'][:, 1:].reshape(-1)position_mask = torch.ones_like(logits).to(torch.long)query_pos = start_labels > self.vocab_size# ignore the padding maskposition_mask[query_pos, self.vocab_size:] = pos_maskassert padding_mask.shape == position_mask.shape# overall maskoverall_mask = padding_mask * position_mask## remove the position mask# overall_mask = padding_masknew_logits = torch.where(overall_mask.to(torch.bool), logits, torch.tensor(-1e4).to(torch.half).cuda())mask = torch.zeros_like(new_logits)mask[range(len(new_logits)), start_labels] = 1.loss_ = F.log_softmax(new_logits[query_padding_mask], dim=-1) * mask[query_padding_mask]loss_1 = (-loss_.sum(dim=-1)).mean()## split the token accuaracy and phrase accuracyphrase_indexes = start_labels > self.vocab_sizephrase_indexes_ = phrase_indexes & query_padding_maskphrase_start_acc = new_logits[phrase_indexes_].max(dim=-1)[1] == start_labels[phrase_indexes_]phrase_start_acc = phrase_start_acc.to(torch.float).mean().item()phrase_indexes_ = ~phrase_indexes & query_padding_masktoken_start_acc = new_logits[phrase_indexes_].max(dim=-1)[1] == start_labels[phrase_indexes_]token_start_acc = token_start_acc.to(torch.float).mean().item()# training the representations of the end tokenscandidate_reps = torch.cat([self.token_embeddings[:, self.model.config.hidden_size // 2:],e_rep], dim=0)logits = torch.matmul(query_end, candidate_reps.t())  # [Q, B*]  logits /= self.args['temp']new_logits = torch.where(overall_mask.to(torch.bool), logits, torch.tensor(-1e4).to(torch.half).cuda())mask = torch.zeros_like(new_logits)mask[range(len(new_logits)), end_labels] = 1.loss_ = F.log_softmax(new_logits[query_padding_mask], dim=-1) * mask[query_padding_mask]loss_2 = (-loss_.sum(dim=-1)).mean()# split the phrase and token accuracyphrase_indexes = end_labels > self.vocab_sizephrase_indexes_ = phrase_indexes & query_padding_maskphrase_end_acc = new_logits[phrase_indexes_].max(dim=-1)[1] == end_labels[phrase_indexes_]phrase_end_acc = phrase_end_acc.to(torch.float).mean().item()phrase_indexes_ = ~phrase_indexes & query_padding_masktoken_end_acc = new_logits[phrase_indexes_].max(dim=-1)[1] == end_labels[phrase_indexes_]token_end_acc = token_end_acc.to(torch.float).mean().item()return (loss_0,  # token lossloss_1,  # token-head lossloss_2,  # token-tail lossacc_0,  # token accuracyphrase_start_acc,phrase_end_acc,token_start_acc,token_end_acc)

copy is all you need前向绘图和疑惑标记

疑惑的起因简化前向图 GPT4解释这段代码实现了一个神经网络模型，包含了BERT、GPT-2和MLP等模块。主要功能是给定一个文本序列和一个查询序列，预测查询序列中的起始和结束位置，使其对应文本序列中的一个短语。具体实现细节如下&#xff1a…...

编程日记 2023/8/26 12:26:33

【附安装包】Vred2023安装教程

软件下载软件：Vred版本：2023语言：简体中文大小：2.39G安装环境：Win11/Win10/Win8/Win7硬件要求：CPU2.0GHz 内存4G(或更高）下载通道①百度网盘丨64位下载链接：https://pan.baidu.com…...

编程日记 2023/8/26 12:25:31

ASP.NET Core 中的 Dependency injection

依赖注入（Dependency Injection，简称DI）是为了实现各个类之间的依赖的控制反转（Inversion of Control，简称IoC ）。 ASP.NET Core 中的Controller 和 Service 或者其他类都支持依赖注入。依赖注入术语中&a…...

编程日记 2023/8/26 12:24:29

优化物料编码规则，提升物料管理效率

导读 ( 文/ 2358 ) 物料是生产过程的必需品。对物料进行身份的唯一标识，可以更好的管理物料库存、库位，更方便的对物料进行追溯。通过编码规则的设计，可以对物料按照不同的属性、类别或特征进行分类，从而更好地进行库存分析、计划…...

编程日记 2023/8/26 12:23:28

Jetbrains IDE新UI设置前进/后退导航键

背景 2023年6月，Jetbrains在新发布的IDE（Idea、PyCharm等）中开放了新UI选项，我们勾选后重启IDE，便可以使用这一魔性的UI界面了。但是前进/后退这对常用的导航键却找不到了，以前的设置方式（Vi…...

编程日记 2023/8/26 12:22:26

借助frp的xtcp+danted代理打通两边局域网p2p方式访问

最终效果实现C内网所有设备借助c1内网代理访问B内网所有服务器配置公网服务端A frps 配置frps.ini [common] # 绑定frp穿透使用的端口 bind_port 7000 # 使用token认证 authentication_method token token xxxx./frps -c frps.ini启动配置service自启(可选) /etc/…...

编程日记 2023/8/26 12:21:25

2023年高教社杯数学建模思路 - 案例：FPTree-频繁模式树算法

文章目录算法介绍FP树表示法构建FP树实现代码建模资料 ## 赛题思路 （赛题出来以后第一时间在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 算法介绍 FP-Tree算法全称是FrequentPattern Tree算法，就是频繁模式树算法&#xff0c…...

编程日记 2023/8/26 12:20:24

批量根据excel数据绘制饼状图

要使用Python批量根据Excel数据绘制饼状图，可以使用pandas和matplotlib库来实现。以下是一个基本的代码示例： import pandas as pd import matplotlib.pyplot as plt # 读取Excel文件 data pd.read_excel(data.xlsx) # 提取需要用于绘制饼状图的数据列…...

编程日记 2023/8/26 12:19:23

C++头文件和std命名空间

C 是在C语言的基础上开发的，早期的 C 还不完善，不支持命名空间，没有自己的编译器，而是将 C 代码翻译成C代码，再通过C编译器完成编译。这个时候的 C 仍然在使用C语言的库，stdio.h、stdlib.h、string.h 等头…...

编程日记 2023/8/26 12:18:22

浏览器有哪几种缓存?各种缓存之间的优先级

在浏览器中，有以下几种常见的缓存： 1、强制缓存：通过设置 Cache-Control 和 Expires 等响应头实现，可以让浏览器直接从本地缓存中读取资源而不发起请求。2、协商缓存：通过设置 Last-Modified 和 ETag 等响应头实现&am…...

编程日记 2023/8/26 12:17:21

【C++】list

list 1. 简单了解list2. list的常见接口3. 简单实现list4. vector和list比较 1. 简单了解list list的底层是带头双向循环列表。因此list支持任意位置的插入和删除，且效率较高。但其缺陷也很明显，由于各节点在物理空间是不连续的，所以不支持对…...

编程日记 2023/8/26 12:16:19

剪枝基础与实战(2): L1和L2正则化及BatchNormalization讲解

1. CIFAR10 数据集 CIFAR10 是深度学习入门最先接触到的数据集之一，主要用于图像分类任务中，该数据集总共有10个类别。图片数量：6w 张图片宽高：32x32图片类别：10Trainset: 5w 张，5 个训练块Testset: 1w 张，1 个测试块Pytorch 集成了很多常见数据集的API，可以通过py…...

编程日记 2023/8/26 12:15:18

C语言学习笔记---指针进阶01

C语言程序设计笔记---016 C语言指针进阶前篇1、字符指针2、指针数组2.1、指针数组例程1 -- 模拟一个二维数组2.2、指针数组例程2 3、数组指针3.1、回顾数组名？3.2、数组指针定义与初始化（格式）3.3、数组指针的作用 --- 常用于二维数组3.4、数…...

编程日记 2023/8/26 12:14:17

【Go 基础篇】Go 语言字符串函数详解：处理字符串进阶

大家好！继续我们关于Go语言中字符串函数的探索。字符串是编程中常用的数据类型，而Go语言为我们提供了一系列实用的字符串函数，方便我们进行各种操作，如查找、截取、替换等。在上一篇博客的基础上，我们将继续介绍更多字…...

编程日记 2023/8/26 12:13:15

模型架构代码数据准备 import os import time import matplotlib.pyplot as plt import numpy as np import torchvision.transforms as transforms from torch.utils.data import DataLoader from torchvision import datasets import torch.nn as nn import torch# 创建文…...

编程日记 2023/8/26 12:12:13

HTML的label标签有什么用？

当你想要将表单元素（如输入框、复选框、单选按钮等）与其描述文本关联起来，以便提供更好的用户界面和可访问性时，就可以使用HTML中的<label>标签。<label>标签用于为表单元素提供标签或标识，使用户能够更清…...

编程日记 2023/8/26 12:11:12

docker在阿里云上的镜像仓库管理

目录一.登录进入阿里云网站，点击个人实例进行创建二.创建仓库，填写相关信息三.在访问凭证中设置固定密码用于登录，登录时用户名是使用你注册阿里云的账号名称，密码使用设置的固定密码四.为镜像打标签并推送到仓库五.拉取…...

编程日记 2023/8/26 12:10:11

html-dom核心内容--四要素

1、结构 HTML DOM (文档对象模型) 当网页被加载时，浏览器会创建页面的文档对象模型（Document Object Model）。 2、核心关注的内容：“元素”，“属性”，“修改样式”，“事件反应”。>四要素…...

编程日记 2023/8/26 12:09:08

golang的继承

golang中并没有继承以及oop，但是我们可以通过struct嵌套来完成这个操作。定义struct 以下定义了一个Person结构体，这个结构体有Eat方法以及三个属性 type Person struct {Name stringAge uint16Phone string }func (recv *Person) Eat() {fmt.Prin…...

编程日记 2023/8/26 12:08:07

Google Play商店优化排名因素之应用截图与视频

屏幕截图是影响转化率的最重要的视觉效果之一。大多数人只需查看应用程序屏幕截图，就会决定是否尝试去下载我们的应用程序。 1、在Google Play商店中，搜索结果页面根据我们搜索的关键词有不同的样式。展示应用程序中最好的部分，添加一些文字…...

编程日记 2023/8/26 12:07:06

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2025/10/27 0:14:05

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2025/10/27 0:14:08

JavaScript 中的 ES|QL：利用 Apache Arrow 工具

作者：来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。想获得 Elastic 认证吗？了解下一期 Elasticsearch Engineer 培训的时间吧！ Elasticsearch 拥有众多新功能，助你为自己…...

编程新知 2025/10/26 16:43:22

【第二十一章 SDIO接口(SDIO)】

第二十一章 SDIO接口目录第二十一章 SDIO接口(SDIO) 1 SDIO 主要功能 2 SDIO 总线拓扑 3 SDIO 功能描述 3.1 SDIO 适配器 3.2 SDIOAHB 接口 4 卡功能描述 4.1 卡识别模式 4.2 卡复位 4.3 操作电压范围确认 4.4 卡识别过程 4.5 写数据块 4.6 读数据块 4.7 数据流…...

编程新知 2025/10/27 4:18:37

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

Frozen-Flask 是一个用于将 Flask 应用“冻结”为静态文件的 Python 扩展。它的核心用途是：将一个 Flask Web 应用生成成纯静态 HTML 文件，从而可以部署到静态网站托管服务上，如 GitHub Pages、Netlify 或任何支持静态文件的网站服务器。 &am…...

编程新知 2025/7/28 21:04:40

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

简介前面两期文章我们介绍了I2S的读取和写入，一个是通过INMP441麦克风模块采集音频，一个是通过PCM5102A模块播放音频，那如果我们将两者结合起来，将麦克风采集到的音频通过PCM5102A播放，是不是就可以做一个扩音器了呢…...

编程新知 2025/10/24 20:39:00

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/8/5 19:18:33

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec？ IPsec VPN 5.1 IPsec传输模式（Transport Mode） 5.2 IPsec隧道模式（Tunne…...

编程新知 2025/10/25 10:20:33

MySQL用户和授权

开放MySQL白名单可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务： test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

编程新知 2025/8/25 19:12:45

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南在数字化营销时代，邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天，我们将深入解析邮件打开率、网站可用性、页面参与时…...

编程新知 2025/10/5 6:09:34

copy is all you need前向绘图和疑惑标记

相关文章：

copy is all you need前向绘图和疑惑标记

【附安装包】Vred2023安装教程

ASP.NET Core 中的 Dependency injection

优化物料编码规则，提升物料管理效率

Jetbrains IDE新UI设置前进/后退导航键

借助frp的xtcp+danted代理打通两边局域网p2p方式访问

2023年高教社杯数学建模思路 - 案例：FPTree-频繁模式树算法

批量根据excel数据绘制饼状图

C++头文件和std命名空间

浏览器有哪几种缓存?各种缓存之间的优先级

【C++】list

剪枝基础与实战(2): L1和L2正则化及BatchNormalization讲解

C语言学习笔记---指针进阶01

【Go 基础篇】Go 语言字符串函数详解：处理字符串进阶

GAN原理代码解读

HTML的label标签有什么用？

docker在阿里云上的镜像仓库管理

html-dom核心内容--四要素

golang的继承

Google Play商店优化排名因素之应用截图与视频

铭豹扩展坞 USB转网口突然无法识别解决方法

华为云AI开发平台ModelArts

JavaScript 中的 ES|QL：利用 Apache Arrow 工具

【第二十一章 SDIO接口(SDIO)】

Frozen-Flask ：将 Flask 应用“冻结”为静态文件

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

python如何将word的doc另存为docx

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

MySQL用户和授权

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南