Sequence to Sequence model
基础模型
基础模型是用RNN模型,前部分是encoder用来寻找法语输入的编码,后半部分是decoder用来生成英文翻译作为输出,每次输出一个单词,直到输出结束标志如EOS。

下面是另一个例子,在CNN模型输出层之前会输出图片的向量,我们将这个向量输入到RNN模型,然后让RNN模型输出标题,直到遇到结束符

可以看到上述两个基础模型更像是语言模型的特化版本,语言模型的输入是0向量,而这两个模型的输入是Encoder的输出。

选择最可能的输出
在上面的基础模型中,有了Encoder的输出作为decoder的输入,decoder是一个特化的语言模型,它用来评估一个序列在特定输入下的概率,我们需要挑选出概率最大的输出。
这里我们不能使用上面所说的类似贪心的方式输出,即每轮输出都选用概率最大的下个单词,并将其作为下一轮输出的输入。课程举了一个例子,比如翻译时,前两个输入是Jane is,预测第三个单词时在语言模型中going命中的概率通常要大于visiting,这样会导致语言模型生成了下面的输出,但是可以看到下面的输出质量是不如上面的。
但是所有单词的任意组合是指数形式上涨的,我们没法评估所有的单词组合的概率,因此需要有近似算法来挑选出可能得输出加以评估。

Beam Search
基础版本
以下图词库大小为10000,Beam width为3作为例子,将Encoder的输出作为Decoder输入,并预测下个词的概率之后,选取概率最高的3个单词,分别作为下一轮输入,再预测下一轮输出,一共会有30000个概率,再选取最高的3个,重复上述操作。下面两张图代表了两轮迭代,直到迭代到EOS。


优化版本
打分优化
上面基础版本中最大化的概率函数存在一些问题:
1. 一个序列的概率是每词条件输入的概率连乘,概率都是小于1的,这会导致越乘越小,类似梯度消失问题。
2. 最大化这个概率函数会倾向于选取更短的序列,因为每多一个单词就要多乘一个小于1的数字。
解决上面问题可以分为两步:
1. 首选对概率连乘函数取log,因为是单调递增函数不影响最终排序结果,而且避免了小数连乘,可以解决上面第一个问题,但是依然存在序列越长分数越低的问题
2. 分数乘一个系数,
为序列长度,
为超参。

Beam Width选择
没有固定值,上面例子中使用的3,实际生产中可能会用10、100,在学术界为了发表论文时用更准确的数字可能会用1000甚至3000。但是随着B的增长,收益是边际效益递减的。实际应用中可以使用一组备选测试实际效果。
另外不管B多大,Beam Search不能保证返回的全局最优的,但是它执行效率非常高。

误差分析
使用误差分析判断输出结果(比如翻译)不准确的问题,应该归因到RNN模型本身,还是应该归因于B的超参选择有问题。
如下图,可以用你的模型分别计算准确翻译和不准确翻译逐单词输入的概率结果,比较两者概率大小。如果模型认为准确结果的概率更大可以归因于B,而如果确实准确结果的概率就是小于不准确结果,说明是模型本身的问题。

然后对于更多翻译不准确的误差进行分析,分析B导致错误和RNN模型导致错误的比例,来确定后续的改进方向。

BLEU Score(只用于评估机器翻译输出结果,跟模型本身无关)
对于不同的翻译结果如何进行评估是个问题,现在通常使用BLEU分来进行评估。BLEU全称 bilingual evaluation understudy,表达的意思是人类评估的替补。这是2002年提出的评估机器翻译的论文,这篇论文大大推动了机器翻译领域的发展。
比如下图,我们可以将机器翻译的输出了7个the,the在准确翻译中存在,可以认为精确度为7/7;也或者改进的精准度计算中,分子是reference中the出现次数,分母是机器翻译输出中出现次数,则为2/7

我们也可以评估一起出现的临近的两个单词的命中情况,如下图。

即,同理可推广到相邻的n个单词的命中概率

最终定义
所以最终定义如下,这里增加了一个BP(brevity penalty)简短惩罚系数,因为越短的输出会让你更容易在reference中命中,这会让模型倾向于输出更短的翻译,增加简短惩罚系数避免这种倾向,论文中给出的BP定义见下图。

Attention 模型
基础模型的缺陷
前面的基础模型存在一个问题,就是对于长句子的翻译效果较差,这是因为Encoder先输入完所有单词,然后给出一个输出到Decoder,这个输出需要记忆整个长句子是比较困难的,所以随句子扁长,效果会衰退。
而人类进行翻译时,往往是边读边翻译,而不是读完整个句子再翻译。

模型结构
区别于基础模型,其Encoder还是一个RNN类(比如图里的BiRNN)模型,Decoder也是个RNN模型,但是它的输入不再只有Encoder的一个输出,而是在每一个时间步上都将上一轮输出及Encoder中几个时间步上的输出根据注意力系数加权
作为输入,其中
。这类似于人类翻译,翻译时会考虑附近的一些单词进行翻译。
每轮迭代所有注意力系数之和为1,这里还有个问题就是注意力系数如何计算

注意力系数的计算
通过额外创建一个小模型(如下图左下角,只有一层),用来预测,并通过softmax函数计算
。这个模型也在语言模型训练过程的反向传播中通过梯度下降更新。

相关文章:
Sequence to Sequence model
基础模型 基础模型是用RNN模型,前部分是encoder用来寻找法语输入的编码,后半部分是decoder用来生成英文翻译作为输出,每次输出一个单词,直到输出结束标志如EOS。 下面是另一个例子,在CNN模型输出层之前会输出图片的向…...
PHP 超级全局变量
PHP 超级全局变量 引言 在PHP编程中,超级全局变量(Superglobals)是一类特殊的变量,它们在任何函数、类或文件中都可以访问。这些变量在PHP的全局作用域中始终可用,为开发者提供了处理HTTP请求和响应的强大工具。本文…...
如何在Vscode中接入Deepseek
在VS Code(Visual Studio Code)中接入DeepSeek,可以按照以下步骤进行操作: 一、准备工作 确保VS Code为最新版本: DeepSeek可能依赖于VS Code的某些最新功能或修复,因此建议先将VS Code更新到最新版本。注…...
6.appender
文章目录 一、前言二、源码解析AppenderUnsynchronizedAppenderBaseOutputStreamAppenderConsoleAppenderFileAppenderRollingFileAppenderFileNamePattern 三、总结 一、前言 前一篇文章介绍了appender、conversionRule、root和logger节点的解析, 为的是为本篇详细介绍它们的…...
Golang的消息队列架构
一、消息队列的定义和作用 消息队列是一种在不同组件之间传递消息的通信机制。它可以解耦系统的各个部分,提高系统的可靠性和扩展性。消息队列可以在系统之间传递消息,并且在消息发送者和消息接收者之间进行异步通信,使得系统可以更加灵活和高…...
如何在Servlet容器中使用HttpServletResponse?
HttpServletResponse 是 Java Servlet API 中的一个接口,它代表了服务器对客户端的响应。通过 HttpServletResponse 对象,可以设置响应的状态码、发送数据到客户端(如 HTML 页面、文件等)、添加响应头信息等。下面是如何在 Servle…...
DeepSeek自然语言处理(NLP)基础与实践
自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,专注于让计算机理解、生成和处理人类语言。NLP技术广泛应用于机器翻译、情感分析、文本分类、问答系统等场景。DeepSeek提供了强大的工具和API,帮助我们高效地构建和训练NLP模型。本文将详细介…...
GESP5级语法知识(十一):高精度算法(一)
高精度加法: #include<iostream> #include<string> #include<algorithm> using namespace std; const int N501;//高精度数的最长长度 //c[]a[]b[]:高精度加法方案一:对应位相加,同时处理进位 void h_add_1(int a[],int b…...
【前端】 react项目使用bootstrap、useRef和useState之间的区别和应用
一、场景描述 我想写一个轮播图的程序,只是把bootstrap里面的轮播图拉过来就用上感觉不是很合适,然后我就想自己写自动轮播,因此,这篇文章里面只是自动轮播的部分,没有按键跟自动轮播的衔接部分。 Ps: 本文用的是函数…...
PYYAML反序列化详解
前言 最近看了很多pyyaml反序列化的漏洞利用,但是对漏洞怎么来的,没有进行很详细的分析,所以今天刚好学习一下反序列化的原理 Yaml基本语法 一个 .yml 文件中可以有多份配置文件,用 --- 隔开即可对大小写敏感YAML 中的值&#x…...
【离散数学上机】T235,T236
T235题目:输入集合A和B,输出A到B上的所有单射函数。 问题描述 给定非空数字集合A和B,求出集合A到集合B上的所有单射函数。 输入格式 第一行输入m和n(空格间隔),分别为集合A和集合B中的元素个数;…...
LeeCode题库第十八题
项目场景: 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] (若两个四元组元素一一对应,则认为两个四元组重复)&…...
Zookeeper 和 Redis 哪种更好?
目录 前言 : 什么是Zookeeper 和 Redis ? 1. 核心定位与功能 2. 关键差异点 (1) 一致性模型 (2) 性能 (3) 数据容量 (4) 高可用性 3. 适用场景 使用 Zookeeper 的场景 使用 Redis 的场景 4. 替代方案 5. 如何选择? 6. 常见误区 7. 总结 前言…...
Ubuntu 下 nginx-1.24.0 源码分析 - ngx_localtime 函数
ngx_localtime 函数 声明 在 src\os\unix\ngx_time.h 中: void ngx_localtime(time_t s, ngx_tm_t *tm); 定义 在 src/os/unix/ngx_time.c 中 void ngx_localtime(time_t s, ngx_tm_t *tm) { #if (NGX_HAVE_LOCALTIME_R)(void) localtime_r(&s, tm);#elsengx_tm…...
SpringBoot初始化8个常用方法
在 Spring Boot 中,初始化方法通常是在应用程序启动时被调用的,可以用来执行应用启动时的一些准备工作。以下是几种常见的初始化方法: 一、顺序 1. 图解 ┌─────────────────────────────┐│ Spring Boot…...
vue组件中各种类型之间的传值
在Vue CLI项目中,组件间的属性传值是一个常见的需求。以下是一些常用的传值方法和规范,以及相应的代码演示和解说: 一. 父组件向子组件传值(Props) 规范:父组件通过属性(props)向子…...
公然上线传销项目,Web3 的底线已经被无限突破
作者:Techub 热点速递 撰文:Yangz,Techub News 今天早些时候,OKX 将上线 PI 的消息在圈内引起轩然大波,对于上线被板上钉钉为传销盘子的「项目」 ,Techub News 联系了 OKX 公关,但对方拒绝置评…...
GitLab CI/CD 的配置详解:从零开始使用 .gitlab-ci.yml 文件
在现代软件开发中,CI/CD(持续集成与持续部署)已成为提高开发效率和代码质量的核心实践。GitLab CI/CD 提供了强大的功能,帮助开发者自动化构建、测试和部署应用程序。而 .gitlab-ci.yml 文件是 GitLab CI/CD 配置的关键所在&#…...
C语言第18节:自定义类型——联合和枚举
1. 联合体 C语言中的联合体(Union)是一种数据结构,它允许在同一内存位置存储不同类型的数据。不同于结构体(struct),结构体的成员各自占有独立的内存空间,而联合体的所有成员共享同一块内存区域…...
Python的元组和列表的区别是什么?
1. 定义和语法形式 列表(List):列表是一种可变的序列类型,使用方括号 [] 来定义。例如:my_list [1, 2, 3] 。列表中的元素可以是不同的数据类型,并且可以包含嵌套的列表、元组等其他数据结构。元组&#x…...
解锁网络安全:穿越数字世界的防护密码
个人主页:java之路-CSDN博客(期待您的关注) 目录 网络安全:数字时代的基石 网络安全面面观 (一)定义与范畴 (二)发展历程 网络安全面临的威胁 (一)恶意软件肆虐 (二…...
利用二分法+布尔盲注、时间盲注进行sql注入
一、布尔盲注: import requestsdef binary_search_character(url, query, index, low32, high127):while low < high:mid (low high 1) // 2payload f"1 AND ASCII(SUBSTRING(({query}),{index},1)) > {mid} -- "res {"id": payloa…...
GPT-SWARM和AgentVerse的拓扑结构和交互机制
GPT-SWARM和AgentVerse的拓扑结构和交互机制 拓扑结构区别 GPT-SWARM:采用图结构,将语言智能体系统描述为可优化的计算图。图中的每个节点代表一个操作,如语言模型推理或工具使用等特定功能,边则描述了操作之间的信息流,代表智能体之间的通信渠道。多个智能体连接形成的复…...
python爬虫解决无限debugger问题
方法一 关闭定时任务 关闭断点执行代码打开断点 # 无限debugger产生原因 # 1. web开发者工具打开 # 2. js代码中有debugger # 3. js有定时处理[推荐] for(let i0;i<99999;i){window.clearInterval(i)}方法二 关闭breakpoint 方法三 修改JS代码 使用fiddler,抓…...
使用rknn进行facenet部署
文章目录 开源仓库pth转onnxnetron可视化onnx转rknnC++实现开源仓库 https://github.com/bubbliiiing/facenet-pytorch pth转onnx 修改facenet网络的forward函数代码 修改前 def forward(self, x, mode = "predict"):if mode ==...
C# 两种方案实现调用 DeepSeek API
目录 序 开发运行环境 访问API的一个通用方法 原生官网实现 申请 API key 调用实现 调用示例 腾讯云知识引擎原子调用 申请 API key 调用示例 小结 序 DeepSeek(深度求索) 最近可谓火爆的一塌糊涂,具体的介绍这里不再赘述&#x…...
Linux下的进程切换与调度
目录 1.进程的优先级 优先级是什么 Linux下优先级的具体做法 优先级的调整为什么要受限 2.Linux下的进程切换 3.Linux下进程的调度 1.进程的优先级 我们在使用计算机的时候,通常会启动多个程序,这些程序最后都会变成进程,但是我们的硬…...
图神经网络是什么,有什么实际应用
图神经网络是什么 图神经网络(Graph Neural Network,GNN)是一种专门用于处理图结构数据的神经网络,它能对图中的节点、边和整个图进行学习和推理,在社交网络分析、生物信息学、推荐系统等领域应用广泛。以下是其原理及示例说明: 图神经网络原理 节点表示学习:为图中每…...
Debezium日常分享系列之:解码逻辑解码消息内容
Debezium日常分享系列之:解码逻辑解码消息内容 示例配置选项 DecodeLogicalDecodingMessageContent SMT将PostgreSQL逻辑解码消息的二进制内容转换为结构化形式。当Debezium PostgreSQL连接器捕获逻辑解码消息时,它会将消息事件记录发送到Kafka。默认情况…...
anolis os 8.9安装jenkins
一、系统版本 # cat /etc/anolis-release Anolis OS release 8.9 二、安装 # dnf install -y epel-release # wget -O /etc/yum.repos.d/jenkins.repo https://pkg.jenkins.io/redhat-stable/jenkins.repo # rpm --import https://pkg.jenkins.io/redhat-stable/jenkins.…...
