当前位置: 首页 > news >正文

nlp第九节——文本生成任务

一、seq2seq任务

特点:输入输出均为不定长的序列
自回归语言模型:
由前面一个字预测下一个字的任务
在这里插入图片描述
在这里插入图片描述
encoder-decoder结构:
Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案
Encoder将输入转化为向量或矩阵,其中包含了输入中的信息
Decoder利用这些信息输出目标值
在这里插入图片描述
在这里,encoder的output和decoder每一个时间层的output拼接,用一个线性层和softmax激活函数计算权重(attention机制),再把权重张量和encoder的output点乘,把这个结果和decoder这个时间层的output拼接,再过一层gru和线性层得到下一个字的概率分布。
attention思想:
从decoder的query和encoder的key结合计算出权重(判断文本的重点),再作用在value上
在这里插入图片描述
soft attention:
在这里插入图片描述
hard attention:
在这里插入图片描述
teacher forcing:在预测下一个字时用输入decoder的正确的字来预测,这样做的问题是在预测时如果一个字错,后面会出现连环反应(就像在平时老师经常把正确答案给学生,在考试时学生答题效果不好);如果用非teacher forcing,会出现在训练模型时,一个字错导致后面出现连环反应。

二、transformer

在这里插入图片描述
在encoder-decoder交互attention阶段,q矩阵由decoder提供,与encoder的output里的key计算出attention矩阵,然后作用在encoder提供的value矩阵上,再过残差机制曾和LN层(使模型更稳定,防止梯度爆炸和梯度消失)
mask attention:
将输入decoder的文本做一次attention,对输出的矩阵进行mask(因为预测的过程中预测下一个字的过程中我们看不到下一个字,所以前一个字对下一个字没有attention)
在这里插入图片描述在这里插入图片描述

通过mask控制训练方式:
在这里插入图片描述

三、采样策略

beamsearch在前文已经介绍过
temperature sample是基于对softmax的改进采样:
在这里插入图片描述
当T越大时,不同样本间的概率差值会减小
top-K采样:从概率最高的K个样本中采样
top-P采样:采样时,先按概率从高到低排序,从累加概率不超过P的范围内选择

相关文章:

nlp第九节——文本生成任务

一、seq2seq任务 特点:输入输出均为不定长的序列 自回归语言模型: 由前面一个字预测下一个字的任务 encoder-decoder结构: Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案 Encoder将输入转化为向量或矩阵,其…...

STM32MP1xx的启动流程

https://wiki.st.com/stm32mpu/wiki/Boot_chain_overview 根据提供的知识库内容,以下是STM32 MPU启动链的详细解析: 1. 通用启动流程 STM32 MPU启动分为多阶段,逐步初始化外设和内存,并建立信任链: 1.1 ROM代码&…...

wgcloud-server端部署说明

Wgcloud 是一款开源的轻量级服务器监控系统,支持多平台,可对服务器的 CPU、内存、磁盘、网络等指标进行实时监控。 以下是 Wgcloud Server端的详细部署步骤: 环境准备 服务器: 至少准备两台服务器,一台作为监控端&a…...

大模型Agent:人工智能的崭新形态与未来愿景

在人工智能技术高歌猛进的当下,大模型 Agent 作为 AI 领域的关键研究方向,正日益彰显出其独有的魅力以及广阔无垠的应用前景。大模型 Agent 不但具备对环境的感知、自主的理解、决策的制定以及行动的执行能力,而且能够游刃有余地应对繁杂任务…...

专题二最大连续1的个数|||

1.题目 题目分析: 给一个数字k,可以把数组里的0改成1,但是只能改k次,然后该变得到的数组能找到最长的子串且都是1。 2.算法原理 这里不用真的把0变成1,因为改了比较麻烦,下次用就要改回成1,这…...

【ORACLE】ORACLE19C在19.13版本前的一个严重BUG-24761824

背景 最近在某客户的ORACLE开发环境(oracle 19.10)中,发现一个非常奇怪情况, 开发人员反馈,有一条SQL,查询了两个sum函数作为两个字段, select sum(c1),sum(c2) from ...当两个sum一起出现时,第一个sum的结果不对&am…...

2025国家护网HVV高频面试题总结来了03(题目+回答)

网络安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 0x1 高频面试题第一套 0x2 高频面试题第二套 0x3 高频面试题第三套 0x4高频面试题第四套 0x1 高频面试题…...

CentOS vs Ubuntu - 常用命令深度对比及最佳实践指南20250302

CentOS vs Ubuntu - 常用命令深度对比及最佳实践指南 引言 在 Linux 服务器操作系统领域,CentOS 和 Ubuntu 是广泛采用的发行版。它们在命令集、默认工具链及生态系统方面各有特点。本文深入剖析 CentOS 与 Ubuntu 在常用命令层面的异同,并结合实践案例…...

SQL命令详解之常用函数

目录 1 简介 2 字符串函数 2.1 字符串函数语法 2.2 字符串函数练习 3 数学函数 3.1 数学函数语法 3.2 数学函数练习 4 日期时间函数 4.1 日期时间函数语法 4.2 日期时间函数练习 5 条件函数 5.1 条件函数语法 5.2 条件函数练习 6 总结 1 简介 在SQL中我们经常会用…...

IndexError: index 0 is out of bounds for axis 1 with size 0

IndexError: index 0 is out of bounds for axis 1 with size 0 欢迎来到英杰社区,这里是博主英杰https://bbs.csdn.net/topics/617804998 报错原因 数组或数据结构为空 如果数组或 DataFrame 在指定的维度上没有任何元素(例如,没有列&#x…...

C++学习之C++初识、C++对C语言增强、对C语言扩展

一.C初识 1.C简介 2.第一个C程序 //#include <iostream> //iostream 相当于 C语言下的 stdio.h i - input 输入 o -output 输出 //using namespace std; //using 使用 namespace 命名空间 std 标准 &#xff0c;理解为打开一个房间&#xff0c;房间里有我们所需…...

k8s面试题总结(八)

1.K8s部署服务的时候&#xff0c;pod一直处于pending状态&#xff0c;无法部署&#xff0c;说明可能的原因 Node节点的资源不足&#xff0c;yaml文件资源限制中分配的内存&#xff0c;cpu资源太大&#xff0c;node宿主机资源没那么大&#xff0c;导致无法部署。部署pod的yaml文…...

《今日-AI-编程-人工智能日报》

一、AI行业动态 荣耀发布“荣耀阿尔法战略” 荣耀在“2025世界移动通信大会”上宣布&#xff0c;将从智能手机制造商转型为全球领先的AI终端生态公司&#xff0c;并计划未来五年投入100亿美元建设AI设备生态。荣耀展示了基于GUI的个人移动AI智能体&#xff0c;并推出多款AI终端…...

Koupleless 2024 年度报告 2025 规划展望

Koupleless 2024 年度报告 & 2025 规划展望 赵真灵 &#xff08;花名&#xff1a;有济&#xff09; Koupleless 负责人 蚂蚁集团技术专家 Koupleless 社区的开发和维护者&#xff0c;曾负责基于 K8s 的应用研发运维平台、Node/Pod 多级弹性伸缩与产品建设&#xff0c;当前主…...

C与C++中inline关键字的深入解析与使用指南

文章目录 引言一、历史背景与设计哲学1.1 C中的inline1.2 C中的inline 二、核心机制对比2.1 编译行为2.2 链接模型2.3 存储类说明符&#xff08;详细解析&#xff09;C的灵活组合C的限制原理 补充说明&#xff1a; 三、典型应用场景3.1 C中的使用场景3.2 C中的使用场景 四、现代…...

记录linux安装mysql后链接不上的解决方法

首先确保是否安装成功 systemctl status mysql 如果没有安装的话&#xff0c;执行命令安装 sudo apt install mysql-server 安装完成后&#xff0c;执行第一步检测是否成功。 通常初始是没有密码的&#xff0c;直接登陆 sudo mysql -u root 登录后执行以下命令修改密码&…...

Java 大视界 -- Java 大数据在智能金融反欺诈中的技术实现与案例分析(114)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…...

01_NLP基础之文本处理的基本方法

自然语言处理入门 自然语言处理&#xff08;Natural Language Processing, 简称NLP&#xff09;是计算机科学与语言学中关注于计算机与人类语言间转换的领域&#xff0c;主要目标是让机器能够理解和生成自然语言&#xff0c;这样人们可以通过语言与计算机进行更自然的互动。 …...

(十 六)趣学设计模式 之 责任链模式!

目录 一、 啥是责任链模式&#xff1f;二、 为什么要用责任链模式&#xff1f;三、 责任链模式的实现方式四、 责任链模式的优缺点五、 责任链模式的应用场景六、 总结 &#x1f31f;我的其他文章也讲解的比较有趣&#x1f601;&#xff0c;如果喜欢博主的讲解方式&#xff0c;…...

动态规划/贪心算法

一、动态规划 动态规划 是一种用于解决优化问题的算法设计技术&#xff0c;尤其适用于具有重叠子问题和最优子结构性质的问题。它通过将复杂问题分解为更简单的子问题&#xff0c;并保存这些子问题的解以避免重复计算&#xff0c;从而提高效率。 动态规划的核心思想 最优子结…...

避坑指南:解决ROS2 Gazebo仿真中机械臂‘散架’或‘弹飞’问题(附惯性矩阵计算与dynamics参数调整)

ROS2 Gazebo仿真中机械臂物理异常问题深度解析与实战解决方案 当你在Gazebo仿真环境中看到精心设计的机械臂模型像积木一样散落一地&#xff0c;或是突然像火箭般腾空而起时&#xff0c;那种挫败感任何机器人开发者都能感同身受。这类物理异常问题不仅影响开发效率&#xff0c;…...

VINS-Mono跑EUROC数据集后,如何用evo工具包进行轨迹精度评估与可视化(附完整命令)

VINS-Mono轨迹精度评估实战&#xff1a;从EUROC数据集到evo工具包全流程解析 在完成VINS-Mono算法在EUROC数据集上的运行后&#xff0c;如何科学评估其轨迹精度成为算法优化和论文撰写的关键环节。本文将深入讲解使用evo工具包进行定量分析的完整流程&#xff0c;涵盖指标计算、…...

手把手教你用KVM在openEuler 22.03 LTS上安装华为FusionCompute 6.5.1 CNA(含VNC避坑指南)

深度实战&#xff1a;在openEuler 22.03 LTS上通过KVM部署FusionCompute CNA全流程解析 当企业需要构建私有云环境时&#xff0c;华为FusionCompute作为成熟的虚拟化平台常被列为首选方案。本文将完整呈现如何在openEuler 22.03 LTS系统中&#xff0c;通过KVM虚拟化技术实现Fus…...

数据架构现代化:AI应用落地的关键突破口

数据架构现代化&#xff1a;AI应用落地的关键突破口 一、引言&#xff1a;为什么你的AI项目总卡在“数据关”&#xff1f; 1. 一个扎心的真实场景 去年&#xff0c;我遇到一位零售企业的技术负责人&#xff0c;他的困惑让我印象深刻&#xff1a;“我们花了12个月、近500万预算&…...

[实时流媒体] RTSP-HLS跨平台转换技术解析:从原理到实践的完整指南

[实时流媒体] RTSP-HLS跨平台转换技术解析&#xff1a;从原理到实践的完整指南 【免费下载链接】rtsp-stream Out of box solution for RTSP - HLS live stream transcoding. Makes RTSP easy to play in browsers. 项目地址: https://gitcode.com/gh_mirrors/rt/rtsp-stream…...

开源ERP新选择:Odoo如何助力钢铁冶金企业实现数字化转型

Odoo开源ERP&#xff1a;钢铁冶金企业数字化转型的模块化引擎 钢铁冶金行业正面临前所未有的转型压力——从环保合规到供应链波动&#xff0c;从劳动力成本上升到全球化竞争。在这个背景下&#xff0c;一套既能快速响应业务变化又能控制成本的ERP系统不再是奢侈品&#xff0c;…...

Go语言中的并发模式:从WaitGroup到errgroup

Go语言中的并发模式&#xff1a;从WaitGroup到errgroup 作为一个写了十几年代码的Go后端老兵&#xff0c;我深刻体会到并发编程的重要性。Go语言以其简洁的并发模型著称&#xff0c;通过goroutine和channel&#xff0c;我们可以轻松实现高效的并发程序。今天咱们就聊聊Go语言中…...

汇川H5U PLC通过EtherNET/IP网关实现MODBUS RTU设备高效数据采集

1. 为什么需要EtherNET/IP网关连接MODBUS RTU设备 在工业自动化现场&#xff0c;经常会遇到这样的场景&#xff1a;主控系统使用的是支持EtherNET/IP协议的汇川H5U PLC&#xff0c;但现场大量传感器、仪表等设备仍然采用传统的MODBUS RTU协议&#xff08;通过RS485接口通信&…...

Claude Code子代理开发手册:如何打造专属AI编程助手(含MCP服务器对接技巧)

Claude Code子代理开发手册&#xff1a;如何打造专属AI编程助手&#xff08;含MCP服务器对接技巧&#xff09; 在当今快节奏的软件开发环境中&#xff0c;团队开发者越来越需要能够适应特定工作流程的智能辅助工具。Claude Code作为新一代AI编程助手平台&#xff0c;其子代理(…...

OpenClaw安全指南:Qwen3-32B-Chat本地化执行边界控制

OpenClaw安全指南&#xff1a;Qwen3-32B-Chat本地化执行边界控制 1. 为什么需要关注OpenClaw的安全边界&#xff1f; 去年冬天的一个深夜&#xff0c;我被一阵急促的键盘敲击声惊醒。走进书房&#xff0c;发现OpenClaw正在自动执行我前一天设置的爬虫任务——这本是正常现象&…...