当前位置: 首页 > news >正文

[论文笔记]NEZHA

引言

今天带来华为诺亚方舟实验室提出的论文NEZHA,题目是 针对中文中文语言理解神经网络上下文表示(NEural contextualiZed representation for CHinese lAnguage understanding),为了拼出哪吒。

预训练语言模型由于具有通过对大型语料库进行预训练来捕获文本中深层上下文信息的人能力,因此在各种自然语言理解任务中均取得了巨大成功。然而,对中文预训练模型BERT仍然存在很大的优化空间。

本篇工作提出在中文语料库上进行预训练的语言模型NEZHA,针对BERT在中文数据集上的不足进行了优化,包括作为有效位置编码方法的功能相对位置编码(Functional )、全词掩码策略(Whole Word Masking strategy,WWM)、混合精度训练(Mixed Precision Training,MPT)和用于训练模型的LAMB优化器。

总体介绍

现存的预训练语言模型大多数基于英文语料(BooksCorpus和英文维基百科)训练,也有一些专门为中文语言训练的尝试,包括谷歌的Bert-chinese、ERNIE-Baidu和BERT-WWM。所有的这些模型都基于Transformer,通过两个无监督学习任务训练:MLM和NSP。在中文模型中主要的区别之一在于MLM任务中的掩码策略。谷歌的BERT屏蔽每个中文字符或WordPiece标记。ERNIE-Baidu进一步通过屏蔽实体或短语,每个实体或短语可能包含多个字符或标记。BERT-WWM采用了类似的策略,称为整词掩码(While Word Masking

相关文章:

[论文笔记]NEZHA

引言 今天带来华为诺亚方舟实验室提出的论文NEZHA,题目是 针对中文中文语言理解神经网络上下文表示(NEural contextualiZed representation for CHinese lAnguage understanding),为了拼出哪吒。 预训练语言模型由于具有通过对大型语料库进行预训练来捕获文本中深层上下文信…...

【Linux】认识协议

目录 一、应用层二、协议三、序列化和反序列化 一、应用层 之前的socket编程,都是在通过系统调用层面,如今我们来向上打通计算机网络。认识应用层的协议和序列化与反序列化 我们程序员写的一个个解决我们实际问题, 满足我们日常需求的网络程序, 都是在应…...

Hadoop3教程(三十四):(生产调优篇)MapReduce生产经验汇总

文章目录 (164)MR跑得慢的原因(165)MR常用调优参数Map阶段Reduce阶段 (166)MR数据倾斜问题参考文献 (164)MR跑得慢的原因 MR程序执行效率的瓶颈,或者说当你觉得你的MR程…...

Unity⭐️Win和Mac安卓打包环境配置

文章目录 🟥 配置Android SDK1️⃣ 配置 SDK Platforms2️⃣ 配置 SDK Tools🎁 Android SDK Build-Tools🎁 Android SDK Command-line Tools(latest)🎁 Android SDK Tools(Obsolete)🟧 配置NDK🟩 配置JDK前情提示: 此方法适用于Windows/Mac 在配置时注意开启 🪜 …...

STM32F4XX之串口

一、标准串口(UART)介绍 1、通信协议相关概念 1.1同步通信和异步通信 (1)同步通信:两个器件之间共用一个时钟线,要发送的数据在时钟的作用下一位一位发送出去。 (2)异步通信:指两个器件之间没…...

【J-Long Group Limited】申请1500万美元纳斯达克IPO上市

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,总部位于中国香港的J-Long Group Limited(简称:J-Long)近期已向美国证券交易委员会(SEC)提交招股书,申请在纳斯达克IPO上市&…...

上传文件到google drive

参考:使用 Python 将文件上传到 Google 云端硬盘_迹忆客 第 1 步:Google API Playground 我们可以通过搜索 Google 找到更多关于 Google API Playground 的信息。 我们必须单击第一个链接才能继续前进。 选择第一个链接后,我们会自动进入下一…...

用VLOOKUP快速合并两个表格

一、前言 上周五微信收到运营提过来的需求,第一句话:帮我提取一下1号门店的库存数据,马上登录系统下载一份库存数据给到他然后专心读代码,过一会微信第二句话:帮我提取一下1号门店商品半年/一年的销量数据&#xff0c…...

Vue ref属性

Vue中的ref属性可以用来对HTML元素或者是对组件进行唯一标识。 一、设置ref属性 只需要在元素或者是组件后跟上如下语法即可: ref"标识名" 二、获取元素或对象 我们可以用如下方法获取我们设置ref的元素或组件: this.$refs.标识名 第一个输…...

【python入门】函数,类和对象

【大家好,我是爱干饭的猿,本文重点介绍python入门的函数,高阶函数,python中的类和对象,模块的作用等。 后续会继续分享其他重要知识点总结,如果喜欢这篇文章,点个赞👍,关…...

alibaba.fastjson的使用(二)-- jar包导入

目录 1. 在pom文件中引入依赖: 2.fastjsonv2的使用: 1. 在pom文件中引入依赖: <dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>2.0.14</version> </dependency>2.fastjsonv2的使用…...

A_搜索(A Star)算法

A*搜索(A Star) 不同于盲目搜索&#xff0c;A算法是一种启发式算法(Heuristic Algorithm)。 上文提到&#xff0c;盲目搜索对于所有要搜索的状态结点都是一视同仁的&#xff0c;因此在每次搜索一个状态时&#xff0c;盲目搜索并不会考虑这个状态到底是有利于趋向目标的&#x…...

Tinywebserve学习之linux 用户态内核态

一.CPU指令集权限 指令集是实现CPU实现软件指挥硬件执行的媒介&#xff0c;具体来说每一条汇编语句都对应了一条CPU指令&#xff0c;而非常多的CPU指令再一起组成一个甚至多个集合&#xff0c;指令的集合叫CPU指令集&#xff1b; 因为CPU指令集可以操纵硬件&#xff0c;会造成…...

AI之浅谈

随着ChatGPT的爆火&#xff0c;AI的应用也随之遍地开花&#xff0c;国内国外的各种大模型也都陆续推出&#xff0c;AI的本质是进行数据的分析和整理&#xff0c;其背后的资源来自于互联网时代所积累的大数据基础&#xff0c;这也是深度学习的结果&#xff0c;AI具有不眠不休的特…...

20231024后端研发面经整理

1.如何在单链表O(1)删除节点&#xff1f; 狸猫换太子 2.redis中的key如何找到对应的内存位置&#xff1f; 哈希碰撞的话用链表存 3.线性探测哈希法的插入&#xff0c;查找和删除 插入&#xff1a;一个个挨着后面找&#xff0c;知道有空位 查找&#xff1a;一个个挨着后面找…...

【前段基础入门之】=>CSS3新增渐变颜色属性

导语&#xff1a; CSS3 新增了&#xff0c;渐变色 的解决方案&#xff0c;这使得我们可以绘制出更加生动的炫酷的的配色效果 线性渐变 多个颜色之间的渐变&#xff0c; 默认从上到下渐变 background-image: linear-gradient(red,yellow,green); /*默认从上到下渐变*/默认从上…...

深入浅出排序算法之归并排序

目录 1. 归并排序的原理 1.1 二路归并排序执行流程 2. 代码分析 2.1 代码设计 3. 性能分析 4. 非递归版本 1. 归并排序的原理 “归并”一词的中文含义就是合并、并入的意思&#xff0c;而在数据结构中的定义是将两个或者两个以上的有序表组合成一个新的有序表。 归并排序…...

opencv dnn模块 示例(19) 目标检测 object_detection 之 yolox

文章目录 0、前言1、网络介绍1.1、输入1.2、Backbone主干网络1.3、Neck1.4、Prediction预测输出1.4.1、Decoupled Head解耦头1.4.2、Anchor-Free1.4.3、标签分配1.4.4、Loss计算 1.5、Yolox-s、l、m、x系列1.6、轻量级网络研究1.6.1、轻量级网络1.6.2、数据增强的优缺点 1.7、Y…...

微信小程序阻止返回事件

需求场景 当在一个表单页面 填写了很多数据,或者编辑页面数据发生变动之后,这时候返回上一个页面需要提醒用户是否返回的弹框 实现方法一(ios会存在一定的问题) 在onLoad生命周期里 注册 wx.enableAlertBeforeUnload({message: "您内容已更新,还没保存,确定要退出吗?&…...

YOLOv7改进:新颖的上下文解耦头TSCODE,即插即用,各个数据集下实现暴力涨点

💡💡💡本文属于原创独家改进:上下文解耦头TSCODE,进行深、浅层的特征融合,最后再分别输入到头部进行相应的解码输出,实现暴力暴力涨点 上下文解耦头TSCODE| 亲测在多个数据集实现暴力涨点,对遮挡场景、小目标场景提升也明显; 收录: YOLOv7高阶自研专栏介绍: …...

OpenClaw+千问3.5-9B监控方案:网站异常自动检测与告警

OpenClaw千问3.5-9B监控方案&#xff1a;网站异常自动检测与告警 1. 为什么需要轻量级网站监控 去年我的个人博客遭遇了一次持续6小时的宕机&#xff0c;直到读者发邮件反馈才发现问题。传统监控工具如UptimeRobot虽然能检测HTTP状态&#xff0c;但无法识别内容篡改或样式异常…...

OpenClaw排错大全:Phi-3-mini-128k-instruct接口连接失败7种解决方案

OpenClaw排错大全&#xff1a;Phi-3-mini-128k-instruct接口连接失败7种解决方案 1. 问题背景与排查思路 上周我在本地部署Phi-3-mini-128k-instruct模型时&#xff0c;遇到了OpenClaw连接失败的棘手问题。控制台不断报错"Model connection timeout"&#xff0c;但…...

软件PWM库原理与工程实践:轻量级非阻塞式脉宽调制实现

1. PWM库技术解析&#xff1a;面向嵌入式工程师的底层实现与工程化应用1.1 库定位与核心价值PWM&#xff08;Pulse Width Modulation&#xff09;库是一个轻量级、非阻塞式脉宽调制信号生成工具&#xff0c;专为资源受限的微控制器平台设计。其核心价值不在于替代硬件PWM外设&a…...

多模态研究助手:OpenClaw+千问3.5-35B-A3B-FP8学术资料处理流水线

多模态研究助手&#xff1a;OpenClaw千问3.5-35B-A3B-FP8学术资料处理流水线 1. 为什么需要学术资料处理流水线 去年写博士论文时&#xff0c;我电脑里堆满了从不同渠道下载的PDF、PPT和Word文档。光是整理参考文献就花了两周时间——手动复制标题、作者、摘要到Excel&#x…...

零代码建站!免费源码网快速上手

在数字化浪潮席卷各行各业的今天&#xff0c;拥有一个专业网站已成为个人展示、企业宣传、产品推广的标配。然而&#xff0c;传统网站开发需要专业的技术团队、高昂的开发成本和漫长的建设周期&#xff0c;这让许多初创企业、个人站长望而却步。幸运的是&#xff0c;随着"…...

大中华区21个主要城市甲级写字楼市场报告发布;DHL集团与中国外运将进一步深化全球业务协同 | 美通社一周热点简体中文稿

美通社每周发布数百上千篇中文企业资讯&#xff0c;想看完所有稿件可能很困难。以下是我们对过去一周不容错过的主要企业稿件进行的归纳&#xff0c;帮助记者和读者们及时了解一周发布的热门企业资讯。中国在欧洲的专利申请量超越日本首次跃升至前三欧洲专利局(European Patent…...

电机速度计算

1. M法计算速度值详解&#xff1a;原理、公式与应用 概述 M法&#xff0c;也称为频率测量法&#xff0c;是一种通过在固定时间内统计脉冲数量来计算速度的常用方法。这种方法特别适用于中高速运动的测量场景&#xff0c;在电机控制、编码器测速等领域有着广泛的应用。 &#x1…...

安卓跑步打卡项目App源码分享:内含完整源码与简易开发文档

安卓源码&#xff0c;安卓开发&#xff0c;跑步打卡项目app源码&#xff0c;包括源码和简单文档跑步打卡 App 技术白皮书——从传感器到云端轨迹的完整数据链路一、定位&#xff1a;一款“轻量级、端侧优先”的运动健康产品本 App 面向青少年及日常健身人群&#xff0c;在“零账…...

2026届必备的AI科研平台实际效果

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当前学术写作场景中&#xff0c;AI辅助平台已广泛应用。因经过综合评估&#xff0c;所以以下…...

PHP中比较两个对象的几种方式小结

在PHP中&#xff0c;比较两个对象并不是一件直接明了的事情&#xff0c;因为对象之间的比较通常依赖于它们的属性和状态&#xff0c;而这些属性和状态可能非常复杂且多样化。PHP提供了几种方式来比较对象&#xff0c;但每种方式都有其特定的用途和限制。1. 使用和运算符在PHP中…...