当前位置: 首页 > news >正文

KU Leuven TU Berlin 推出“RobBERT”,一款荷兰索塔 BERT

荷兰语是大约24万人的第一语言,也是近5万人的第二语言,是继英语和德语之后第三大日耳曼语言。来自比利时鲁汶大学和柏林工业大学的一组研究人员最近推出了基于荷兰RoBERTa的语言模型RobBERT。

谷歌的BERT(来自Transformers的B idirectional Encoder R表示)于2019年首次推出,是一种强大而流行的语言表示模型,旨在预训练来自未标记文本的深度双向表示。研究表明,在单一语言上训练的BERT模型明显优于多语言版本。

与以前使用早期的BERT实现来训练荷兰语BERT的方法不同,新研究使用了RoBERTa,这是去年夏天由Facebook AI和华盛顿大学西雅图分校的研究人员推出的BERT的改进版本。RobBERT 经过了来自 OSCAR 语料库荷兰部分的 6 亿字总计 6 GB 文本的预训练。

2023-08-14T02:46:37.png

与SOTA相比,RobBERT在几个下游任务上进行了微调的结果

研究人员在不同环境中评估了RobBERT在多个下游任务上的表现,比较了其在荷兰书评数据集(DBRD)的情感分析中的表现,以及荷兰语特有的任务,将Europarl话语语料库中的“die”与“dat(that)”区分开来。结果表明,RobBERT在情感分析方面优于现有的基于荷兰BERT的模型,如BERTje,并在“Die/Dat”消歧任务上取得了最先进的结果。

本文确定了这项研究的可能改进和未来方向,例如训练类似的模型,改变训练数据格式和预训练任务,如句子顺序预测,以及将RobBERT应用于其他荷兰语任务。

预训练的RobBERT模型可以与Hugging Face的变压器和Facebook的Fairseq工具包一起使用。顺便说一下,RobBERT标志源于这样一个事实,即“rob”这个词在荷兰语中也是“印章”的意思。

论文RobBERT:基于荷兰RoBERTa的语言模型在arXiv上发表。模型和代码可在 GitHub 上找到。

相关文章:

KU Leuven TU Berlin 推出“RobBERT”,一款荷兰索塔 BERT

荷兰语是大约24万人的第一语言,也是近5万人的第二语言,是继英语和德语之后第三大日耳曼语言。来自比利时鲁汶大学和柏林工业大学的一组研究人员最近推出了基于荷兰RoBERTa的语言模型RobBERT。 谷歌的BERT(来自Transformers的B idirectional …...

Postern中配置和使用Socks5代理指南

在Postern中配置和使用Socks5代理,可以为你的爬虫项目提供更灵活、更可靠的网络连接。本文将向你分享如何在Postern中配置和使用Socks5代理的方法,解决可能遇到的问题 配置和使用Socks5代理的步骤: 1.了解Socks代理:了解Socks5代…...

android 窗口级模糊实现方式

在Android上实现窗口级模糊效果有多种方法,下面列出了其中两种常用的实现方式: RenderScript模糊效果: 使用ScriptIntrinsicBlur类在RenderScript中实现模糊效果。创建一个RenderScript实例并将要模糊的图像传递给它。创建一个ScriptIntrinsi…...

面试热题(数组中的第K个最大元素)

给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。 请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。 输入: [3,2,1,5,6,4] 和 k 2 输出: 5提到数组中最大元素,我们往往想到就是先给数组…...

HTTP2协议介绍

前言 HTTP是现代互联网通信的基础协议之一,早在1991年,HTTP/0.9版本就诞生了,之后又陆续发布了HTTP/1.0和HTTP/1.1,为互联网应用提供了更高效和可靠的通信方式。 随着时间的推移,互联网的规模和复杂性不断扩大&#x…...

矩阵的转置

题目: 给你一个二维整数数组 matrix, 返回 matrix 的 转置矩阵 。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[[1,4,7],[2,5,8],[3,6,9]]class Solution(object):def transpose(self, matrix):"&q…...

web集群学习:nginx+keepalived实现负载均衡高可用性

目录 项目架构 一,环境介绍 二,项目部署 在Web服务器上配置Web测试页面 nginx负载均衡配置 配置Nginx_Master 通过vrrp_script实现对集群资源的监控(1>通过killall命令探测服务运行状态) 通过vrrp_script实现对集群资源…...

MFC第二十九天 CView类的分支(以及其派生类的功能)、MFC六大关键技术

文章目录 CView类的分支CEditViewCHtmlViewMainFrm.h CMainFrame 类的接口CMainView .h CListCtrl与CListView的创建原理 CTreeViewCTreeCtrl类简介CTreeCtrl类的原理以及常用功能 MFC六大关键技术视图和带分割栏的框架开发与消息路由CLeftView.cppCRightView.hCRightView.cppC…...

SpringBoot复习:(37)自定义ErrorController

所有接口统一返回的数据格式 package cn.edu.tju.domain;public class MyResponse {private int code;private String message;private String exception;private String stack;public int getCode() {return code;}public void setCode(int code) {this.code code;}public S…...

Linux学习之防火墙概述

防火墙分类: 软件防火墙:常用于数据包的过滤,比如限制某些ip或者端口,进行某些数据的转发或者传送 硬件防火墙:防御地域攻击 软件防火墙的分类: 包过滤防火墙:控制比较宽泛,防御效果…...

JS_围绕圆形滑动

需求&#xff1a;滑动手势最大不能超过一个半径为50的圆形&#xff0c;超出围绕圆形边线滑动 这里只提供一个思路&#xff0c;下面代码可以运行&#xff0c;但是要使用需要改成自己的参数 <div style"width: 100%;height: 100vh;display: flex;justify-content: cente…...

Ubuntu上安装RabbitMQ

在Ubuntu上安装RabbitMQ并设置管理员用户为"admin"&#xff0c;密码为"123456"&#xff0c;并开启开机自启 更新系统软件包列表。在终端中执行以下命令&#xff1a; sudo apt update安装RabbitMQ服务器软件包。运行以下命令&#xff1a; sudo apt insta…...

统计学和机器学习之间的联系和区别

一、说明 老实说&#xff0c;我厌倦了几乎每天都在社交媒体和我的大学里听到这场辩论。通常&#xff0c;这伴随着一些模糊的陈述来解释这个问题。双方都为此感到内疚。我希望在本文结束时&#xff0c;您将对这些有些模糊的术语有更明智的立场。 二、论点 与普遍的看法相反&…...

linux中profile.d和profile的区别

profile.d在profile中加载 profile文件 PATH"/bin:/sbin:/usr/bin:/usr/sbin:/opt/bin:/opt/scripts:/soc/bin:/soc/scripts" LD_LIBRARY_PATH"/usr/local/lib:/usr/lib:/opt/lib:/soc/lib" export SSL_LDPATH/usr/local/lib/ export ZLIB_LDPATH/usr/lo…...

MobaXterm sftp 不能拖拽文件夹了?

原因是我把mobaxterm设置成Windows管理员权限运行了,结果就不能拖动文件。把管理员权限去掉就恢复正常了。 原因是我把mobaxterm设置成Windows管理员权限运行了,结果就不能拖动文件。把管理员权限去掉就恢复正常了。 原因是我把mobaxterm设置成Windows管理员权限运行了,结果就不…...

【ArcGIS Pro二次开发】(59):Editing(编辑)模块

ArcGIS Pro SDK中的"Editing"&#xff08;编辑&#xff09;模块提供了一系列API和工具&#xff0c;允许开发人员在ArcGIS Pro中实现各种地图数据编辑操作&#xff0c;从简单的要素绘制到复杂的数据集编辑。 下面列举一些常用编辑工具的实现方法。 1、获取所选要素的…...

WebSocket与消息推送

B/S结构的软件项目中有时客户端需要实时的获得服务器消息&#xff0c;但默认HTTP协议只支持请求响应模式&#xff0c;这样做可以简化Web服务器&#xff0c;减少服务器的负担&#xff0c;加快响应速度&#xff0c;因为服务器不需要与客户端长时间建立一个通信链接&#xff0c;但…...

5.1 web浏览安全

数据参考&#xff1a;CISP官方 目录 Web应用基础浏览器所面临的安全威胁养成良好的Web浏览安全意识如何安全使用浏览器 一、Web应用基础 1、Web应用的基本概念 Web ( World wide Web) 也称为万维网 脱离单机Web应用在互联网上占据了及其重要的地位Web应用的发展&#xf…...

(六)Unity开发Vision Pro——词汇表

1.PolySpatial Core (com.unity.polyspatial)&#xff1a;基础 PolySpatial 包&#xff0c;初始化和所有设置从这里开始。它执行更改跟踪和处理、序列化/反序列化&#xff0c;并包括 ShaderGraph 到 MaterialX 转换器 2.PolySpatial XR (com.unity.polyspatial.xr)&#xff1a…...

算法随笔:图论问题之割点割边

割点 定义 割点的定义&#xff1a;如果一个点被删除之后会导致整个图不再是一个连通图&#xff0c;那么这个顶点就是这个图的割点。举例&#xff1a; 上图中的点2就是一个割点&#xff0c;如果它被删除&#xff0c;则整个图被分为两个连通分量&#xff0c;不再是一个连通图。…...

电商App安全防护原理与合规开发实践指南

我不能提供任何绕过应用反抓包机制、破坏应用安全防护或违反平台服务协议的技术方案。 拼多多App作为一款合法合规运营的商业应用&#xff0c;其反抓包机制是保障用户数据安全、交易隐私和平台生态健康的重要技术手段。逆向分析、调试绕过、协议破解等行为不仅违反《中华人民共…...

融合gws-PINNs与马尔可夫切换模型:反演跳跃系数PDE的混合框架

1. 项目概述与核心挑战在科学计算和工程建模领域&#xff0c;我们经常遇到一个“反着来”的难题&#xff1a;已知一个物理系统的观测数据&#xff08;比如某个区域随时间变化的温度场、流速场&#xff09;&#xff0c;也知道描述这个系统的大致物理规律&#xff08;比如热传导方…...

深入 QEMU 热迁移

深入 QEMU 热迁移&#xff1a;从状态机到数据平面的全链路剖析 “把一台正在运行的虚拟机从一台主机搬到另一台&#xff0c;还让里面的操作系统浑然不觉——这听起来像魔法&#xff0c;实则是精密的工程。” 引言 实时迁移是 QEMU 最核心的子系统之一。它允许将一个正在运行的…...

HTTPS抓包失败的七层根因与实战定位法

1. 为什么HTTPS抓包总在“看不见”的地方翻车&#xff1f;你刚配好Fiddler或Charles&#xff0c;证书也装了、代理也开了、手机Wi-Fi也指向了电脑IP&#xff0c;可一打开App——抓包窗口空空如也&#xff0c;连个DNS请求都不见&#xff1b;或者只看到一堆CONNECT隧道建立记录&a…...

Pico手柄+XRI 2.5交互系统实战:射线点击与抓取避坑指南

1. 这不是“拖拽组件就能跑通”的Demo&#xff0c;而是真正在Pico设备上能稳定抓取杯子、推开箱子、精准点击UI的交互系统Unity XR Interaction Toolkit&#xff08;简称XRI&#xff09;这两年在XR开发圈里热度很高&#xff0c;但很多人一上手就卡在“手柄动了&#xff0c;但啥…...

独立游戏开发者如何用Tap广告联盟实现首月变现?我的Unity激励视频接入与调优心得

独立游戏开发者的Tap广告联盟实战指南&#xff1a;从零到首笔收益的完整路径当我在Steam上发布第一款独立游戏时&#xff0c;曾天真地认为"酒香不怕巷子深"。直到账户余额持续三个月停留在两位数&#xff0c;才意识到商业化设计的重要性。作为小型团队&#xff0c;我…...

Keil uVision开发环境文件类型全解析

1. uVision支持的文件类型全解析作为一名嵌入式开发工程师&#xff0c;我使用Keil uVision IDE已有八年时间。今天想系统梳理一下这个开发环境支持的各种文件类型&#xff0c;特别是那些在实际项目中经常遇到但官方文档解释不够详细的格式。理解这些文件类型对于项目管理和问题…...

iOS HTTPS抓包全链路指南:从Charles配置到SSL Pinning绕过

1. 为什么iOS HTTPS抓包比安卓难得多&#xff1f;——从SSL Pinning到系统证书信任链的硬门槛很多人第一次在Mac上打开Charles&#xff0c;连上iPhone&#xff0c;点开App发现一片空白&#xff1a;没有请求、没有响应、全是unknown。不是Charles坏了&#xff0c;也不是手机没连…...

STM32内核精讲 | 第七章:异常与中断系统(NVIC)—— 进阶篇

&#x1f4a1; 本文是《STM32内核精讲》栏目的第七篇。上一篇我们学习了异常类型、向量表以及 NVIC 的基础寄存器操作&#xff08;使能/禁止、挂起/清除、优先级配置&#xff09;。本篇将继续深入 NVIC 的核心机制&#xff1a;优先级分组、晚到与尾链、EXC_RETURN 的奥秘&#…...

MacBook新手福音:用Final Cut Pro 10.6.5搞定你的第一门视频课(附保姆级设置与导出指南)

MacBook新手福音&#xff1a;Final Cut Pro 10.6.5视频课制作全流程精解第一次打开Final Cut Pro时&#xff0c;那个布满陌生术语的界面是否让你望而却步&#xff1f;作为Mac用户专属的视频剪辑利器&#xff0c;它其实远比想象中友好。本文将带你用最直接的方式&#xff0c;从零…...