当前位置：首页 > news >正文

使用Fairseq进行Bart预训练

news 2025/9/14 21:29:13

文章目录

前言
环境
流程介绍
- 数据部分
- 分词部分
- 预处理部分
- 训练部分
遇到的问题
- 问题1
可能遇到的问题
- 问题1
- 问题2

前言

本文是使用 fairseq 做 Bart 预训练任务的踩坑记录
huggingface没有提供 Bart 预训练的代码

facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence Toolkit written in Python. (github.com)

环境

fairseq=0.10.0
torch=1.10.0+cu111
GPU=NVIDIA GeForce RTX 3090
CUDA=11.1

安装时先进行了

pip install --editable ./

之后报错

`Getting requirements to build editable ... error
error: subprocess-exited-with-error× Getting requirements to build editable did not run successfully.
packages/torch/lib/../../nvidia/cublas/lib/libcublas.so.11: symbol cublasLtHSHMatmulAlgoInit version libcublasLt.so.11 not defined in file libcublasLt.so.11 with link time reference

解决（有issue，有回答： https://github.com/facebookresearch/fairseq/issues/4843

pip install --no-build-isolation --editable ./

但是装完之后是最新的 fairseq=0.12.0,会有 args 冲突的错误
```
argparse.ArgumentError: argument --max-source-positions: conflicting option string: --max-source-positions
```
有人提issue，但是没有回答：https://github.com/facebookresearch/fairseq/issues/4416
这个错误应该是版本问题，于是换成 fairseq=0.10.0, torch与cuda 11.1对应安装

个人认为不需要执行 pip install --editable ./，直接 pip 安装想要的fairseq版本即可

流程介绍

数据部分：获得数据，将数据写进文件中，每一行代表一个样本
分词部分：使用 BPE(Byte Pair Encoding) 分词，将数据 tokenize
预处理部分：使用fairseq-preprocess对分词后的数据进行处理，并binarize数据
训练部分：使用fairseq-train进行训练

数据部分

我使用的是qulac中query对应的top10k docs数据，数据包含大量文本形式的文档。

将数据划分为训练集，验证集，测试集，分别存于train.input, valid.input, test.input，其中每一行代表一个训练样本
- 我将文档按 . 进行拆分，每个长度大于50的句子才会被考虑
- 这里我要进行的是denoising任务，因此不需要 label，如果任务是有 target的，还要存储train.output等文件（文件名称和后缀可以自行设置）
我以 8:2的比例设置了训练集和验证集，没有设置测试集

分词部分

因为模型不能处理原始文本，因此我们要将文本转换为 token id 的序列，使用命令如下

TASK=denoise_data/source_split
LANG=input
for SPLIT in train valid
dopython -m examples.roberta.multiprocessing_bpe_encoder \--encoder-json ./BPE/encoder.json \--vocab-bpe ./BPE/vocab.bpe \--inputs "$TASK/$SPLIT.$LANG" \--outputs "$TASK/$SPLIT.bpe.$LANG" \--workers 60 \--keep-empty;
done

这里需要先下载对应的 encoder.json, vocab.bpe. dict.txt，Bart与gpt2使用的是相同的

wget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/encoder.json'
wget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/vocab.bpe'
wget -N 'https://dl.fbaipublicfiles.com/fairseq/gpt2_bpe/dict.txt'

这里的 output 是输出文件名，不是label

分词前的数据

在这里插入图片描述

分词后的数据（和分词前的数据不是对应的，只是展示结果）

在这里插入图片描述

预处理部分

预处理分词好的数据，并且对数据进行二值化，将得到的二值化数据写到 --destdir 文件夹中，可以用于模型训练

TASK=denoise_data/source_split
fairseq-preprocess \--only-source \--trainpref "${TASK}/train.bpe.input" \--validpref "${TASK}/valid.bpe.input" \--destdir "${TASK}/bpe_data" \--workers 60 \--srcdict /home/nsy/ict/Models/bart_base_fairseq/bart.base/dict.txt \--tgtdict /home/nsy/ict/Models/bart_base_fairseq/bart.base/dict.txt;

训练部分

加载刚刚预处理完的数据，并进行训练，具体参数可以自行调整

MASKLEN="span-poisson"
MRATIO=0.4
DATASET=./denoise_data/source_split/bpe_data/
CUDA_VISIBLE_DEVICES=0 fairseq-train $DATASET \--save-dir models/nsy_saved \--no-epoch-checkpoints \--tokens-per-sample 128 \--arch bart_base \--task denoising \# other_parameters

遇到的问题

上面的流程部分是解决完 bug 之后的正确命令

问题1

报错out of memory显存不够，需要 40G 显存，显然这对 Bart_base 来说是不会出现的错误，一定是自己的处理有问题，不是模型有问题

我使用小部分数据测试，因此这样加载一次很快，有利于发现问题。

train里面3000多条，可以跑通，且加载速度很快。这样模型的参数明显很小，比大数据集时小了很多倍。注意到embedding的维度很有问题，猜测：preprocess时产生的字典有问题，导致带字典维度的矩阵特别大
小数据集（3000多行文本）时embedding层的参数
```
(embed_tokens): Embedding(13049, 768, padding_idx=1)
```
大数据集（千万行文本）时embedding层的参数
```
(embed_tokens):Embedding(14929897, 768, padding_idx=1)
```
这会导致模型参数量巨大

发现参数量确实太大了，应该有问题，于是查看字典大小，与embedding第一维大小基本一致

在这里插入图片描述

因为之前尝试过使用 Bart 的字典来进行preprocess，但是发现百分之90多都被替换成 ,因此在小数据集上测试Bart的字典为什么会产生如此多的。查看 Bart 的字典

在这里插入图片描述

发现直接preprocess没有分词，应该先对文本做分词，产生 token_id 之后再进行 preprocess

首先进行BPE分词

TASK=try_data
LANG=input
for SPLIT in train valid
dopython -m examples.roberta.multiprocessing_bpe_encoder \--encoder-json ./BPE/encoder.json \--vocab-bpe ./BPE/vocab.bpe \--inputs "$TASK/$SPLIT.$LANG" \--outputs "$TASK/$SPLIT.bpe.$LANG" \--workers 60 \--keep-empty;
done

之后进行preprocess，这样就发现一切都合理了，也没有被替换成的 token 了

TASK=try_data
fairseq-preprocess \--only-source \--trainpref "${TASK}/train.bpe.input" \--validpref "${TASK}/valid.bpe.input" \--destdir "${TASK}/bpe_data" \--workers 60 \--srcdict /home/nsy/ict/Models/bart_base_fairseq/bart.base/dict.txt \--tgtdict /home/nsy/ict/Models/bart_base_fairseq/bart.base/dict.txt;

2023-02-18 22:45:29 | INFO | fairseq_cli.preprocess | Namespace(align_suffix=None, alignfile=None, all_gather_list_size=16384, bf16=False, bpe=None, checkpoint_shard_count=1, checkpoint_suffix='', cpu=False, criterion='cross_entropy', dataset_impl='mmap', destdir='try_data/bpe_data', empty_cache_freq=0, fp16=False, fp16_init_scale=128, fp16_no_flatten_grads=False, fp16_scale_tolerance=0.0, fp16_scale_window=None, joined_dictionary=False, log_format=None, log_interval=100, lr_scheduler='fixed', memory_efficient_bf16=False, memory_efficient_fp16=False, min_loss_scale=0.0001, model_parallel_size=1, no_progress_bar=False, nwordssrc=-1, nwordstgt=-1, only_source=True, optimizer=None, padding_factor=8, profile=False, quantization_config_path=None, scoring='bleu', seed=1, source_lang=None, srcdict='/home/nsy/ict/Models/bart_base_fairseq/bart.base/dict.txt', target_lang=None, task='translation', tensorboard_logdir=None, testpref=None, tgtdict='/home/nsy/ict/Models/bart_base_fairseq/bart.base/dict.txt', threshold_loss_scale=None, thresholdsrc=0, thresholdtgt=0, tokenizer=None, tpu=False, trainpref='try_data/train.bpe.input', user_dir=None, validpref='try_data/valid.bpe.input', workers=60)
2023-02-18 22:45:29 | INFO | fairseq_cli.preprocess | [None] Dictionary: 51200 types
2023-02-18 22:45:30 | INFO | fairseq_cli.preprocess | [None] try_data/train.bpe.input: 3383 sents, 89468 tokens, 0.0% replaced by <unk>
2023-02-18 22:45:30 | INFO | fairseq_cli.preprocess | [None] Dictionary: 51200 types
2023-02-18 22:45:31 | INFO | fairseq_cli.preprocess | [None] try_data/valid.bpe.input: 4085 sents, 99282 tokens, 0.0% replaced by <unk>
2023-02-18 22:45:31 | INFO | fairseq_cli.preprocess | Wrote preprocessed data to try_data/bpe_data

可能遇到的问题

这里可能遇到的问题是我最初遇到的，后来我重新clone了fairseq的仓库，安装了不同版本的fairseq之后没有遇到的，因此这里的问题大概率是版本问题

问题1

遇到报错 Fairseq: No module named ‘fairseq.data.data_utils_fast’。在克隆后的项目主目录运行

python setup.py build_ext --inplace

Fairseq: No module named ‘fairseq.data.data_utils_fast’ - 简书 (jianshu.com)

问题2

遇到报错 module numpy has no attribute float

因为np.float从1.24起被删除。所用的代码是依赖于旧版本的Numpy。可以更新sklearn到一个不使用np.float的新版本（如果它存在）或者将你的Numpy版本降级到1.23.5.
```
pip install -U numpy==1.23.5
```

Note: sklearn是scikit-learn的缩写，安装时要用 pip install scikit-learn

使用Fairseq进行Bart预训练

文章目录前言环境流程介绍数据部分分词部分预处理部分训练部分遇到的问题问题1可能遇到的问题问题1问题2前言本文是使用 fairseq 做 Bart 预训练任务的踩坑记录huggingface没有提供 Bart 预训练的代码 facebookresearch/fairseq: Facebook AI Research Sequence-to-Sequence…...

编程日记 2023/2/20 6:16:21

【问题描述】请编程输出如下数字回旋方阵。【算法代码】 #include <bits/stdc.h> using namespace std;const int maxn100; int z[maxn][maxn];void matrix(int n) {int num2;z[0][0]1;int i0,j1;while(i<n && j<n) {while(i<j) z[i][j]num;while(j&…...

编程日记 2023/4/1 9:22:45

【人工智能AI】二、NoSQL 基础知识《NoSQL 企业级基础入门与进阶实战》

写一篇介绍 NoSQL 基础知识的技术文章，分5个章节，每个章节细分到3级目录，重点介绍一下NoSQL 数据模型，NoSQL 数据库架构，NoSQL 数据库特性等，不少于2000字。 NoSQL 基础知识 NoSQL（Not Only SQ…...

编程日记 2023/2/20 6:14:07

Camera Rolling Shutter和Global Shutter的区别

卷帘快门（Rolling Shutter）与全局快门（Global Shutter）的区别什么是快门快门是照相机用来控制感光片有效曝光时间的机构。快门是照相机的一个重要组成部分，它的结构、形式及功能是衡量照相机档次的一个重要因素。 …...

编程日记 2023/4/1 9:23:59

模版之AnyType

title: 模版之AnyType date: 2023-02-19 21:49:53 permalink: /pages/54a0bf/ categories: 通用领域编程语言C tags:C元编程 author: name: zhengzhibing link: https://azmddy.top/pages/54a0bf/ 模版之AnyType 在研究C的编译期反射时，发现了AnyType很有意思。首…...

编程日记 2023/2/20 6:10:43

【汇编】一、环境搭建（一只 Assember 的成长史）

嗨~你好呀！ 我是一名初二学生，热爱计算机，码龄两年。最近开始学习汇编，希望通过 Blog 的形式记录下自己的学习过程，也和更多人分享。这篇文章主要讲述汇编环境的搭建过程。话不多说~我们开始吧！ 系统环…...

编程日记 2023/4/1 9:24:51

【博客628】k8s pod访问集群外域名原理以及主机开启了systemd-resolved的不同情况

k8s pod访问集群外域名原理以及使用了systemd-resolved的不同情况 1、不同情况下的linux主机访问外部域名原理没有使用systemd-resolved的linux主机上访问外部域名一般是按照以下步骤来的： 从dns缓存里查找域名与ip的映射关系从/etc/hosts里查找域名与ip的映射…...

编程日记 2023/2/20 6:08:31

测试3.测试方法的分类

3.测试分类系统测试包括回归测试和冒烟测试回归测试：修改了旧的代码后，重新测试功能是否正确，有没有引入新的错误或导致其它代码产生错误冒烟测试：目的是确认软件基本功能正常，可以进行后续的正式测试工作按是否…...

编程日记 2023/2/20 6:07:21

Android 基础知识4-2.9 FrameLayout（帧布局）详解

一、FrameLayout（帧布局）概述 FrameLayout又称作帧布局，它相比于LinearLayout和RelativeLayout要简单很多，因为它的应用场景也少了很多。这种布局没有方便的定位方式，所有的控件都会默认摆放在布局的左上角。示例1代…...

编程日记 2023/4/1 9:26:05

Go语言xorm框架

xorm xorm是一个简单而强大的Go语言ORM库通过它可以使数据库操作非常简便。官网: https://xorm.io/ 中文文档: https://gitea.com/xorm/xorm/src/branch/master/README_CN.md 特性支持 Struct 和数据库表之间的灵活映射，并支持自动同步事务支持同时支持原始SQL…...

编程日记 2023/4/1 9:27:20

19_微信小程序之优雅实现侧滑菜单

19_微信小程序之优雅实现侧滑菜单一.先上效果图要实现这样一个效果，布局其实很简单，整体布局是一个横向滚动的scroll-view，难点在于怎么控制侧滑菜单的回弹，以及寻找回弹的边界条件? 此篇文章主要是基于uni-app来实现的&#xf…...

编程日记 2023/2/20 6:03:56

JSP中JDBC与javaBean学习笔记

本博文源于博主偷偷复习期末的java web，博文主要讲述JDBC API与JavaBean，涉及driver,driver Manager\connection、statement接口、PreparedStatement接口、ResultSet接口，JavaBean包含一些标记介绍。 1.JDBC API JDBC由一组接口和类组成&am…...

编程日记 2023/2/20 6:02:51

编译Android系统源码推荐的电脑配置

工欲善其事，必先利其器。看到很多客户，搞Android产品开发，用的电脑配置是惨不忍睹。这些老板脑子有坑吗... ------------ 编译Android9推荐电脑配置： 处理器：酷睿i7 5代系列 8线程以上内存： 8GB以上…...

编程日记 2023/2/20 6:01:43

加油站会员管理小程序实战开发教程10

上一篇我们介绍了计算距离及到店导航的功能，本篇我们介绍一下今日油价的功能。如果要按日显示最新的数据，那么我们首先需要有数据源来存放每日的油价数据。这里涉及数据源的时候要考虑你的数据是只录入一条，还是每日录入一条。录入一条呢，比较简单，但有个问题是如果我…...

编程日记 2023/4/1 9:28:21

shell编程之条件判断和流程控制

typora-copy-images-to: pictures typora-root-url: …\pictures 文章目录typora-copy-images-to: pictures typora-root-url: ..\..\pictures本节课程目标一、条件判断语法结构2. 条件判断相关参数㈠判断文件类型㈡判断文件权限㈢判断文件新旧㈣判断整数㈤判断字符串㈥多…...

编程日记 2023/2/20 5:59:29

第一次接触jquery

文章目录一.关于jqurey二.什么是jqurey三.上课实例1.表格 2.鼠标移动效果 3隐藏和显示效果代码如下注意一.关于jqurey 简而言之：jQuery 是一个 JavaScript 库。 jQuery 极大地简化了 JavaScript 编程。二.什么是jqurey jQuery 是一个 JavaScript 函数库。 jQu…...

编程日记 2023/2/20 5:58:24

Vue中引入使用 babel-polyfill 兼容低版本浏览器

注意：本文主要介绍的 vue-cli 版本：3.x， 4.x； 最近在项目中使用 webpack 打包后升级，用户反馈使用浏览器（chrome 45）访问白屏。经过排查发现：由于 chrome 45 无法兼容 ES6 语法导致的…...

编程日记 2023/2/20 5:57:17

ArcGIS Enterprise on Kubernetes 11.0安装示例

博客主页：https://tomcat.blog.csdn.net 博主昵称：农民工老王主要领域：Java、Linux、K8S 期待大家的关注💖点赞👍收藏⭐留言💬 目录安装前置条件基本安装解压文件生成秘钥执行安装脚本配置DNS方法一方法二…...

编程日记 2023/2/20 5:56:09

js 防抖函数节流函数

某些事件中(如 onresize onscroll onkeydown onkeyup onmousemove …)，会连续触发函数的执行，如果函数执行一些耗时的操作(如请求数据…)，会影响性能，也有可能造成服务器压力。这时可以用防抖函数或节流函数解决这种问题。防…...

编程日记 2023/2/20 5:55:04

Yarn节点unhealthy解决办法

这几天用Spark计算任务时，发现yarn上有两个节点不参与计算，很是tm的离谱。使用下面的命令查看Yarn上的nodemanager节点状态yarn node -list -all发现两个节点处于unhealthy状态。经过Google查明原因：这种情况一般是因为那个节点上HDFS文件过多…...

编程日记 2023/2/20 5:52:43

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

在对接支付宝API的时候，遇到了一些问题，记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

编程新知 2025/9/12 13:01:46

【JVM】- 内存结构

引言 JVM：Java Virtual Machine 定义：Java虚拟机，Java二进制字节码的运行环境好处： 一次编写，到处运行自动内存管理，垃圾回收的功能数组下标越界检查（会抛异常，不会覆盖到其他代码…...

编程新知 2025/9/9 14:49:12

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/8/10 22:32:47

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2025/9/14 20:40:14

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2025/8/20 17:01:25

拉力测试cuda pytorch 把 4070显卡拉满

import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试，通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小，增大可提高计算复杂度duration: 测试持续时间（秒&…...

编程新知 2025/7/20 15:22:30

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展，光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域，IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选，但在长期运行中，例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

编程新知 2025/9/2 19:12:26

sipsak：SIP瑞士军刀！全参数详细教程！Kali Linux教程！

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求，并检查收到的响应。它以以下模式之一…...

编程新知 2025/9/13 17:37:48

VM虚拟机网络配置（ubuntu24桥接模式）：配置静态IP

编辑-虚拟网络编辑器-更改设置选择桥接模式，然后找到相应的网卡（可以查看自己本机的网络连接） windows连接的网络点击查看属性编辑虚拟机设置更改网络配置，选择刚才配置的桥接模式静态ip设置： 我用的ubuntu24桌…...

编程新知 2025/9/2 18:36:21

【JVM面试篇】高频八股汇总——类加载和类加载器

目录 1. 讲一下类加载过程？ 2. Java创建对象的过程？ 3. 对象的生命周期？ 4. 类加载器有哪些？ 5. 双亲委派模型的作用（好处）？ 6. 讲一下类的加载和双亲委派原则？ 7. 双亲委派模…...

编程新知 2025/9/4 14:20:38

文章目录

前言

环境

流程介绍

数据部分

分词部分

预处理部分

训练部分

遇到的问题

问题1

可能遇到的问题

问题1

问题2

相关文章：