当前位置：首页 > news >正文

导出BERT句子模型为ONNX并推理

news 2026/5/13 0:15:28

在深度学习中，将模型导出为ONNX（Open Neural Network Exchange）格式并利用ONNX进行推理是提高推理速度和模型兼容性的一种常见做法。本文将介绍如何将BERT句子模型导出为ONNX格式，并使用ONNX Runtime进行推理，具体以中文文本处理为例。

1. 什么是ONNX？

ONNX 是一种开放的神经网络交换格式，旨在促进深度学习模型在不同平台和工具之间的共享和移植。它支持包括PyTorch、TensorFlow等多种主流框架，可以通过ONNX Runtime库高效推理。通过将模型转换为ONNX格式，我们可以获得跨平台部署的优势，并利用ONNX Runtime加速推理过程。

2. 准备工作

在导出和推理之前，需要安装以下库：

pip install torch transformers onnx onnxruntime

3. 导出BERT句子模型为ONNX

首先，我们将使用HuggingFace的transformers库加载一个预训练的BERT句子模型（text2vec-base-chinese），然后将其导出为ONNX格式。以下是导出模型的步骤和代码：

3.1 导出模型的代码

import torch
from transformers import BertTokenizer, BertModel# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('shibing624/text2vec-base-chinese')
model = BertModel.from_pretrained('shibing624/text2vec-base-chinese')# 读取要处理的句子
with open("corpus/words_nlu.txt", 'rt', encoding='utf-8') as f:nlu_words = [line.strip() for line in f.readlines()]
nlu_words.insert(0, "摄像头打开一下")  # 插入要比较的句子# 对句子进行编码
encoded_input = tokenizer(nlu_words, padding=True, truncation=True, return_tensors='pt')# 设置ONNX模型的保存路径
onnx_model_path = "text2vec-base-chinese.onnx"
model.eval()# 导出模型为ONNX格式
with torch.no_grad():torch.onnx.export(model,(encoded_input['input_ids'], encoded_input['attention_mask']),onnx_model_path,input_names=['input_ids', 'attention_mask'],output_names=['last_hidden_state'],opset_version=14,dynamic_axes={'input_ids': {0: 'batch_size', 1: 'sequence_length'},'attention_mask': {0: 'batch_size', 1: 'sequence_length'},'last_hidden_state': {0: 'batch_size', 1: 'sequence_length'}})
print(f"ONNX模型已导出到 {onnx_model_path}")

在这段代码中，我们将text2vec-base-chinese模型导出为ONNX格式，指定了输入和输出的名称，并使用了动态轴设置（如批大小和序列长度），这样可以处理不同长度的句子。

4. 使用ONNX进行推理

导出模型后，我们可以使用ONNX Runtime进行推理。以下是基于ONNX的推理代码。该代码实现了对输入文本进行预处理、调用ONNX模型进行推理、以及对模型输出进行均值池化处理。

4.1 ONNX推理代码

import numpy as np
from onnxruntime import InferenceSessionclass PIPE_NLU:def __init__(self, model_path="text2vec-base-chinese.onnx", vocab_path="vocab.txt") -> None:self.model_path = model_pathself.vocab_path = vocab_pathself.vocab = self.load_vocab(vocab_path)self.onnx_session = InferenceSession(model_path)print("成功加载NLU解码器")def load_vocab(self, vocab_path):"""加载BERT词汇表"""vocab = {}with open(vocab_path, 'r', encoding='utf-8') as f:for idx, line in enumerate(f):token = line.strip()vocab[token] = idxreturn vocabdef tokenize(self, text):"""将文本分词为BERT的input_ids"""tokens = ['[CLS]']for char in text:if char in self.vocab:tokens.append(char)else:tokens.append('[UNK]')tokens.append('[SEP]')input_ids = [self.vocab[token] if token in self.vocab else self.vocab['[UNK]'] for token in tokens]return input_idsdef preprocess(self, texts, max_length=128):"""对输入文本进行预处理"""input_ids_list = []attention_mask_list = []for text in texts:input_ids = self.tokenize(text)if len(input_ids) > max_length:input_ids = input_ids[:max_length]else:input_ids += [0] * (max_length - len(input_ids))attention_mask = [1 if idx != 0 else 0 for idx in input_ids]input_ids_list.append(input_ids)attention_mask_list.append(attention_mask)inputs = {'input_ids': np.array(input_ids_list, dtype=np.int64),'attention_mask': np.array(attention_mask_list, dtype=np.int64)}return inputsdef mean_pooling_numpy(self, model_output, attention_mask):"""对模型输出进行均值池化"""token_embeddings = model_outputinput_mask_expanded = np.expand_dims(attention_mask, -1).astype(float)return np.sum(token_embeddings * input_mask_expanded, axis=1) / np.clip(np.sum(input_mask_expanded, axis=1), a_min=1e-9, a_max=None)def compute_embeddings(self, texts):"""计算输入文本的句子嵌入"""onnx_inputs = self.preprocess(texts)onnx_outputs = self.onnx_session.run(None, onnx_inputs)last_hidden_state = onnx_outputs[0]sentence_embeddings = self.mean_pooling_numpy(last_hidden_state, onnx_inputs['attention_mask'])sentence_embeddings = sentence_embeddings / np.linalg.norm(sentence_embeddings, axis=1, keepdims=True)return sentence_embeddings

4.2 推理流程

加载ONNX模型：通过InferenceSession加载ONNX模型。
加载词汇表：读取BERT的词汇表，用于将输入文本转化为模型可接受的input_ids格式。
文本预处理：将输入的文本进行分词、截断或填充为固定长度，并生成相应的注意力掩码attention_mask。
模型推理：通过ONNX Runtime调用模型，获取句子的最后隐藏状态输出。
均值池化：对最后的隐藏状态进行均值池化，计算出句子的嵌入向量。
归一化嵌入：将句子嵌入向量进行归一化，使得向量长度为1。

5. 总结

通过将BERT模型导出为ONNX并使用ONNX Runtime进行推理，我们可以大幅度提升推理速度，同时保持了高精度的句子嵌入计算。在实际应用中，ONNX Runtime的跨平台特性和高性能表现使其成为模型部署和推理的理想选择。

使用上述步骤，您可以轻松将BERT句子模型应用到各种自然语言处理任务中，如语义相似度计算、文本分类和句子嵌入等。

导出BERT句子模型为ONNX并推理

1. 什么是ONNX？

2. 准备工作

3. 导出BERT句子模型为ONNX

3.1 导出模型的代码

4. 使用ONNX进行推理

4.1 ONNX推理代码

4.2 推理流程

5. 总结

相关文章：

导出BERT句子模型为ONNX并推理

Unity Apple Vision Pro 自定义手势识别交互

【Javaee】网络原理—TCP协议的核心机制

Unity插件-Intense TPS 讲解

【p2p、分布式，区块链笔记 Blockchain】truffle001 以太坊开发框架truffle初步实践

网站被浏览器提示“不安全”，如何快速解决

java -jar启动报错： Error: Unable to access jarfile

Servlet(三）-------Cookie和session

最新物流行业CRM系统应用数字化解决方案

[deadlock]死锁导致的设备登录无响应问题

2024年10月21日计算机网络,乌蒙第一部分

ESlint代码规范

【Vue.js设计与实现】第三篇第11章：渲染器-快速 Diff 算法-阅读笔记

材质变体 PSO学习笔记

2024年【烟花爆竹储存】考试及烟花爆竹储存复审模拟考试

文件夹操作

如何制作一台自己想要的无人机？无人机改装调试技术详解

Linux -- 进程间通信、初识匿名管道

网站的SSL证书快到期了怎么办？怎么续签？

解決爬蟲代理連接的方法

告别启动盘识别难题：手把手教你搞定CentOS 7在SR650上的UEFI启动与自定义分区（含/dev/sdX查找技巧）

Taotoken官方价折扣活动对于高频用户的实际成本影响分析

先进制程重塑晶圆代工格局：从HPC需求到供应链博弈

2026年项目管理工具测评：10款主流软件对比与企业选型建议

告别I帧卡顿！用H.264帧内刷新（Intra Refresh）让你的直播码率稳如老狗

中兴860A四川电信高安版救砖记：遥控失效后，我是如何通过修改init.rc寄生脚本让遥控器起死回生的

别再只会addItem了！QT QComboBox的5个高级用法与实战场景（含完整代码）

基于LLM的多智能体协作框架：从原理到实践构建自主开发团队

从癌症研究到企业风控：用Python实战Cox比例风险模型（附完整代码与数据）

深度学习正则化（三）—— 提前终止 + 参数共享 + 稀疏表示（三十）