当前位置：首页 > news >正文

AI开发-三方库-Hugging Face-Pipelines

news 2025/7/15 7:02:13

1 需求

需求1：pipeline支持的任务类型

需求2：推理加速使用CPU还是GPU

需求3：基于pipeline的文本分类示例

需求4：pipeline实现原理

模型使用步骤（Raw text -》Input IDs -》Logits -》Predictions）：

第一步：数据预处理（Raw text -》Input IDs）
第二步：模型调用（Input IDs -》Logits）
第三步：结果后处理（Logits -》Predictions）

以下是对这个流程的解释：

一、Raw text -＞ Input IDs

原始文本处理：
- “Raw text” 即原始文本，可能是一段自然语言的语句、文章段落等。
- 在自然语言处理任务中，首先需要将原始文本进行预处理，以便模型能够理解和处理。
分词与编码：
- 通常使用分词器（tokenizer）将原始文本分割成一个个的词或子词单元。例如，对于英文文本，可能会将单词拆分成词根、词缀等更小的单元；对于中文文本，可能会按照字、词等进行分割。
- 然后，分词器会为每个分割后的单元分配一个唯一的整数标识符，即 “Input IDs”。这些整数标识符可以被模型识别和处理。
- 例如，使用 Hugging Face 的 Transformers 库中的分词器，可以这样将原始文本转换为输入 ID 序列：

text = "今天天气不错"# 第一步：数据预处理（Raw text -》Input IDs）
from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('./model')
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True)
print(inputs)

二、Input IDs -＞ Logits

模型处理输入：
- “Input IDs” 被输入到深度学习模型中，例如 Transformer 架构的语言模型。
- 模型会对输入的 ID 序列进行一系列的计算和处理，包括嵌入（embedding）、多头注意力（multi-head attention）、前馈神经网络（feed-forward neural network）等操作。
生成对数概率：
- 经过模型的计算，最终会输出一个向量，称为 “Logits”。Logits 是模型对每个可能的输出类别的对数概率。
- 例如，在文本分类任务中，如果有两个类别（正面和负面），那么 Logits 可能是一个长度为 2 的向量，分别表示输入文本属于正面类别和负面类别的对数概率。
- 以下是一个简单的示例，使用预训练的模型生成 Logits：

# 第二步：模型调用（Input IDs -》Logits）
from transformers import BertForSequenceClassificationmodel = BertForSequenceClassification.from_pretrained('./model')
# print(model.config)
outputs = model(**inputs)
logits = outputs.logits
print(logits)

三、Logits -＞ Predictions

概率计算与预测：
- “Logits” 通常是未经过处理的对数概率，需要进一步转换为概率值。可以使用 softmax 函数将 Logits 转换为概率分布。
- Softmax 函数会将每个对数概率转换为一个介于 0 和 1 之间的概率值，并且所有概率值之和为 1。
- 然后，根据概率分布，可以选择概率最高的类别作为模型的预测结果。
- 例如：

# 第三步：结果后处理（Logits -》Predictions）
import torchpredictions = torch.nn.functional.softmax(logits, dim=-1)
predictions_class = torch.argmax(predictions).item()
print(predictions_class)
print(model.config.id2label.get(predictions_class))

这个流程是自然语言处理中常见的文本分类任务的基本步骤，不同的任务和模型可能会有所不同，但总体上都遵循这个从原始文本到最终预测的过程。

2 接口

关键参数

task：指定任务类型
model：指定模型
tokenizer：指定分词器
device：指定使用GPU进行推理加速

常见调用方式

pipeline(task="text-classification")
pipeline(task="text-classification", model="./model")
pipeline(task="text-classification", model="./model", tokenizer="./model")
pipeline(task="text-classification", model="./model", tokenizer="./model", device=-1)

https://huggingface.co/docs/transformers/quicktour

https://huggingface.co/docs/transformers/index

3.1 支持任务类型

from transformers.pipelines import SUPPORTED_TASKSfor k, v in SUPPORTED_TASKS.items():print(k)

3.2 推理加速使用CPU还是GPU

from transformers import pipelinepipe = pipeline(task="text-classification", model="./model", tokenizer="./model")print(pipe.model.device)

3.3 基于pipeline的文本分类示例

from transformers import pipelinepipe = pipeline(task="text-classification", model="./model", tokenizer="./model", device=-1)
result = pipe("今天天气不错")
print(result)

3.4 pipeline实现原理

text = "今天天气不错"# 第一步：数据预处理（Raw text -》Input IDs）
from transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('./model')
inputs = tokenizer(text, return_tensors='pt', padding=True, truncation=True)
print(inputs)# 第二步：模型调用（Input IDs -》Logits）
from transformers import BertForSequenceClassificationmodel = BertForSequenceClassification.from_pretrained('./model')
# print(model.config)
outputs = model(**inputs)
logits = outputs.logits
print(logits)# 第三步：结果后处理（Logits -》Predictions）
import torchpredictions = torch.nn.functional.softmax(logits, dim=-1)
predictions_class = torch.argmax(predictions).item()
print(predictions_class)
print(model.config.id2label.get(predictions_class))

4 参考资料

https://huggingface.co/docs/transformers/main_classes/pipelines

https://hf-mirror.com/docs/transformers/main_classes/pipelines

https://blog.csdn.net/weixin_48007632/category_12725843.html

AI开发-三方库-Hugging Face-Pipelines

1 需求需求1：pipeline支持的任务类型需求2：推理加速使用CPU还是GPU 需求3：基于pipeline的文本分类示例需求4：pipeline实现原理模型使用步骤（Raw text -》Input IDs -》Logits -》Predictions）&…...

编程日记 2024/10/19 23:19:49

【Python网络编程】学习Socket编程，打造网络应用！

【Python网络编程】学习Socket编程，打造网络应用！ 网络编程是现代计算机科学中的重要一环，几乎所有的应用都依赖网络传输数据。无论是创建简单的客户端-服务器模型，还是构建复杂的网络应用，Socket 编程都是关键的技术…...

编程日记 2024/10/19 23:17:47

docker (desktopcompose) download

docker docker-compose download 百度网盘获取离线包链接release-notes 参考dockerdocker-composewlspowershell...

编程日记 2024/10/19 23:16:46

即时通讯：单聊消息逻辑

在线消息（对方在线） 1.client发送消息到msg_server 2.msg_server判断消息有效性，每秒发送的消息不能超过限制，无误后转发给db_server 3.db_server判断为单聊查找对应的会话，不存在则创建两个会话（双方…...

编程日记 2024/10/19 23:15:46

Libevent源码剖析之reactor

1 简介 reactor 是一种事件驱动的并发处理模式，常用于网络服务器和事件循环系统中。它主要的功能是通过单线程或者多线程处理I/O操作，避免阻塞，并且能够高效处理大量并发的事件。 one loop per thread or process，以下摘自 reacto…...

编程日记 2024/10/19 23:14:43

分享一套SpringBoot+Vue民宿(预约)系统

大家好，我是java1234_小锋老师，看到一个不错的SpringBootVue民宿(预约)系统，分享下嘿嘿。项目介绍传统办法管理信息首先需要花费的时间比较多，其次数据出错率比较高，而且对错误的数据进行更改也比较困难&#xff0c…...

编程日记 2024/10/19 23:13:42

Linux——应用软件的生命周期

功能开发测试： 功能性测试对应开发框架的测试用例代码的漏洞扫描 Web服务器版本应用开发语言的依赖关系和版本信息是否会造成类似内存泄露等影响系统性能的问题压力测试应用的部署获取应用代码以及应用静态文件的代码包将安装包中的文件按照服务器配置的架构&…...

编程日记 2024/10/19 23:12:42

【Linux】exec系列函数详细介绍

首先，exec 是 execute (意为:执行) 的缩写。 exec系列函数各个“后缀”的意思： l 为 list 可变参数列表、v 为 vector、p 为 PATH、e 为环境变量数组 envp execl：l 为 list 可变参数列表原型：int execl(const char *path, cons…...

编程日记 2024/10/19 23:10:40

ARINC 429总线协议

一、概述 ARINC 是美国航空无线电公司英文字头的缩写， 该公司1977年7月21日出版了“ARINC 429规范”一书，429规范就是飞机电子系统之间数字式数据传输的标准格式，在飞机上使用429总线的电子设备均应遵守这个规范，这样才能保证电子…...

编程日记 2024/10/19 23:09:38

Qt解决槽函数中发送的信号的参数会变化带来的错误

connect(item, &MusicItemWidget::playRequest, this, [this] { emit playMusic(QUrl(this->m_mediaPath)； ); 如上图，this->m_mediaPath是个成员变量，但自己的初衷是发送一个最开始捕获的值，那么可以使用下面的方法…...

编程日记 2024/10/19 23:07:32

C C++ 如何编写库级接口

初级代码游戏的专栏介绍与文章目录-CSDN博客我的github：codetoys，所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。这些代码大部分以Linux为目标但部分代码是纯C的，可以在任何平台上使用。源码指引：github源…...

编程日记 2024/10/19 23:06:31

安装TDengine数据库3.3版本和TDengine数据库可视化管理工具

安装TDengine数据库3.3版本和TDengine数据库可视化管理工具一、下载安装包二、解压安装包三、部署四、启动服务五、进入数据库六、创建数据库、表和往表中插入数据七、测试 TDengine 性能八、使用数据库九、查询数据十、TDengine数据库可视化界面一、下载安装包 TDengine-cl…...

编程日记 2024/10/19 23:05:30

详解CAS

一、CAS是什么？ CAS是Java中Unsafe类里面的一个方法，是Compare and Swap的缩写，中文翻译成比较并交换，主要功能是能够去保证在多线程的环境下对于共享变量修改的一个原子性，实现并发算法时常用到的一种技术。它包含三…...

编程日记 2024/10/19 23:04:29

《环境感知方案：探索未来智能世界的关键技术》

《环境感知方案：探索未来智能世界的关键技术》一、环境感知方案的研究现状（一）机器人领域的环境感知（二）农业领域的环境感知（三）智能网联汽车领域的环境感知二、先进的环境感知技术&#xff0…...

编程日记 2024/10/19 23:03:27

Android 编译时出现Android resource linking failed.without required default value.

错误信息如下： Execution failed for task :app:processDebugResources. > A failure occurred while executing com.android.build.gradle.internal.res.LinkApplicationAndroidResourcesTask$TaskAction> Android resource linking failedwarn: removing r…...

编程日记 2024/10/19 23:02:26

golang ws升级为wss

首先需要一份openssl证书 1.安装openssl windows安装openssl 的下载地址在 https://slproweb.com/products/Win32OpenSSL.html 无脑点安装就行，记得最后安装完成的页面取消勾选安装完成后记得配置环境变量 2.生成证书 openssl req -x509 -days 36500 -nodes …...

编程日记 2024/10/19 23:01:25

FFMPEG录屏（17）--- 使用 DwmRegisterThumbnail 捕获指定窗口图像数据

使用 DwmRegisterThumbnail 捕获指定窗口图像数据在 Windows 平台上，捕获指定窗口的图像数据可以通过多种方法实现，其中一种高效的方法是使用 [DwmRegisterThumbnail] 本文将介绍如何使用 [DwmRegisterThumbnail] 捕获窗口图像数据，并提供一…...

编程日记 2024/10/19 22:58:23

点亮一个LED（51）

目录 1.LED介绍 2.硬件电路 3.程序设计 3.1.点亮一颗LED 3.2.LED闪烁 3.3.LED流水灯实现 1.LED介绍发光二极管也具有二极管普遍的特性单向导电性，有阳极和阴极之分 ，上图左侧式插件式LED ，长的引脚是阳极；左侧是贴片式的带…...

编程日记 2024/10/19 22:56:21

Flink窗口分配器WindowAssigner

前言 Flink 数据流经过 keyBy 分组后，下一步就是 WindowAssigner。 WindowAssigner 定义了 stream 中的元素如何被分发到各个窗口，元素可以被分发到一个或多个窗口中，Flink 内置了常用的窗口分配器，包括：tumbling wi…...

编程日记 2024/10/19 22:54:19

【Tinymce】富文本编辑器在vue项目中的使用；引入付费格式刷，上传视频、图片

引言富文本编辑器有很多，对比了一下，还是决定用tinymce（号称宇宙最强），基础的插件确实好用，但是一些更好用的插件，比如格式刷等都是高级版（付费），当然也有人…...

编程日记 2024/10/19 22:52:17

wordpress后台更新后前端没变化的解决方法

使用siteground主机的wordpress网站，会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后，网站没有变化的情况。不熟悉siteground主机的新手，遇到这个问题，就很抓狂，明明是哪都没操作错误&#x…...

编程新知 2025/7/13 16:36:47

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

编程新知 2025/7/14 18:17:09

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2025/7/14 5:01:45

工业安全零事故的智能守护者：一体化AI智能安防平台

前言： 通过AI视觉技术，为船厂提供全面的安全监控解决方案，涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面，能够实现对应负责人反馈机制，并最终实现数据的统计报表。提升船厂…...

编程新知 2025/7/13 12:04:56

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/7/11 1:50:50

九天毕昇深度学习平台 | 如何安装库？

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子： 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

编程新知 2025/7/12 1:45:43

springboot整合VUE之在线教育管理系统简介

可以学习到的技能学会常用技术栈的使用独立开发项目学会前端的开发流程学会后端的开发流程学会数据库的设计学会前后端接口调用方式学会多模块之间的关联学会数据的处理适用人群在校学生，小白用户，想学习知识的有点基础，想要通过项…...

编程新知 2025/7/14 3:15:03

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式，自动确定它们的类型。这一特性减少了显式类型注解的需要，在保持类型安全的同时简化了代码。通过分析上下文和初始值，TypeSc…...

编程新知 2025/7/7 15:21:47

Golang——7、包与接口详解

包与接口详解 1、Golang包详解1.1、Golang中包的定义和介绍1.2、Golang包管理工具go mod1.3、Golang中自定义包1.4、Golang中使用第三包1.5、init函数 2、接口详解2.1、接口的定义2.2、空接口2.3、类型断言2.4、结构体值接收者和指针接收者实现接口的区别2.5、一个结构体实现多…...

编程新知 2025/7/11 6:50:09

AI语音助手的Python实现

引言语音助手（如小爱同学、Siri）通过语音识别、自然语言处理（NLP）和语音合成技术，为用户提供直观、高效的交互体验。随着人工智能的普及，Python开发者可以利用开源库和AI模型，快速构建自定义语音助手。本文由浅入深，详细介绍如何使用Python开发AI语音助手，涵盖基础功…...

编程新知 2025/7/13 3:32:31