当前位置：首页 > news >正文

Hugging Face实战-系列教程3：AutoModelForSequenceClassification文本2分类

news 2025/12/15 23:15:31

🚩🚩🚩Hugging Face 实战系列总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在notebook中进行
本篇文章配套的代码资源已经上传

下篇内容：
Hugging Face实战-系列教程4：padding与attention_mask

输出我们需要几个输出呢？比如说这个cls分类，我们做一个10分类，可以吗？对每一个词做10分类可以吗？预测下一个词是什么可以吗？是不是也可以！

在我们的NLP任务中，相比图像任务有分类有回归，NLP有回归这一说吗？我们要做的所有任务都是分类，就是把分类做到哪儿而已，不管做什么都是分类。

比如我们刚刚导入的两个英语句子，是对序列做情感分析，就是一个二分类，用序列做分类，你想导什么输出头，你就导入什么东西就可以了，简不简单？好简单是不是，上代码：

from transformers import AutoModelForSequenceClassification
checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(checkpoint)
outputs = model(**inputs)
print(outputs.logits.shape)

导入一个序列分类的包，还是选择checkpoint这个名字，选择分词器，导入模型，将模型打印一下：

DistilBertForSequenceClassification(
(distilbert): DistilBertModel(
(embeddings): Embeddings(
(word_embeddings): Embedding(30522, 768, padding_idx=0)
(position_embeddings): Embedding(512, 768)
(LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(dropout): Dropout(p=0.1, inplace=False)
)
(transformer): Transformer(
(layer): ModuleList(
(0): TransformerBlock(
(attention): MultiHeadSelfAttention(
(dropout): Dropout(p=0.1, inplace=False)
(q_lin): Linear(in_features=768, out_features=768, bias=True)
(k_lin): Linear(in_features=768, out_features=768, bias=True)
(v_lin): Linear(in_features=768, out_features=768, bias=True)
(out_lin): Linear(in_features=768, out_features=768, bias=True)
)
(sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(ffn): FFN(
(dropout): Dropout(p=0.1, inplace=False)
(lin1): Linear(in_features=768, out_features=3072, bias=True)
(lin2): Linear(in_features=3072, out_features=768, bias=True)
)
(output_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
)
(1): TransformerBlock(
(attention): MultiHeadSelfAttention(
(dropout): Dropout(p=0.1, inplace=False)
(q_lin): Linear(in_features=768, out_features=768, bias=True)
(k_lin): Linear(in_features=768, out_features=768, bias=True)
(v_lin): Linear(in_features=768, out_features=768, bias=True)
(out_lin): Linear(in_features=768, out_features=768, bias=True)
)
(sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(ffn): FFN(
(dropout): Dropout(p=0.1, inplace=False)
(lin1): Linear(in_features=768, out_features=3072, bias=True)
(lin2): Linear(in_features=3072, out_features=768, bias=True)
)
(output_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
)
(2): TransformerBlock(
(attention): MultiHeadSelfAttention(
(dropout): Dropout(p=0.1, inplace=False)
(q_lin): Linear(in_features=768, out_features=768, bias=True)
(k_lin): Linear(in_features=768, out_features=768, bias=True)
(v_lin): Linear(in_features=768, out_features=768, bias=True)
(out_lin): Linear(in_features=768, out_features=768, bias=True)
)
(sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(ffn): FFN(
(dropout): Dropout(p=0.1, inplace=False)
(lin1): Linear(in_features=768, out_features=3072, bias=True)
(lin2): Linear(in_features=3072, out_features=768, bias=True)
)
(output_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
)
(3): TransformerBlock(
(attention): MultiHeadSelfAttention(
(dropout): Dropout(p=0.1, inplace=False)
(q_lin): Linear(in_features=768, out_features=768, bias=True)
(k_lin): Linear(in_features=768, out_features=768, bias=True)
(v_lin): Linear(in_features=768, out_features=768, bias=True)
(out_lin): Linear(in_features=768, out_features=768, bias=True)
)
(sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(ffn): FFN(
(dropout): Dropout(p=0.1, inplace=False)
(lin1): Linear(in_features=768, out_features=3072, bias=True)
(lin2): Linear(in_features=3072, out_features=768, bias=True)
)
(output_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
)
(4): TransformerBlock(
(attention): MultiHeadSelfAttention(
(dropout): Dropout(p=0.1, inplace=False)
(q_lin): Linear(in_features=768, out_features=768, bias=True)
(k_lin): Linear(in_features=768, out_features=768, bias=True)
(v_lin): Linear(in_features=768, out_features=768, bias=True)
(out_lin): Linear(in_features=768, out_features=768, bias=True)
)
(sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(ffn): FFN(
(dropout): Dropout(p=0.1, inplace=False)
(lin1): Linear(in_features=768, out_features=3072, bias=True)
(lin2): Linear(in_features=3072, out_features=768, bias=True)
)
(output_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
)
(5): TransformerBlock(
(attention): MultiHeadSelfAttention(
(dropout): Dropout(p=0.1, inplace=False)
(q_lin): Linear(in_features=768, out_features=768, bias=True)
(k_lin): Linear(in_features=768, out_features=768, bias=True)
(v_lin): Linear(in_features=768, out_features=768, bias=True)
(out_lin): Linear(in_features=768, out_features=768, bias=True)
)
(sa_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
(ffn): FFN(
(dropout): Dropout(p=0.1, inplace=False)
(lin1): Linear(in_features=768, out_features=3072, bias=True)
(lin2): Linear(in_features=3072, out_features=768, bias=True)
)
(output_layer_norm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
)
)
)
)
(pre_classifier): Linear(in_features=768, out_features=768, bias=True)
(classifier): Linear(in_features=768, out_features=2, bias=True)
(dropout): Dropout(p=0.2, inplace=False)
)

看看多了什么？前面我们说对每一个词生成一个768向量，最后就连了两个全连接层：

(pre_classifier): Linear(in_features=768, out_features=768, bias=True)
(classifier): Linear(in_features=768, out_features=2, bias=True)
(dropout): Dropout(p=0.2, inplace=False)

这个logits就是输出结果了：

print(outputs.logits.shape)
torch.Size([2, 2])

这个2*2表示的就是样本为2（两个英语句子），分类是2分类，但是我们需要得到最后的分类概率，再加上softmax：

import torch
predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

dim=-1就是沿着最后一个维度进行计算，最后返回的就是概率值：

tensor([[1.5446e-02, 9.8455e-01], [9.9946e-01, 5.4418e-04]], grad_fn=SoftmaxBackward0)

概率知道了，类别的概率是什么呢？调一个内置的id to label配置：

model.config.id2label
{0: 'NEGATIVE', 1: 'POSITIVE'}

也就是说，第一个句子负面情感的概率为1.54%，正面的概率情感为98.46%

下篇内容：
Hugging Face实战-系列教程4：padding与attention_mask

Hugging Face实战-系列教程3：AutoModelForSequenceClassification文本2分类

🚩🚩🚩Hugging Face 实战系列总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在notebook中进行本篇文章配套的代码资源已经上传下篇内容： Hugging Face实战-系列教程4：padding与attention_mask 输出我…...

编程日记 2023/9/10 11:47:02

《TCP/IP网络编程》阅读笔记--Socket类型及协议设置

目录 1--协议的定义 2--Socket的创建 2-1--协议族（Protocol Family） 2-2--Socket类型（Type） 3--Linux下实现TCP Socket 3-1--服务器端 3-2--客户端 3-3--编译运行 4--Windows下实现 TCP Socket 4-1--TCP服务端 4-2--TC…...

编程日记 2023/9/10 11:45:59

GitHub使用教程

GitHub使用教程视频教程一：Github 新手够用指南 | 全程演示&个人找项目技巧放送_哔哩哔哩_bilibili 笔记： README.md编写教程：Typora官方免费版与入门教程__阿伟_的博客-CSDN博客找开源项目的一些途径 • https://github.com/trendin…...

编程日记 2023/9/10 11:44:58

sql server 分区表

分区表分区表是在SQL Server 2005之后的版本引入的特性，这个特性允许把逻辑上的一个表在物理上分为很多部分。换句话说，分区表从物理上看是将一个大表分成几个小表，但是从逻辑上看，还是一个大表。步骤创建分表区的步骤分为…...

编程日记 2023/9/10 11:43:57

开源许可证概述：GNU, BSD, Apache, MPL, 和 MIT

前言开源许可证是开源软件分发的基础。它们定义了使用者如何使用，修改，分发开源软件。在这篇文章中，我们将探讨五种常见的开源许可证：GNU通用公共许可证 (GNU GPL)，BSD许可证，Apache许可证，Mo…...

编程日记 2023/9/10 11:42:55

java中log使用总结

目录一、概述1.1. 核心日志框架1.2 门面日志框架二、最佳实践2.1 核心日志框架API包2.2 门面日志框架依赖2.3 集成使用2.3.1 集成jcl2.3.2 集成slf4j2.3.2.1 slf4j集成单一框架2.3.2.2 slf4j整合混合框架三、总结3.1 所有相关包3.1.1 核心日志框架包3.1.2 门面日志框架3.1.3…...

编程日记 2023/9/10 11:41:53

【Java】传输层协议TCP

传输层协议TCP TCP报文格式首部长度保留位32位序列号和32位确认应答号标记ACKSYNFINRSTURGPSH 16位窗口大小16位校验和16位紧急指针选项 TCP特点可靠传输实现机制-确认应答超时重传连接管理机制三次握手四次挥手特殊情况滑动窗口流量控制拥塞控制延迟应答捎带应答面向字节流粘…...

编程日记 2023/9/10 11:40:52

计算机网络基础知识（非常详细）

1. 网络模型 1.1 OSI 七层参考模型七层模型，亦称 OSI（Open System Interconnection）参考模型，即开放式系统互联，是网络通信的标准模型。一般称为 OSI 参考模型或七层模型。它是一个七层的、抽象的模型体&#xff…...

编程日记 2023/9/10 11:39:51

如何进行SEO优化数据分析？（掌握正确的数据分析方法，让您的网站更上一层楼！）

在互联网时代，SEO优化已经成为了每一个网站运营者必备的技能。而在SEO优化中，数据分析更是至关重要的一环。在本文中，我们将会详细介绍如何正确的进行SEO优化数据分析，让您的网站更上一层楼！ 数据分析的重要性数据分…...

编程日记 2023/9/10 11:38:50

Golang不同平台编译的思考

GOOS和GOARCH $GOOS可选值如下： darwin dragonfly freebsd linux netbsd openbsd plan9 solaris windows $GOARCH可选值如下 386 amd64 arm 在编译的时候我们可以根据实际需要对这两个参数进行组合。更详细的说明可以进官网看看 ## http://golang.org/cmd/go http…...

编程日记 2023/9/10 11:37:49

1.认证密码校验用户密码加密存储 Configuration public class SecurityConfig extends WebSecurityConfigurerAdapter {Beanpublic PasswordEncoder passwordEncoder(){return new BCryptPasswordEncoder();}} 我们没有这个配置，默认明文存储, {id}password;实现…...

编程日记 2023/9/10 11:36:47

时序预测 | MATLAB实现ICEEMDAN-iMPA-BiLSTM时间序列预测

时序预测 | MATLAB实现ICEEMDAN-iMPA-BiLSTM时间序列预测目录时序预测 | MATLAB实现ICEEMDAN-iMPA-BiLSTM时间序列预测预测效果基本介绍程序设计参考资料预测效果基本介绍 ICEEMDAN-iMPA-BiLSTM功率/风速预测基于改进的自适应经验模态分解改进海洋捕食者算法双向长短期记忆…...

编程日记 2023/9/10 11:34:44

二叉树（上)

“路虽远，行则将至” ❤️主页：小赛毛目录 1.树概念及结构 1.1树的概念 1.2 树的相关概念 1.3 树的表示（树的存储） 2.二叉树概念及结构 2.1概念 2.2现实中的二叉树 2.3 特殊的二叉树： 2.4 二叉树的性质 3.二叉树的顺…...

编程日记 2023/9/10 11:33:41

Excel怎么批量生成文件夹

Excel怎么批量生成文件夹的链接: https://jingyan.baidu.com/article/ea24bc398d9dcb9b63b3312f.html...

编程日记 2023/9/10 11:32:40

c++ 学习之静态成员变量和静态成员函数

文章目录前言正文静态成员变量初始化操作如何理解共享一份数据访问权限静态成员函数访问方式静态成员函数只能访问静态成员变量访问权限前言静态成员分为 1）静态成员变量所有对象共享一份数据在编译阶段分配空间类内声明，类外初始化 2&#xff09…...

编程日记 2023/9/10 11:31:39

C程序需要按下回车键才能读取字符

当编写涉及从终端输入字符的C程序时，有时会遇到需要按下回车键才能读取字符的问题。这是因为默认情况下，终端通常处于行缓冲模式，需要等待用户按下回车键才会将输入的字符发送给正在运行的程序。这可能会导致一些不便，尤其是当程序…...

编程日记 2023/9/10 11:30:38

x86体系结构（WinDbg学习笔记）

寄存器 eaxAccumulator累加器ebxBase register基寄存器ecxCounter register计数器寄存器edxData register - can be used for I/O port access and arithmetic functions数据寄存器-可用于I/O端口访问和算术函数esiSource index register源索引寄存器ediDestination index reg…...

编程日记 2023/9/10 11:29:36

Hadoop的第二个核心组件：MapReduce框架第四节

Hadoop的第二个核心组件：MapReduce框架十、MapReduce的特殊应用场景1、使用MapReduce进行join操作2、使用MapReduce的计数器3、MapReduce做数据清洗十一、MapReduce的工作流程：详细的工作流程第一步：提交MR作业资源第二步：运行M…...

编程日记 2023/9/10 11:28:33

算法通关村第十九关——最少硬币数

LeetCode322.给你一个整数数组 coins,表示不同面额的硬币，以及一个整数 amount，表示总金额。计算并返回可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额，返回-1。你可以认为每种硬币的数量是无限的。示例1&…...

编程日记 2023/9/10 11:27:31

Linux ifconfig只显示 lo 网卡，没有ens网卡解决方案

项目场景： 虚拟机中linux无网络问题问题描述之前在调试linux的时候，由于一些不太清楚的误操作，导致ubuntu linux出现无网络问题，现象如下 ifconfig 只显示了 lo 网卡 lo 网卡：它是本地环回接口。这意味着您的虚…...

编程日记 2023/9/10 11:26:28

synchronized 学习

学习源： https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景不超卖，也要考虑性能问题（场景） 2.常见面试问题： sync出…...

编程新知 2025/12/14 17:38:17

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2025/12/15 20:23:19

大数据零基础学习day1之环境准备和大数据初步理解

学习大数据会使用到多台Linux服务器。一、环境准备 1、VMware 基于VMware构建Linux虚拟机是大数据从业者或者IT从业者的必备技能之一也是成本低廉的方案所以VMware虚拟机方案是必须要学习的。 （1）设置网关打开VMware虚拟机，点击编辑…...

编程新知 2025/12/9 0:43:28

Spring Boot+Neo4j知识图谱实战：3步搭建智能关系网络！

一、引言在数据驱动的背景下，知识图谱凭借其高效的信息组织能力，正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合，探讨知识图谱开发的实现细节，帮助读者掌握该技术栈在实际项目中的落地方法。 …...

编程新知 2025/9/17 21:39:04

多模态大语言模型arxiv论文略读（108）

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2025/12/15 1:06:25

HashMap中的put方法执行流程（流程图）

1 put操作整体流程 HashMap 的 put 操作是其最核心的功能之一。在 JDK 1.8 及以后版本中，其主要逻辑封装在 putVal 这个内部方法中。整个过程大致如下： 初始判断与哈希计算： 首先，putVal 方法会检查当前的 table（也就…...

编程新知 2025/12/10 16:16:55

Go 语言并发编程基础：无缓冲与有缓冲通道

在上一章节中，我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道，它们在并发编程中各具特点和应用场景。一、通道的基本分类类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

编程新知 2025/9/13 17:45:05

AI+无人机如何守护濒危物种？YOLOv8实现95%精准识别

【导读】野生动物监测在理解和保护生态系统中发挥着至关重要的作用。然而，传统的野生动物观察方法往往耗时耗力、成本高昂且范围有限。无人机的出现为野生动物监测提供了有前景的替代方案，能够实现大范围覆盖并远程采集数据。尽管具备这些优势&#xf…...

编程新知 2025/12/11 9:47:05

ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]

报错信息：libc.so.6: cannot open shared object file: No such file or directory： #ls, ln, sudo...命令都不能用 error while loading shared libraries: libc.so.6: cannot open shared object file: No such file or directory重启后报错信息&…...

编程新知 2025/12/3 17:29:54

Python训练营-Day26-函数专题1：函数定义与参数

题目1：计算圆的面积任务： 编写一个名为 calculate_circle_area 的函数，该函数接收圆的半径 radius 作为参数，并返回圆的面积。圆的面积 π * radius (可以使用 math.pi 作为 π 的值)要求：函数接收一个位置参数 radi…...

编程新知 2025/12/15 6:15:02

Hugging Face实战-系列教程3：AutoModelForSequenceClassification文本2分类

《TCP/IP网络编程》阅读笔记--Socket类型及协议设置

GitHub使用教程

sql server 分区表

开源许可证概述：GNU, BSD, Apache, MPL, 和 MIT

java中log使用总结

【Java】传输层协议TCP

计算机网络基础知识（非常详细）

如何进行SEO优化数据分析？（掌握正确的数据分析方法，让您的网站更上一层楼！）

Golang不同平台编译的思考

SpringSecurity学习

时序预测 | MATLAB实现ICEEMDAN-iMPA-BiLSTM时间序列预测

二叉树（上)

Excel怎么批量生成文件夹

c++ 学习之静态成员变量和静态成员函数

C程序需要按下回车键才能读取字符

x86体系结构（WinDbg学习笔记）

Hadoop的第二个核心组件：MapReduce框架第四节

算法通关村第十九关——最少硬币数

Linux ifconfig只显示 lo 网卡，没有ens网卡解决方案

synchronized 学习

docker详细操作--未完待续

大数据零基础学习day1之环境准备和大数据初步理解

Spring Boot+Neo4j知识图谱实战：3步搭建智能关系网络！

多模态大语言模型arxiv论文略读（108）

HashMap中的put方法执行流程（流程图）

Go 语言并发编程基础：无缓冲与有缓冲通道

AI+无人机如何守护濒危物种？YOLOv8实现95%精准识别

ubuntu系统文件误删(/lib/x86_64-linux-gnu/libc.so.6)修复方案 [成功解决]

Python训练营-Day26-函数专题1：函数定义与参数

Hugging Face实战-系列教程3：AutoModelForSequenceClassification文本2分类

🚩🚩🚩Hugging Face 实战系列总目录

相关文章：