当前位置：首页 > news >正文

利用（Transfer Learning）迁移学习在IMDB数据上训练一个文本分类模型

news 2025/9/16 21:03:04

1. 背景

有些场景下，开始的时候数据量很小，如果我们用一个几千条数据训练一个全新的深度机器学习的文本分类模型，效果不会很好。这个时候你有两种选择，1.用传统的机器学习训练，2.利用迁移学习在一个预训练的模型上训练。本博客教你怎么用tensorflow Hub和keras 在少量的数据上训练一个文本分类模型。

2. 实践

2.1. 下载IMDB 数据集，参考下面博客。

Imdb影评的数据集介绍与下载_imdb影评数据集-CSDN博客

2.2. 预处理数据

替换掉imdb目录（imdb_raw_data_dir）. 创建dataset目录。

import numpy as np
import os as osimport re
from sklearn.model_selection import train_test_splitvocab_size = 30000
maxlen = 200
imdb_raw_data_dir = "/Users/harry/Documents/apps/ml/aclImdb"
save_dir = "dataset"def get_data(datapath =r'D:\train_data\aclImdb\aclImdb\train' ):pos_files = os.listdir(datapath + '/pos')neg_files = os.listdir(datapath + '/neg')print(len(pos_files))print(len(neg_files))pos_all = []neg_all = []for pf, nf in zip(pos_files, neg_files):with open(datapath + '/pos' + '/' + pf, encoding='utf-8') as f:s = f.read()s = process(s)pos_all.append(s)with open(datapath + '/neg' + '/' + nf, encoding='utf-8') as f:s = f.read()s = process(s)neg_all.append(s)print(len(pos_all))# print(pos_all[0])print(len(neg_all))X_orig= np.array(pos_all + neg_all)# print(X_orig)Y_orig = np.array([1 for _ in range(len(pos_all))] + [0 for _ in range(len(neg_all))])print("X_orig:", X_orig.shape)print("Y_orig:", Y_orig.shape)return X_orig, Y_origdef generate_dataset():X_orig, Y_orig = get_data(imdb_raw_data_dir + r'/train')X_orig_test, Y_orig_test = get_data(imdb_raw_data_dir + r'/test')X_orig = np.concatenate([X_orig, X_orig_test])Y_orig = np.concatenate([Y_orig, Y_orig_test])X = X_origY = Y_orignp.random.seed = 1random_indexs = np.random.permutation(len(X))X = X[random_indexs]Y = Y[random_indexs]X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3)print("X_train:", X_train.shape)print("y_train:", y_train.shape)print("X_test:", X_test.shape)print("y_test:", y_test.shape)np.savez(save_dir + '/train_test', X_train=X_train, y_train=y_train, X_test= X_test, y_test=y_test )def rm_tags(text):re_tag = re.compile(r'<[^>]+>')return re_tag.sub(' ', text)def clean_str(string):string = re.sub(r"[^A-Za-z0-9(),!?\'\`]", " ", string)string = re.sub(r"\'s", " \'s", string)  # it's -> it 'sstring = re.sub(r"\'ve", " \'ve", string) # I've -> I 'vestring = re.sub(r"n\'t", " n\'t", string) # doesn't -> does n'tstring = re.sub(r"\'re", " \'re", string) # you're -> you arestring = re.sub(r"\'d", " \'d", string)  # you'd -> you 'dstring = re.sub(r"\'ll", " \'ll", string) # you'll -> you 'llstring = re.sub(r"\'m", " \'m", string) # I'm -> I 'mstring = re.sub(r",", " , ", string)string = re.sub(r"!", " ! ", string)string = re.sub(r"\(", " \( ", string)string = re.sub(r"\)", " \) ", string)string = re.sub(r"\?", " \? ", string)string = re.sub(r"\s{2,}", " ", string)return string.strip().lower()def process(text):text = clean_str(text)text = rm_tags(text)#text = text.lower()return  textif __name__ == '__main__':generate_dataset()

执行完后，产生train_test.npz 文件

2.3. 训练模型

1. 取数据集

def get_dataset_to_train():train_test = np.load('dataset/train_test.npz', allow_pickle=True)x_train =  train_test['X_train']y_train = train_test['y_train']x_test =  train_test['X_test']y_test = train_test['y_test']return x_train, y_train, x_test, y_test

2. 创建模型

基于nnlm-en-dim50/2 预训练的文本嵌入向量，在模型外面加了两层全连接。

def get_model():hub_layer = hub.KerasLayer(embedding_url, input_shape=[], dtype=tf.string, trainable=True)# Build the modelmodel = Sequential([hub_layer,Dense(16, activation='relu'),Dropout(0.5),Dense(2, activation='softmax')])print(model.summary())model.compile(optimizer=keras.optimizers.Adam(),loss=keras.losses.SparseCategoricalCrossentropy(),metrics=[keras.metrics.SparseCategoricalAccuracy()])return model

还可以使用来自 TFHub 的许多其他预训练文本嵌入向量：

google/nnlm-en-dim128/2 - 基于与 google/nnlm-en-dim50/2 相同的数据并使用相同的 NNLM 架构进行训练，但具有更大的嵌入向量维度。更大维度的嵌入向量可以改进您的任务，但可能需要更长的时间来训练您的模型。
google/nnlm-en-dim128-with-normalization/2 - 与 google/nnlm-en-dim128/2 相同，但具有额外的文本归一化，例如移除标点符号。如果您的任务中的文本包含附加字符或标点符号，这会有所帮助。
google/universal-sentence-encoder/4 - 一个可产生 512 维嵌入向量的更大模型，使用深度平均网络 (DAN) 编码器训练。

还有很多！在 TFHub 上查找更多文本嵌入向量模型。

3. 评估你的模型

def evaluate_model(test_data, test_labels):model = load_trained_model()# Evaluate the modelresults = model.evaluate(test_data, test_labels, verbose=2)print("Test accuracy:", results[1])def load_trained_model():# model = get_model()# model.load_weights('./models/model_new1.h5')model = tf.keras.models.load_model('models_pb')return model

4. 测试几个例子

def predict(real_data):model  = load_trained_model()probabilities = model.predict([real_data]);print("probabilities :",probabilities)result =  get_label(probabilities)return resultdef get_label(probabilities):index = np.argmax(probabilities[0])print("index :" + str(index))result_str =  index_dic.get(str(index))# result_str = list(index_dic.keys())[list(index_dic.values()).index(index)]return result_strdef predict_my_module():# review = "I don't like it"# review = "this is bad movie "# review = "This is good movie"review = " this is terrible movie"# review = "This isn‘t great movie"# review = "i think this is bad movie"# review = "I'm not very disappoint for this movie"# review = "I'm not very disappoint for this movie"# review = "I am very happy for this movie"#neg:0 postive:1s = predict(review)print(s)if __name__ == '__main__':x_train, y_train, x_test, y_test = get_dataset_to_train()model = get_model()model = train(model, x_train, y_train, x_test, y_test)evaluate_model(x_test, y_test)predict_my_module()

完整代码

import numpy as np
import tensorflow as tf
from keras.models import Sequential
from keras.layers import Dense, Dropout
import keras as keras
from keras.callbacks import EarlyStopping, ModelCheckpoint
import tensorflow_hub as hubembedding_url = "https://tfhub.dev/google/nnlm-en-dim50/2"index_dic = {"0":"negative", "1": "positive"}def get_dataset_to_train():train_test = np.load('dataset/train_test.npz', allow_pickle=True)x_train =  train_test['X_train']y_train = train_test['y_train']x_test =  train_test['X_test']y_test = train_test['y_test']return x_train, y_train, x_test, y_testdef get_model():hub_layer = hub.KerasLayer(embedding_url, input_shape=[], dtype=tf.string, trainable=True)# Build the modelmodel = Sequential([hub_layer,Dense(16, activation='relu'),Dropout(0.5),Dense(2, activation='softmax')])print(model.summary())model.compile(optimizer=keras.optimizers.Adam(),loss=keras.losses.SparseCategoricalCrossentropy(),metrics=[keras.metrics.SparseCategoricalAccuracy()])return modeldef train(model , train_data, train_labels, test_data, test_labels):# train_data, train_labels, test_data, test_labels = get_dataset_to_train()train_data = [tf.compat.as_str(tf.compat.as_bytes(str(x))) for x in train_data]test_data = [tf.compat.as_str(tf.compat.as_bytes(str(x))) for x in test_data]train_data = np.asarray(train_data)  # Convert to numpy arraytest_data = np.asarray(test_data)  # Convert to numpy arrayprint(train_data.shape, test_data.shape)early_stop = EarlyStopping(monitor='val_sparse_categorical_accuracy', patience=4, mode='max', verbose=1)# 定义ModelCheckpoint回调函数# checkpoint = ModelCheckpoint( './models/model_new1.h5', monitor='val_sparse_categorical_accuracy', save_best_only=True,#                              mode='max', verbose=1)checkpoint_pb = ModelCheckpoint(filepath="./models_pb/",  monitor='val_sparse_categorical_accuracy', save_weights_only=False, save_best_only=True)history = model.fit(train_data[:2000], train_labels[:2000], epochs=45, batch_size=45, validation_data=(test_data, test_labels), shuffle=True,verbose=1, callbacks=[early_stop, checkpoint_pb])print("history", history)return modeldef evaluate_model(test_data, test_labels):model = load_trained_model()# Evaluate the modelresults = model.evaluate(test_data, test_labels, verbose=2)print("Test accuracy:", results[1])def predict(real_data):model  = load_trained_model()probabilities = model.predict([real_data]);print("probabilities :",probabilities)result =  get_label(probabilities)return resultdef get_label(probabilities):index = np.argmax(probabilities[0])print("index :" + str(index))result_str =  index_dic.get(str(index))# result_str = list(index_dic.keys())[list(index_dic.values()).index(index)]return result_strdef load_trained_model():# model = get_model()# model.load_weights('./models/model_new1.h5')model = tf.keras.models.load_model('models_pb')return modeldef predict_my_module():# review = "I don't like it"# review = "this is bad movie "# review = "This is good movie"review = " this is terrible movie"# review = "This isn‘t great movie"# review = "i think this is bad movie"# review = "I'm not very disappoint for this movie"# review = "I'm not very disappoint for this movie"# review = "I am very happy for this movie"#neg:0 postive:1s = predict(review)print(s)if __name__ == '__main__':x_train, y_train, x_test, y_test = get_dataset_to_train()model = get_model()model = train(model, x_train, y_train, x_test, y_test)evaluate_model(x_test, y_test)predict_my_module()

利用（Transfer Learning）迁移学习在IMDB数据上训练一个文本分类模型

1. 背景有些场景下，开始的时候数据量很小，如果我们用一个几千条数据训练一个全新的深度机器学习的文本分类模型，效果不会很好。这个时候你有两种选择，1.用传统的机器学习训练，2.利用迁移学习在一个预训练的模型上训练…...

编程日记 2023/11/19 16:26:17

pom.xml格式化快捷键

在软件开发和编程领域，"格式化"通常指的是将代码按照一定的规范和风格进行排列，以提高代码的可读性和维护性。格式化代码有助于使代码结构清晰、统一，并符合特定的编码规范。格式化可以包括以下方面： 缩进&#xff1a…...

编程日记 2023/11/19 16:25:16

【短文】【踩坑】可以在Qt Designer给QTableWidge添加右键菜单吗？

2023年11月18日，周六上午今天早上在网上找了好久都没找到教怎么在Qt Designer给QTableWidge添加右键菜单的文章答案是：不可以在Qt Designer中无法直接为QTableWidget添加右键菜单。 Qt Designer主要用于创建界面布局和设计，无法直接添加…...

编程日记 2023/11/19 16:24:16

git log 美化输出全局配置参数 git config --global alias.lm "log --no-merges --color --dateformat:%Y-%m-%d %H:%M:%S --authorghost --prettyformat:%Cred%h%Creset - %Cgreen(%cd)%C(yellow)%d%Cblue %s %C(bold blue)<%an>%Creset --abbrev-commit"…...

编程日记 2023/11/19 16:23:15

力扣每日一题-数位和相等数对的最大和-2023.11.18

力扣每日一题：数位和相等数对的最大和开篇这道每日一题还是挺需要思考的，我绕晕了好久，根据题解的提示才写出来。题目链接:2342.数位和相等数对的最大和题目描述代码思路 1.创建一个数组存储每个数位的数的最大值，创建一…...

编程日记 2023/11/19 16:22:14

【win32_001】win32命名规、缩写、窗口

整数类型 bool类型使用注意： 一般bool 的false0；true1 | 2 | …|n false是为0，true是非零不建议这样用： if (result TRUE) // Wrong! 因为result不一定只返回1（true），当返回2时&#xff0c…...

编程日记 2023/11/19 16:21:12

机器学习第8天：SVM分类

文章目录机器学习专栏介绍特征缩放示例代码硬间隔与软间隔分类主要代码代码解释非线性SVM分类结语机器学习专栏机器学习_Nowl的博客-CSDN博客介绍作用：判别种类原理：找出一个决策边界，判断数据所处区域来识别种类简单…...

编程日记 2023/11/19 16:20:11

AI工具合集

网站：未来百科 | 为发现全球优质AI工具产品而生 (6aiq.com) 如今，AI技术涉及到了很多领域，比如去水印、一键抠图、图像处理、AI图像生成等等。站长之家之前也分享过一些，但是在网上要搜索找到它们还是费一些功夫。今天发现了一…...

编程日记 2023/11/19 16:19:10

代码随想录算法训练营Day 54 || 392.判断子序列、115.不同的子序列

392.判断子序列力扣题目链接(opens new window) 给定字符串 s 和 t ，判断 s 是否为 t 的子序列。字符串的一个子序列是原始字符串删除一些（也可以不删除）字符而不改变剩余字符相对位置形成的新字符串。（例如，&quo…...

编程日记 2023/11/19 16:18:10

C 语言 gets()和puts()

C 语言 gets()和puts() gets()和puts()在头文件stdio.h中声明。这两个函数用于字符串的输入/输出操作。 C gets()函数 gets()函数使用户可以输入一些字符，然后按Enter键。用户输入的所有字符都存储在字符数组中。空字符将添加到数组以使其成为字符串。 gets()允…...

编程日记 2023/11/19 16:16:06

核—幂零分解

若向量空间 V \mathcal V V存在子空间 X \mathcal X X与 Y \mathcal Y Y，当 X Y V X ∩ Y 0 \mathcal {X\text{}Y\text{}V}\\ \mathcal {X}\cap \mathcal {Y}0 XYVX∩Y0 时称子空间 X \mathcal X X与 Y \mathcal Y Y是完备的，其中记为 X ⊕ Y V \ma…...

编程日记 2023/11/19 16:15:05

轻松掌控财务，分析账户花销，明细记录支出情况

随着科技的发展，我们的生活变得越来越智能化。然而，对于许多忙碌的现代人来说，管理财务可能是一件令人头疼的事情。复杂的账单、花销、收入，这些可能会让你感到无从下手。但现在，我们有一个全新的解决方案——一款全新…...

编程日记 2023/11/19 16:14:04

竞赛题目：基于机器视觉opencv的手势检测手势识别算法 - 深度学习卷积神经网络 opencv python

文章目录 1 简介2 传统机器视觉的手势检测2.1 轮廓检测法2.2 算法结果2.3 整体代码实现2.3.1 算法流程 3 深度学习方法做手势识别3.1 经典的卷积神经网络3.2 YOLO系列3.3 SSD3.4 实现步骤3.4.1 数据集3.4.2 图像预处理3.4.3 构建卷积神经网络结构3.4.4 实验训练过程及结果 3.5 …...

编程日记 2023/11/19 16:13:03

11. Spring源码篇之实例化前的后置处理器

简介 spring在创建Bean的过程中，提供了很多个生命周期，实例化前就是比较早的一个生命周期，顾名思义就是在Bean被实例化之前的处理，这个时候还没实例化，只能拿到该Bean的Class对象，如果在这个时候直接返回一…...

编程日记 2023/11/19 16:12:03

Python-Python高阶技巧：HTTP协议、静态Web服务器程序开发、循环接收客户端的连接请求

版本说明当前版本号[20231114]。版本修改说明20231114初版目录文章目录版本说明目录HTTP协议1、网址1.1 网址的概念1.2 URL的组成1.3 知识要点 2、HTTP协议的介绍2.1 HTTP协议的概念及作用2.2 HTTP协议的概念及作用2.3 浏览器访问Web服务器的过程 3、HTTP请求报文3.1 H…...

编程日记 2023/11/19 16:11:02

P1304 哥德巴赫猜想

题目描述输入一个偶数 N，验证 4∼N 所有偶数是否符合哥德巴赫猜想：任一大于 22 的偶数都可写成两个质数之和。如果一个数不止一种分法，则输出第一个加数相比其他分法最小的方案。例如 1010，10=3+7=5+510=3+7=5+5，则 10=5+510=5+5 是错误答案。输入格式第一行输入一个…...

编程日记 2023/11/19 16:10:00

CSDN每日一题学习训练——Python版（搜索插入位置、最大子序和）

版本说明当前版本号[20231118]。版本修改说明20231118初版目录文章目录版本说明目录搜索插入位置题目解题思路代码思路参考代码最大子序和题目解题思路代码思路参考代码搜索插入位置题目给定一个排序数组和一个目标值，在数组中找到目标值，…...

编程日记 2023/11/19 16:08:58

Java在物联网中的重要性

【点我-这里送书】本人详解作者：王文峰，参加过 CSDN 2020年度博客之星，《Java王大师王天师》公众号：JAVA开发王大师，专注于天道酬勤的 Java 开发问题中国国学、传统文化和代码爱好者的程序人生，期待你的关注和支持！本人外号：神秘小峯山峯转载说明：务必注明来源（…...

编程日记 2023/11/19 16:06:56

动态规划解背包问题

题目题解 def knapsac(W: int, N: int, wt: List[int], val: List[int]) -> int:# 定义状态动作价值函数: dp[i][j]，对于前i个物品，当前背包容量为j，最大的可装载价值dp [[0 for j in range(W1)] for i in range(N1)]# 状态动作转移for…...

编程日记 2023/11/19 16:04:55

PCL内置点云类型

PCL内置了许多点云类型供我们使用，下面先介绍PLC内置的点云数据类型 PCL中的点云类型为PointT；至于为什么是PointT类型需要追随到原来的ros开发中去，因为PCL库也是从原来的ROS中剥离出来的；大家都一致的认为点云结构是离散的N维信…...

编程日记 2023/11/19 16:03:54

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2025/9/15 1:31:01

19c补丁后oracle属主变化，导致不能识别磁盘组

补丁后服务器重启，数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后，存在与用户组权限相关的问题。具体表现为，Oracle 实例的运行用户（oracle）和集…...

编程新知 2025/9/14 3:07:02

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2025/9/15 4:15:05

Java 加密常用的各种算法及其选择

在数字化时代，数据安全至关重要，Java 作为广泛应用的编程语言，提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景，有助于开发者在不同的业务需求中做出正确的选择。一、对称加密算法…...

编程新知 2025/7/7 7:20:27

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2025/8/19 16:14:29

LeetCode - 199. 二叉树的右视图

题目 199. 二叉树的右视图 - 力扣（LeetCode） 思路右视图是指从树的右侧看，对于每一层，只能看到该层最右边的节点。实现思路是： 使用深度优先搜索(DFS)按照"根-右-左"的顺序遍历树记录每个节点的深度对于…...

编程新知 2025/9/13 20:07:18

如何更改默认 Crontab 编辑器？

在 Linux 领域中，crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用，用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益，允许他们自动执行各种系统任务。编辑 Crontab 文件通常使用文本编…...

编程新知 2025/9/3 23:35:33

Golang——9、反射和文件操作

反射和文件操作 1、反射1.1、reflect.TypeOf()获取任意值的类型对象1.2、reflect.ValueOf()1.3、结构体反射 2、文件操作2.1、os.Open()打开文件2.2、方式一：使用Read()读取文件2.3、方式二：bufio读取文件2.4、方式三：os.ReadFile读取2.5、写…...

编程新知 2025/9/2 17:49:26

Windows电脑能装鸿蒙吗_Windows电脑体验鸿蒙电脑操作系统教程

鸿蒙电脑版操作系统来了，很多小伙伴想体验鸿蒙电脑版操作系统，可惜，鸿蒙系统并不支持你正在使用的传统的电脑来安装。不过可以通过可以使用华为官方提供的虚拟机，来体验大家心心念念的鸿蒙系统啦！注意：虚拟…...

编程新知 2025/9/15 8:33:34

深入解析光敏传感技术：嵌入式仿真平台如何重塑电子工程教学

一、光敏传感技术的物理本质与系统级实现挑战光敏电阻作为经典的光电传感器件，其工作原理根植于半导体材料的光电导效应。当入射光子能量超过材料带隙宽度时，价带电子受激发跃迁至导带，形成电子-空穴对，导致材料电导率显著提升。…...

编程新知 2025/9/13 0:08:50

利用（Transfer Learning）迁移学习在IMDB数据上训练一个文本分类模型

1. 背景

2. 实践

2.1. 下载IMDB 数据集，参考下面博客。

2.2. 预处理数据

2.3. 训练模型

相关文章：

利用（Transfer Learning）迁移学习在IMDB数据上训练一个文本分类模型

pom.xml格式化快捷键

【短文】【踩坑】可以在Qt Designer给QTableWidge添加右键菜单吗？

Git常用配置

力扣每日一题-数位和相等数对的最大和-2023.11.18

【win32_001】win32命名规、缩写、窗口

机器学习第8天：SVM分类

AI工具合集

代码随想录算法训练营Day 54 || 392.判断子序列、115.不同的子序列

C 语言 gets()和puts()

核—幂零分解

轻松掌控财务，分析账户花销，明细记录支出情况

竞赛题目：基于机器视觉opencv的手势检测手势识别算法 - 深度学习卷积神经网络 opencv python

11. Spring源码篇之实例化前的后置处理器

Python-Python高阶技巧：HTTP协议、静态Web服务器程序开发、循环接收客户端的连接请求

P1304 哥德巴赫猜想

CSDN每日一题学习训练——Python版（搜索插入位置、最大子序和）

Java在物联网中的重要性

动态规划解背包问题

PCL内置点云类型

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

19c补丁后oracle属主变化，导致不能识别磁盘组

JavaSec-RCE

Java 加密常用的各种算法及其选择

PL0语法，分析器实现！

LeetCode - 199. 二叉树的右视图

如何更改默认 Crontab 编辑器？

Golang——9、反射和文件操作

Windows电脑能装鸿蒙吗_Windows电脑体验鸿蒙电脑操作系统教程

深入解析光敏传感技术：嵌入式仿真平台如何重塑电子工程教学