当前位置：首页 > news >正文

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用

news 2026/5/25 18:02:11

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用

作者：安静到无声个人主页

数据加载程序示意图

数据集程序

使用方法

示例代码

#%%from __future__ import absolute_import
from __future__ import division
from __future__ import print_functionimport torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.tensorboard import SummaryWriterimport numpy as npimport time
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0' ##from six.moves import cPickle
import traceback
from collections import defaultdictimport captioning.utils.opts as opts
import captioning.models as models
from captioning.data.dataloader import *
import skimage.io
import captioning.utils.eval_utils as eval_utils
import captioning.utils.misc as utils
from captioning.utils.rewards import init_scorer, get_self_critical_reward
from captioning.modules.loss_wrapper import LossWrapperimport sys
sys.path.append("..")
import time
#%%opt = opts.parse_opt()
opt.input_json = '/home/lihuanyu/code/07ImageCaptioning/data/cocotalk.json'
opt.input_label_h5 = '/home/lihuanyu/code/07ImageCaptioning/data/cocotalk_label.h5'
opt.input_fc_dir = '/home/lihuanyu/code/07ImageCaptioning/data/cocotalk_fc'
opt.input_att_dir = '/home/lihuanyu/code/07ImageCaptioning/data/cocotalk_att'
opt.batch_size = 1
opt.train_only = 1opt.use_att = True
opt.use_att = True
opt.use_box = 0#%%
print(opt.input_json)
print(opt.batch_size)  #批量化为16
loader = DataLoader(opt)  # 数据加载
#打印字内容
#print(loader.get_vocab())  #返回字典
for i in range(2):data = loader.get_batch('train')print('———————————————————※输入的信息特征※——————————————————')  #[1,2048] 全连接特征print('全连接特征【fc_feats】的形状:', data['fc_feats'].shape)  #[1,2048] 全连接特征print('全连接特征【att_feats】的形状:', data['att_feats'].shape)  #[1,2048] 注意力特征print('att_masks', data['att_masks'])print('含有的信息infos：', data['infos'])  #infos [{'ix': 117986, 'id': 495956, 'file_path': 'train2014/COCO_train2014_000000495956.jpg'}]print('———————————————————※标签信息※——————————————————')  #[1,2048] 全连接特征print('labels', data['labels'])     #添加了一些0print('gts:', data['gts'])          #没有添加的原始句子print('masks', data['masks'])print('———————————————————※记录遍历的位置※——————————————————')  #[1,2048] 全连接特征print('bounds', data['bounds'])time.sleep(1)print(data.keys())

输出结果:

Hugginface transformers not installed; please visit https://github.com/huggingface/transformers
meshed-memory-transformer not installed; please run `pip install git+https://github.com/ruotianluo/meshed-memory-transformer.git`
Warning: coco-caption not available
cider or coco-caption missing
/home/lihuanyu/code/07ImageCaptioning/data/cocotalk.json
1
是否使用【注意力特征[use_fc]】: True
是否使用【注意力特征[use_att]】: True
是否在注意力特征中使用【检测框特征[use_box]】: 0
DataLoader loading json file:  /home/lihuanyu/code/07ImageCaptioning/data/cocotalk.json
vocab size is  9487
DataLoader loading h5 file:  /home/lihuanyu/code/07ImageCaptioning/data/cocotalk_fc /home/lihuanyu/code/07ImageCaptioning/data/cocotalk_att data/cocotalk_box /home/lihuanyu/code/07ImageCaptioning/data/cocotalk_label.h5
max sequence length in data is 16
read 123287 image features
assigned 82783 images to split train(训练集有多少图片)
assigned 5000 images to split val(验证集有多少图片)
assigned 5000 images to split test(测试集有多少图片)
———————————————————※输入的信息特征※——————————————————
全连接特征【fc_feats】的形状: torch.Size([1, 2048])
全连接特征【att_feats】的形状: torch.Size([1, 196, 2048])
att_masks None
含有的信息infos： [{'ix': 60494, 'id': 46065, 'file_path': 'train2014/COCO_train2014_000000046065.jpg'}]
———————————————————※标签信息※——————————————————
labels tensor([[[   0,    1,  271,   17, 7068,   35,   98,    6,    1,  102,    3,912,    0,    0,    0,    0,    0,    0],[   0,  995, 2309, 2308,  609,    6,    1,  271,  119,  912,    0,0,    0,    0,    0,    0,    0,    0],[   0, 2309, 9487,  179,   98,    6,    1,   46,  271,    0,    0,0,    0,    0,    0,    0,    0,    0],[   0,  182,   35,  995, 7068,    6,    1,  271,    3,   60,  678,32,   14,   29,    0,    0,    0,    0],[   0,  995,  915,   17, 2309, 3130,    6,    1,   46,  271,    0,0,    0,    0,    0,    0,    0,    0]]])
gts: [array([[   1,  271,   17, 7068,   35,   98,    6,    1,  102,    3,  912,0,    0,    0,    0,    0],[ 995, 2309, 2308,  609,    6,    1,  271,  119,  912,    0,    0,0,    0,    0,    0,    0],[2309, 9487,  179,   98,    6,    1,   46,  271,    0,    0,    0,0,    0,    0,    0,    0],[ 182,   35,  995, 7068,    6,    1,  271,    3,   60,  678,   32,14,   29,    0,    0,    0],[ 995,  915,   17, 2309, 3130,    6,    1,   46,  271,    0,    0,0,    0,    0,    0,    0]], dtype=uint32)]
masks tensor([[[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.,0.]]])
———————————————————※记录遍历的位置※——————————————————
bounds {'it_pos_now': 1, 'it_max': 82783, 'wrapped': False}
dict_keys(['fc_feats', 'att_feats', 'att_masks', 'labels', 'masks', 'gts', 'bounds', 'infos'])
———————————————————※输入的信息特征※——————————————————
全连接特征【fc_feats】的形状: torch.Size([1, 2048])
全连接特征【att_feats】的形状: torch.Size([1, 196, 2048])
att_masks None
含有的信息infos： [{'ix': 106440, 'id': 151264, 'file_path': 'train2014/COCO_train2014_000000151264.jpg'}]
———————————————————※标签信息※——————————————————
labels tensor([[[   0,    1,  230,    6,   14,  230,  237,   32, 1086,  627,    0,0,    0,    0,    0,    0,    0,    0],[   0,    1, 6035,  230,   35,  274,  127,  225, 1598,  335,    1,940,    0,    0,    0,    0,    0,    0],[   0,    1,  230,   35,  900,   32,  307,  756,   61,  607,    0,0,    0,    0,    0,    0,    0,    0],[   0,    1,  230,   35,   98,   79,    1,  230,  224,    0,    0,0,    0,    0,    0,    0,    0,    0],[   0,    1,   46, 1109,  230, 1596,  245,    1,  224,    0,    0,0,    0,    0,    0,    0,    0,    0]]])
gts: [array([[   1,  230,    6,   14,  230,  237,   32, 1086,  627,    0,    0,0,    0,    0,    0,    0],[   1, 6035,  230,   35,  274,  127,  225, 1598,  335,    1,  940,0,    0,    0,    0,    0],[   1,  230,   35,  900,   32,  307,  756,   61,  607,    0,    0,0,    0,    0,    0,    0],[   1,  230,   35,   98,   79,    1,  230,  224,    0,    0,    0,0,    0,    0,    0,    0],[   1,   46, 1109,  230, 1596,  245,    1,  224,    0,    0,    0,0,    0,    0,    0,    0]], dtype=uint32)]
masks tensor([[[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0.,0.],[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0.,0.]]])
———————————————————※记录遍历的位置※——————————————————
bounds {'it_pos_now': 2, 'it_max': 82783, 'wrapped': False}
dict_keys(['fc_feats', 'att_feats', 'att_masks', 'labels', 'masks', 'gts', 'bounds', 'infos'])

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用作者：安静到无声个人主页数据加载程序示意图使用方法示例代码 #%%from __future__ import absolute_import from __future__ import division from __future__ import print_…...

编程日记 2023/8/15 13:35:06

研发工程师玩转Kubernetes——就绪探针（Readiness Probe）和服务（Service）

在《研发工程师玩转Kubernetes——启动、存活和就绪探针》中，我们讲了就绪探针和服务之间的特殊关系。就绪探针检测失败并不代表整个程序处于“非存活”状态，可能只是短暂临时的不可以提供服务，比如CPU阶段性占满，导致就绪探针检测…...

编程日记 2023/8/15 13:34:04

最新Kali Linux安装教程：从零开始打造网络安全之旅

Kali Linux，全称为Kali Linux Distribution，是一个操作系统(2013-03-13诞生)，是一款基于Debian的Linux发行版，基于包含了约600个安全工具，省去了繁琐的安装、编译、配置、更新步骤，为所有工具运行提供了一个…...

编程日记 2023/8/15 13:33:02

定制化比较严重，按需更改 excel文件如下代码 # -*- coding: utf-8 -*- import oss2 import shutil import sys import xlwt import xlrd import json from datetime import datetime, timedeltafile1 "C:\\Users\\cxy\\Desktop\\generate.xls" #打开表…...

编程日记 2023/8/15 13:32:01

解决echarts和v-show一起使用canvas宽高改变

本来是想没有数据显示暂无数据的，结果显示成了这样 1.把V-show改成v-if <template><divclass"chart1"ref"chart1"v-if"!nodata"style"width: 100%; height: 100%"></div><el-empty description&quo…...

编程日记 2023/8/15 13:30:57

typescript 中的数据类型有哪些？

目录 1. 介绍2.总结话不多说直接开冲干干干！ 1. 介绍 typescript 的数据类型主要有如下： boolean（布尔类型）number（数字类型）string（字符串类型）array（数组类型&…...

编程日记 2023/8/15 13:29:55

计算机网络应用层 C/S方式（客户/服务方式） P2P方式（对等方式）

...

编程日记 2023/8/15 13:28:54

RabbitMQ-消息中间件学习记录（what-how-why）

什么是消息中间件简单的来说就是消息队列中间件，生产者发送消息到中间件，消息中间件用于保存消息并发送消息到消费者。消息中间件RabbitMQ的基本组件 1）producer -生产者 2）customer -消费者 3）broker (经纪人)- MQ…...

编程日记 2023/8/15 13:27:54

前端HTML进阶

day02：列表、表格、表单目标：掌握嵌套关系标签的写法，使用列表标签布局网页 01-列表作用：布局内容排列整齐的区域。列表分类：无序列表、有序列表、定义列表。无序列表作用：布局排列整齐的不需要规…...

编程日记 2023/8/15 13:26:53

Python“牵手”lazada商品详情页数据采集方法,lazadaAPI接口申请指南

lazada详情接口 API 是开放平台提供的一种 API 接口，它可以帮助开发者获取商品的详细信息，包括商品的标题、描述、图片等信息。在电商平台的开发中，详情接口API是非常常用的 API，因此本文将详细介绍详情接口 API 的使用。一、la…...

编程日记 2023/8/15 13:25:50

买机票系统---（java实现）

/* * 案例 * 卖机票 * 需求：机票价格按照淡季和旺季，头等舱和经济舱收费，输入机票原价，月份和头等舱或经济舱 * 旺季（5-10月）：头等舱9折，经济舱8.5折 * 淡季（11-来年4月&…...

编程日记 2023/8/15 13:24:49

“new出对象“原理的深层解密

🎈个人主页:🎈 :✨✨✨初阶牛✨✨✨ 🐻推荐专栏1: 🍔🍟🌯C语言初阶 🐻推荐专栏2: 🍔🍟🌯C语言进阶 🔑个人信条: 🌵知行合一 &#x1f…...

编程日记 2023/8/15 13:23:48

Java基础篇--SecureRandom（安全随机）类

java.security.SecureRandom类是Java中用于生成安全的随机数的一个类。与普通的Random类不同，它提供了一种可信赖的随机数生成器，用于生成具有高度随机性的随机数。 SecureRandom类的实例使用了更加安全的随机数生成算法，这些算法通常经过密…...

编程日记 2023/8/15 13:22:46

论文复现--关于多视角动作捕捉工具箱 --XRMoCap的研究

分类：动作捕捉 github地址：https://github.com/openxrlab/xrmocap 所需环境： Ubuntu18.04，conda22.9.0，CUDA11.4 目录环境配置环境配置 conda create -n XRmocap python3.7 -y conda activate XRmocap# install ffm…...

编程日记 2023/8/15 13:21:45

Spring Profile与PropertyPlaceholderConfigurer实现项目多环境配置切换

最近考虑项目在不同环境下配置的切换，使用profile注解搭配PropertyPlaceholderConfigurer实现对配置文件的切换，简单写了个demo记录下实现。基本知识介绍 Profile Profile通过对bean进行修饰，来限定spring在bean管理时的初始化情况&#…...

编程日记 2023/8/15 13:20:44

ansible入门

ansible入门一.ansible 背景介绍 Ansible 是一个广受欢迎的 IT 自动化系统。可以用来处理配置管理、应用自动化部署、云资源配给、网络自动化和多借点部署等任务。其也可以使得复杂的变更如带负载均衡的零停机滚动更新更加容易。Ansible.com 1.1 自动化运维概念 1.1.1 运维…...

编程日记 2023/8/15 13:19:40

用Node.js吭哧吭哧撸一个运动主页

简单唠唠某乎问题：人这一生，应该养成哪些好习惯？ 问题链接：https://www.zhihu.com/question/460674063 如果我来回答肯定会有定期运动的字眼。平日里也有煅练的习惯，时间久了后一直想把运动数据公开，…...

编程日记 2023/8/15 13:18:37

【C++】STL---vector

STL---vector 一、vector 的介绍二、vector 的模拟实现1. 容量相关的接口（1）size（2）capacity（3）reserve（4）resize（5）empty 2. [] 重载3. 迭代器4. 修改数据相…...

编程日记 2023/8/15 13:17:35

机器学习：基本介绍

机器学习介绍 Hnad-crafted rules Hand-crafted rules，叫做人设定的规则。那假设今天要设计一个机器人，可以帮忙打开或关掉音乐，那做法可能是这样： 设立一条规则，就是写一段程序。如果输入的句子里面看到**“turn of…...

编程日记 2023/8/15 13:16:34

基于长短期神经网络LSTM的碳排量预测，基于LSTM的碳排放量预测

目录背影摘要 LSTM的基本定义 LSTM实现的步骤基于长短期神经网络LSTM的碳排放量预测完整代码：基于长短期神经网络LSTM的碳排放量预测，基于LSTM的碳排放量预测资源-CSDN文库 https://download.csdn.net/download/abc991835105/88184632 效果图结果分析展望参考论文背…...

编程日记 2023/8/15 13:15:31

Redis 客户端连接详解

Redis 客户端连接详解引言 Redis 是一款高性能的内存数据结构存储系统，常用于缓存、会话管理、实时排行榜等功能。客户端连接是 Redis 生态系统中的重要组成部分，本文将详细介绍 Redis 客户端连接的相关知识，包括连接方式、连接配置、连接管理等方面。 Redis 客户端连接…...

编程新知 2026/5/25 17:50:39

终极解决方案：Windows Cleaner免费开源工具，3步彻底解决C盘爆红问题

终极解决方案：Windows Cleaner免费开源工具，3步彻底解决C盘爆红问题【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否也经历过这样的…...

编程新知 2026/5/25 17:21:51

ROS机器人仿真架构解析：基于wpr_simulation的移动操作机器人技术实现

ROS机器人仿真架构解析：基于wpr_simulation的移动操作机器人技术实现【免费下载链接】wpr_simulation 项目地址: https://gitcode.com/gh_mirrors/wp/wpr_simulation 在机器人操作系统(ROS)开发领域，硬件依赖和测试成本一直是制约算法迭代效率的…...

编程新知 2026/5/25 16:34:34

OpenCore Legacy Patcher完整指南：如何让老旧Mac重获新生运行最新macOS

OpenCore Legacy Patcher完整指南：如何让老旧Mac重获新生运行最新macOS 【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 想让你的老旧Mac设备重获新…...

编程新知 2026/5/25 15:13:58

如何在macOS上免费安装HSTracker：终极炉石传说套牌追踪器完整指南

如何在macOS上免费安装HSTracker：终极炉石传说套牌追踪器完整指南【免费下载链接】HSTracker A deck tracker and deck manager for Hearthstone on macOS 项目地址: https://gitcode.com/gh_mirrors/hs/HSTracker 还在为炉石传说对局中记不住对手出牌而烦恼…...

编程新知 2026/5/25 13:53:19

HS2-HF Patch：3分钟解锁Honey Select 2完整游戏体验的技术指南

HS2-HF Patch：3分钟解锁Honey Select 2完整游戏体验的技术指南【免费下载链接】HS2-HF_Patch Automatically translate, uncensor and update HoneySelect2! 项目地址: https://gitcode.com/gh_mirrors/hs/HS2-HF_Patch HS2-HF Patch是专为Honey Select 2 L…...

编程新知 2026/5/25 12:38:20

机器学习预测细菌耐药性：从全基因组数据到公共卫生预警

1. 项目概述与核心价值抗菌药物耐药性（AMR）这事儿，现在谁提起来都头疼。它不再是实验室报告上的一个数字，而是直接关系到我们每个人生病了还有没有药可用的现实问题。弯曲杆菌，这个听起来有点拗口的名字，其…...

编程新知 2026/5/25 10:34:44

Label Studio数据源配置全攻略：除了S3和Azure，如何用本地文件夹搭建高效标注流水线？

Label Studio数据存储方案深度对比：从云端到本地的架构选型指南在机器学习项目的数据标注环节，Label Studio已成为众多团队的首选工具。但面对不同规模、不同安全要求的项目时，如何选择最适合的数据存储方案却让许多技术决策者感到困扰。本文…...

编程新知 2026/5/25 10:01:50

告别内存泄漏！Cocos Creator 2.4+ AssetManager资源释放的完整避坑指南

Cocos Creator 2.4 AssetManager资源释放的完整避坑指南在游戏开发中，资源管理一直是影响性能和稳定性的关键因素。随着Cocos Creator 2.4版本推出全新的AssetManager系统，开发者获得了更强大的资源管理能力，但也面临着新的挑战。本文将深入探…...

编程新知 2026/5/25 8:45:23

基于AIS数据与随机森林的船舶类型智能识别：从特征工程到不平衡数据处理

1. 项目概述与核心价值在海上交通管理、港口调度、渔业监管乃至海上安全监测等领域，快速、准确地识别船舶类型是一项基础且关键的任务。想象一下，一个繁忙的港口调度员面对雷达屏幕上密密麻麻的光点，如果能瞬间知道哪些是庞大的油轮、哪些是灵…...

编程新知 2026/5/25 7:12:53

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用

数据加载程序示意图

使用方法

示例代码

推荐专栏

相关文章：

【Image captioning】ruotianluo/self-critical.pytorch之1—数据集的加载与使用

研发工程师玩转Kubernetes——就绪探针（Readiness Probe）和服务（Service）

最新Kali Linux安装教程：从零开始打造网络安全之旅

excel填数据转json格式

解决echarts和v-show一起使用canvas宽高改变

typescript 中的数据类型有哪些？

计算机网络应用层 C/S方式（客户/服务方式） P2P方式（对等方式）

RabbitMQ-消息中间件学习记录（what-how-why）

前端HTML进阶

Python“牵手”lazada商品详情页数据采集方法,lazadaAPI接口申请指南

买机票系统---（java实现）

“new出对象“原理的深层解密

Java基础篇--SecureRandom（安全随机）类

论文复现--关于多视角动作捕捉工具箱 --XRMoCap的研究

Spring Profile与PropertyPlaceholderConfigurer实现项目多环境配置切换

ansible入门

用Node.js吭哧吭哧撸一个运动主页

【C++】STL---vector

机器学习：基本介绍

基于长短期神经网络LSTM的碳排量预测，基于LSTM的碳排放量预测

Redis 客户端连接详解

终极解决方案：Windows Cleaner免费开源工具，3步彻底解决C盘爆红问题

ROS机器人仿真架构解析：基于wpr_simulation的移动操作机器人技术实现

OpenCore Legacy Patcher完整指南：如何让老旧Mac重获新生运行最新macOS

如何在macOS上免费安装HSTracker：终极炉石传说套牌追踪器完整指南

HS2-HF Patch：3分钟解锁Honey Select 2完整游戏体验的技术指南

机器学习预测细菌耐药性：从全基因组数据到公共卫生预警

Label Studio数据源配置全攻略：除了S3和Azure，如何用本地文件夹搭建高效标注流水线？

告别内存泄漏！Cocos Creator 2.4+ AssetManager资源释放的完整避坑指南

基于AIS数据与随机森林的船舶类型智能识别：从特征工程到不平衡数据处理