当前位置：首页 > news >正文

Stable Diffusion训练图片时，简陋的数据处理

news 2026/2/9 13:56:03

0 图片从命名

如果有强迫症，看到似乎乱码的命名会不舒服，那么就批量从命名

import osdef rename_files_in_directory(directory, key_word, new_suffix):i = 1for filename in os.listdir(directory):new_file = key_word + str(i).zfill(3) + new_suffixsource = os.path.join(directory, filename)destination = os.path.join(directory, new_file)os.rename(source, destination)i += 1
# 使用方法
# rename_files_in_directory('/path/to/directory', '.new_suffix')
# D:\SdTrainerGUI\lora-scripts-v1.7.3\train\XiboBird\5_zkz

1 批量缩小图片分辨率

如果是用同一个相机拍的，分辨率都是一样的，只不过分辨率太大了8K以上的分辨率显卡受不了

from PIL import Image
import osdef resize_image(image_path, output_path, scale_factor):# 打开图片img = Image.open(image_path)# 获取图片的宽度和高度width, height = img.size# 计算新的宽度和高度new_width = width // scale_factornew_height = height // scale_factor# 使用ANTIALIAS滤镜来缩小图片# new_img = img.resize((new_width, new_height), Image.ANTIALIAS)new_img = img.resize((new_width, new_height), Image.ANTIALIAS)# 保存新图片new_img.save(output_path)def get_all_image(path, file_extension=".jpg"):return [os.path.join(path, f) for f in os.listdir(path) if f.endswith(file_extension)]def process_images(catalog_of_original_images, file_extension, scale_factor):# 获取原始图像目录的上一级目录parent_directory = os.path.dirname(catalog_of_original_images)# 设置输出目录output_catalog = os.path.join(parent_directory, "output")# 创建输出目录if not os.path.exists(output_catalog):os.makedirs(output_catalog)image_list = get_all_image(catalog_of_original_images, file_extension)for image in image_list:# 获取图片的文件名image_name = os.path.basename(image)# 设置输出图片的路径output_image_path = os.path.join(output_catalog, image_name)# 缩小图片并保存resize_image(image, output_image_path, scale_factor)if __name__ == '__main__':process_images(r"E:\Dwk\Photos\祥春鸟", ".jpg", 10)

2 图片数据集增强

最简易的增强是图片镜像，就是左右颠倒各一张，图片数据集数量直接翻倍

import os
from PIL import Image, ImageOpsdef data_enhancement(image_catalog, file_extension=".jpg"):image_list = [os.path.join(image_catalog, f) for f in os.listdir(image_catalog) if f.endswith(file_extension)]for image in image_list:# 打开图片img = Image.open(image)# 创建镜像图片mirror_img = ImageOps.mirror(img)# 获取图片的文件名（不包括后缀）image_name = os.path.splitext(os.path.basename(image))[0]# 设置镜像图片的文件名mirror_image_name = image_name + "_mirror" + file_extension# 设置镜像图片的路径mirror_image_path = os.path.join(image_catalog, mirror_image_name)# 保存镜像图片mirror_img.save(mirror_image_path)if __name__ == '__main__':data_enhancement(r"E:\Dwk\Photos\output", ".jpg")

3 tag内容批量修改（这里是只替换）

避免一个个文件打开逐个tag修改

import osdef replace_words_in_files(directory, old_word, new_word):# 获取指定目录下的所有文件files = os.listdir(directory)# 遍历所有文件for file in files:# 检查文件是否为.txt文件if file.endswith('.txt'):# 构建完整的文件路径file_path = os.path.join(directory, file)# 打开文件with open(file_path, 'r') as f:content = f.read()# 替换内容content = content.replace(old_word, new_word)# 写回文件with open(file_path, 'w') as f:f.write(content)if __name__ == '__main__':replace_words_in_files(r'D:\SdTrainerGUI\lora-scripts-v1.7.3\train\PreprocessingOutput','girl','boy')

Stable Diffusion训练图片时，简陋的数据处理

0 图片从命名如果有强迫症，看到似乎乱码的命名会不舒服，那么就批量从命名 import osdef rename_files_in_directory(directory, key_word, new_suffix):i 1for filename in os.listdir(directory):new_file key_word str(i).zfill(3) new_suffixsou…...

编程日记 2024/3/21 5:34:51

如何在ubuntu 18.04中升级python 3.6到3.7

在ubuntu下安装python 3.7有两种方法: 1,通过使用Deadsnakes PPA中的标准apt工具(本文暂时只介绍这种方法) 2,从源代码进行构建。前提条件： 需要以root用户或具有sudo访问权限的用户身份登录才能在Ubuntu系统上安装软件包。方法一：使用apt工具安装…...

编程日记 2024/3/21 5:33:50

python爬虫基础实验：通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息

Task1 读取网站主页整个页面的 html 内容并解码为文本串（可使用urllib.request的相应方法），将其以UTF-8编码格式写入page.txt文件。 Code1 import urllib.requestwith urllib.request.urlopen(https://dblp.dagstuhl.de/db/conf/kdd/kdd202…...

编程日记 2024/3/21 5:32:48

简单记录一次帮维修手机经历(Vivo x9)

简介手边有一台朋友亲戚之前坏掉的Vivo X9手机， 一直说要我帮忙修理一下， 我一直是拒绝的， 因为搞程序的不等于维修的（会电脑不等于维修电器），不知道这种思路如何根深蒂固的，不过好吧&#xff…...

编程日记 2024/3/21 5:31:47

ap聚类是什么

AP聚类（Affinity Propagation clustering）是一种聚类算法，它基于数据点之间的相似度进行聚类。AP聚类算法无需预先指定簇的数量，而是根据数据点之间的相似性动态地确定簇的个数和分配情况。 AP聚类的核心思想是通过迭代计算数据点…...

编程日记 2024/3/21 5:30:46

C数据类型（C语言）---变量的类型决定了什么？

目录数据类型（Data Type） 变量的类型决定了什么？ （1）不同类型数据占用的内存大小不同如何计算变量或类型占内存的大小 （2）不同数据类型的表数范围不同 （3）不同类型…...

编程日记 2024/3/21 5:29:44

axios、axios二次封装、api解耦

import axios from axios// 环境的切换切换测试与生产环境 if (process.env.NODE_ENV development) { axios.defaults.baseURL /api; } else if (process.env.NODE_ENV debug) { axios.defaults.baseURL ; } else if (process.env.NODE_ENV production) { axios.…...

编程日记 2024/3/21 5:28:43

HTML 特殊元素：展示PDF、展示JSON 数据

<pre> 标签 (preformatted text) <pre> 标签用来表示预格式化的文本内容在页面数据展示时，后端返回了一段未经处理的JSON 数据，将这段数据在页面正常展示，让可读性更高。 {/"project": {/ "title": "…...

编程日记 2024/3/21 5:26:41

算法·动态规划Dynamic Programming

很多人听到动态规划或者什么dp数组了，或者是做到一道关于动态规划的题目时，就会有一种他很难且不好解决的恐惧心理，但是如果我们从基础的题目开始深入挖掘动规思想，在后边遇到动态规划的难题时就迎难而解了。其实不然&#xff…...

编程日记 2024/3/21 5:25:40

鸿蒙Harmony应用开发—ArkTS-转场动画（共享元素转场）

当路由进行切换时，可以通过设置组件的 sharedTransition 属性将该元素标记为共享元素并设置对应的共享元素转场动效。说明： 从API Version 7开始支持。后续版本如有新增内容，则采用上角标单独标记该内容的起始版本。属性名称参数参数描述…...

编程日记 2024/3/21 5:24:37

【C语言】循环语句（语句使用建议）

文章目录 **while循环****while循环的实践****补充:if语句与while语句区别****for循环(使用频率最高)****for循环的实践****while循环和for循环的对比****Do-while循环****break和continue语句****循环的嵌套****goto语句(不常用)****循环语句的效率(来自于高质量的C/C编程书籍…...

编程日记 2024/3/21 5:23:36

Spring Data访问Elasticsearch----响应式Reactive存储库

Spring Data访问Elasticsearch----响应式Reactive存储库一、用法二、配置 Reactive Elasticsearch存储库支持建立在存储库中解释的核心存储库支持之上，利用由 Reactive REST客户端执行的 Reactive Elasticsearch Operations提供的操作。 Spring Data Elasticsear…...

编程日记 2024/3/21 5:22:34

堆排序（c语言）

文章目录前言一.什么是堆二.向下调整算法三.堆排序的创建总结前言堆排序（Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构，并同时满足堆积的性质：即子结点的键值或索引总是小于&#x…...

编程日记 2024/3/21 5:21:33

开源IT自动化运维工具Ansible解析

Ansible 是一款开源的 IT 自动化工具，用于简化应用程序部署、配置管理、持续集成、基础设施即代码（Infrastructure as Code, IaC）和服务编排。它由 Michael DeHaan 创建，并在2012年首次发布，到2015年被红帽公司&#x…...

编程日记 2024/3/21 5:20:32

【C++】仿函数优先级队列反向迭代器

目录一、优先级队列 1、priority_queue 的介绍 2、priority_queue 的使用 3、 priority_queue 的模拟实现 1）priority_queue()/priority_queue(first, last) 2）push（x） 3）pop（） 4&#…...

编程日记 2024/3/21 5:18:29

UE4_调试工具_绘制调试球体

学习笔记，仅供参考！ 效果： 步骤： 睁开眼睛就是该变量在此蓝图的实例上可公开编辑。勾选效果：...

编程日记 2024/3/21 5:17:28

机器人路径规划：基于冠豪猪优化算法(Crested Porcupine Optimizer，CPO)的机器人路径规划（提供MATLAB代码）

一、机器人路径规划介绍移动机器人（Mobile robot，MR）的路径规划是移动机器人研究的重要分支之，是对其进行控制的基础。根据环境信息的已知程度不同，路径规划分为基于环境信息已知的全局路径规划和基于环境信息未知或…...

编程日记 2024/3/21 5:16:27

探索.NET中的定时器：选择最适合你的应用场景

概述：.NET提供多种定时器，如 System.Windows.Forms.Timer适用于UI，System.Web.UI.Timer用于Web，System.Diagnostics.Timer用于性能监控，System.Threading.Timer和System.Timers.Timer用于一般定时任务。在.NET 6及以上…...

编程日记 2024/3/21 5:15:26

5467: 【搜索】流浪奶牛

题目描述吃不到饭的奶牛Bessie一气之下决定离开农场，前往阿尔费茨山脉脚底下的农场（听说那儿的草极其美味）投靠她的亲戚Jimmy。但是前往目的地的山路崎岖，Bessie又没有吃饭，她需要尽量保存体力，以最轻松的…...

编程日记 2024/3/21 5:14:25

spring boot整合elasticsearch实现查询功能

第一步、添加依赖（注意版本对应关系）根据spring boot版本选择合适的版本 <dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>7.6.2</version></dependenc…...

编程日记 2024/3/21 5:13:24

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/9/28 20:12:12

【杂谈】-递归进化：人工智能的自我改进与监管挑战

递归进化：人工智能的自我改进与监管挑战文章目录递归进化：人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管？3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...

编程新知 2025/12/9 0:22:01

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型论文信息标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者：Yanyuan Chen, Dexuan Xu, Yu Hu…...

编程新知 2025/10/6 14:17:21

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

医院信息管理系统 1. 课程设计内容在 visual studio 2017 平台上，开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的综合运用 c#.net 知识，在 vs 2017 平台上，进行 ASP.NET 应用程序和简易网站的开发；初步熟悉开发一…...

编程新知 2026/1/23 12:16:56

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/9/11 11:00:29

Unit 1 深度强化学习简介

Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库，例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体，比如 SnowballFight、Huggy the Do…...

编程新知 2026/2/8 12:54:53

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/10/4 21:24:40

JS手写代码篇----使用Promise封装AJAX请求

15、使用Promise封装AJAX请求 promise就有reject和resolve了，就不必写成功和失败的回调函数了 const BASEURL ./手写ajax/test.jsonfunction promiseAjax() {return new Promise((resolve, reject) > {const xhr new XMLHttpRequest();xhr.open("get&quo…...

编程新知 2025/12/16 3:15:21

Python 训练营打卡 Day 47

注意力热力图可视化在day 46代码的基础上，对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...

编程新知 2025/11/24 9:42:16

0 图片从命名

1 批量缩小图片分辨率

2 图片数据集增强

3 tag内容批量修改（这里是只替换）

相关文章：