当前位置：首页 > news >正文

Python 图片处理笔记

news 2026/2/8 23:06:51

import numpy as np
import cv2
import os
import matplotlib.pyplot as plt# 去除黑边框
def remove_the_blackborder(image):image = cv2.imread(image)      #读取图片img = cv2.medianBlur(image, 5) #中值滤波，去除黑色边际中可能含有的噪声干扰#medianBlur( InputArray src, OutputArray dst, int ksize );#这里的src代表输入图像，dst代表输出图像，ksize 必须是正数且为奇数#该函数使用中值滤波器来平滑图像，可以消除图像中的小点，该值越大，则消除的点越大b = cv2.threshold(img, 3, 255, cv2.THRESH_BINARY) #调整裁剪效果#大于3 的像素点都处理成第三个参数值，小于3的像素点都处理成0#大于3的像素点，都替换成纯白色(RGB==255)binary_image = b[1]            #二值图--具有三通道#彩色图像： 有blue，green，red三个通道，取值范围均为0-255#灰度图：只有一个通道0-255，所以一共有256种颜色#二值图像：只有两种颜色，黑色和白色，二值化就是把图像的像素转变为0或者255，只有这两个像素值。0白色 1黑色 。0是黑色，255是白色binary_image = cv2.cvtColor(binary_image,cv2.COLOR_BGR2GRAY)#彩色图像，进行RGB到灰度的转换# print(binary_image.shape)     #改为单通道edges_y, edges_x = np.where(binary_image==255) ##h, w#选取白色(RGB ==255)点的坐标#白色(RGB ==255)点的边界就是我们要保留的图片bottom = min(edges_y)             top = max(edges_y) height = top - bottom            left = min(edges_x)           right = max(edges_x)             height = top - bottom width = right - left#微调# 实际操作过程中发现，去掉边框的图像，仍然有几个像素数宽度的黑框，这里手动去掉boder = 3bottom = bottom + boderheight = height - (boder * 2)left = left + boderwidth = width - (boder * 2)res_image = image[bottom:bottom+height, left:left+width]return res_image

cv2.medianBlur

img = cv2.medianBlur(image, 5) #中值滤波，去除黑色边际中可能含有的噪声干扰

#medianBlur( InputArray src, OutputArray dst, int ksize );
#这里的src代表输入图像，dst代表输出图像，ksize 必须是正数且为奇数
#该函数使用中值滤波器来平滑图像，可以消除图像中的小点，该值越大，则消除的点越大

cv2.threshold

b = cv2.threshold(img, 3, 255, cv2.THRESH_BINARY) #调整裁剪效果

#大于3 的像素点都处理成第三个参数值，小于3的像素点都处理成0

#大于3的像素点，都替换成纯白色(RGB==255)

https://zhuanlan.zhihu.com/p/511579219?utm_id=0

binary_image = b[1] #二值图--具有三通道

cv2.cvtColor

binary_image = cv2.cvtColor(binary_image,cv2.COLOR_BGR2GRAY)

#彩色图像，进行RGB到灰度的转换 # print(binary_image.shape) #改为单通道

OtherS

print(list(set(edges_y))) 对原列表去重并按从小到大排序

np.argmax(np.bincount(edges_x))

Counter(edges_x).most_common(20) 找出出现次数最多的几个元素

分割清楚脏背景

import cv2
import numpy as np
from skimage.filters import unsharp_mask
from skimage.filters import gaussian
from skimage.restoration import denoise_tv_chambolle
import matplotlib.pyplot as plt
from collections import Counter#分割图片，提取每一个 方格字 其他的部分，设置成白色RGB==255
def clean_Zang_background_by_Fengge(image):image = cv2.imread(image)      #读取图片img = cv2.medianBlur(image, 5) #中值滤波，去除黑色边际中可能含有的噪声干扰#medianBlur( InputArray src, OutputArray dst, int ksize );#这里的src代表输入图像，dst代表输出图像，ksize 必须是正数且为奇数#该函数使用中值滤波器来平滑图像，可以消除图像中的小点，该值越大，则消除的点越大b = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY) #调整裁剪效果#大于190 的像素点都处理成 255 白色#计算binary_image = b[1]            #二值图--具有三通道#彩色图像： 有blue，green，red三个通道，取值范围均为0-255#灰度图：只有一个通道0-255，所以一共有256种颜色#二值图像：只有两种颜色，黑色和白色，二值化就是把图像的像素转变为0或者255，只有这两个像素值。0白色 1黑色 。0是黑色，255是白色binary_image = cv2.cvtColor(binary_image,cv2.COLOR_BGR2GRAY)#彩色图像，进行RGB到灰度的转换edges_y, edges_x = np.where(binary_image < 127) ##h, w#选取有颜色(RGB < 127)点的坐标#直方图统计
#    plt.hist(edges_x,bins=1000)
#    plt.savefig("./3_edges_x.png")
#    plt.hist(edges_y,bins=1000)
#    plt.savefig("./3_edges_y.png")# Step 1 ：使用X轴 先将图片 纵向分割成一条一条xdict = Counter(edges_x) #统计edges_x中各个元素的个数-可以反映出 图片像素点在X轴压缩后的分布情况x_black = sorted(xdict.keys())#排序#x_black中的元素，表示对应的y轴这列像素点存在黑色(RGB),反之不存在与black中的X轴对应的一列像素点是纯白色tmp=0lnum = 0n = 10for a in x_black:lnum = lnum + 1if tmp == a:tmp = tmp + 1else:#tmp 到 a之间的区域 是没有数据的，可以清除了# 由于上面的 127的选取会剪掉多余可用的部分，因此出需要在可用的数据部分基础上多保留 n个像素点，以确保可用部分不丢失# debug 显示框框,# image[0:, (tmp+n):(tmp+1+n), :] = (0, 0, 0) #debug# image[0:, (a-1-n):(a-n), :] = (0, 0, 0) #debug#清理 分割出来的脏背景image[0:, (tmp+n):(a-n), :] = (255, 255, 255)tmp = a + 1# 最后一条脏区域image[0:, (tmp+n):, :] = (255, 255, 255)# 兼容第一条脏区域image[0:, 0:n, :] = (255, 255, 255)# Step 2  : 使用Y轴 先将图片 横向分割 清理上下两个区域#取出最大，最小值即可ymin = min(edges_y)             ymax = max(edges_y)yn = 7image[(ymax+yn):(ymax+1+yn), 0:, :] = (0, 0, 0) #debugimage[(ymin-1-yn):(ymin-yn), 0:, :] = (0, 0, 0) #debug#清理 分割出来的脏背景image[(ymax+yn):, 0:, :] = (255, 255, 255) image[0:(ymin-yn), 0:, :] = (255, 255, 255)return imagecv2.imwrite("./3_fenge.jpg",remove_the_blackborder("3_biankuang.jpg"))

原始图像

纵向清理

纵向+横向清理

上述算法在使用过程中，依然有bug，

如果有大块的墨点，影响判断，
图像的字迹太淡，会导致图片被清零

下一步优化算法：

1. 计算一列或者一行的 RGB avg然后，根据数据统计可以分析出边框，但是对于图像这种差异不明显的图片，无法分离出；这样方法之实用与文字这种差异比较明显的场景

import numpy as np
import matplotlib.pyplot as plt
import cv2#分割图片，提取每一个 方格字 其他的部分，设置成白色RGB==255
def clean_Zang_background_by_Fengge(image):image = cv2.imread(image)      #读取图片img = cv2.medianBlur(image, 5) #中值滤波，去除黑色边际中可能含有的噪声干扰#medianBlur( InputArray src, OutputArray dst, int ksize );#这里的src代表输入图像，dst代表输出图像，ksize 必须是正数且为奇数#该函数使用中值滤波器来平滑图像，可以消除图像中的小点，该值越大，则消除的点越大b = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY) #调整裁剪效果#大于127 的像素点都处理成 255 白色#计算binary_image = b[1]            #二值图--具有三通道#彩色图像： 有blue，green，red三个通道，取值范围均为0-255#灰度图：只有一个通道0-255，所以一共有256种颜色#二值图像：只有两种颜色，黑色和白色，二值化就是把图像的像素转变为0或者255，只有这
两个像素值。0白色 1黑色 。0是黑色，255是白色binary_image = cv2.cvtColor(binary_image,cv2.COLOR_BGR2GRAY)#彩色图像，进行RGB到灰度的转换# debugcv2.imwrite('3_xheibai.jpg',binary_image)#edges_y, edges_x = np.where(binary_image < 127) ##h, w#选取有颜色(RGB < 127)点的坐标# debugprint(len(binary_image))print(binary_image)#xavgRGB = {}xNum=0xavyRGB=[]for ils in binary_image:xNum = xNum+1mavg =255 - np.mean(ils)   #取反# 去除边框if(mavg > 250):mavg=0xavyRGB.append(mavg)# debugplt.bar(xNum, mavg)print(xNum)plt.savefig("./3_xavyRGB.png")clean_Zang_background_by_Fengge("0004_page_0004.jpg")

原始图片和 y轴压缩后的avg柱状图

考虑其他方法。

验证使用的图片

Python 图片处理笔记

import numpy as np import cv2 import os import matplotlib.pyplot as plt# 去除黑边框 def remove_the_blackborder(image):image cv2.imread(image) #读取图片img cv2.medianBlur(image, 5) #中值滤波，去除黑色边际中可能含有的噪声干扰#medianBlur( Inp…...

编程日记 2023/9/21 0:47:47

SpringCloud Ribbon--负载均衡原理及应用实例

😀前言本篇博文是关于SpringCloud Ribbon的基本介绍，希望你能够喜欢 🏠个人主页：晨犀主页 🧑个人简介：大家好，我是晨犀，希望我的文章可以帮助到大家，您的满意是我的动力…...

编程日记 2023/9/21 0:46:46

Redis的介绍以及简单使用

Redis（Remote Dictionary Server）是一个开源的内存数据存储系统，它以键值对的形式将数据存在内存中，并提供灵活、高性能的数据访问方式。Redis具有高速读写能力和丰富的数据结构支持，可以广泛应用于缓存、消息队列、实…...

编程日记 2023/9/21 0:45:45

ad18学习笔记十二：如何把同属性的元器件全部高亮？

1、先选择需要修改的器件的其中一个。 2、右键find similar objects，然后在弹出的对话框中，将要修改的属性后的any改为same 3、像这样勾选的话，能把同属性的元器件选中，其他器件颜色不变注意了，如果这个时候&#xff…...

编程日记 2023/9/21 0:44:44

SpringSecurity 核心过滤器——SecurityContextPersistenceFilter

文章目录前言过滤器介绍用户信息的存储获取用户信息存储用户信息获取用户信息处理逻辑总结前言 SecurityContextHolder，这个是一个非常基础的对象，存储了当前应用的上下文SecurityContext，而在SecurityContext可以获取Authentication对象…...

编程日记 2023/9/21 0:43:42

反转单链表

思路图1： 代码： struct ListNode* reverseList(struct ListNode* head){if(headNULL)//当head是空链表时 {return head; }struct ListNode* n1NULL;struct ListNode* n2head;struct ListNode* n3head->next;if(head->nextNULL)//当链表只有一个节…...

编程日记 2023/9/21 0:42:41

加速新药问世，药企如何利用云+网的优势？

随着计算能力的不断提高和人工智能技术的迅速发展，药物研发领域正迎来一场革命。云端强大的智能算法正成为药物研发企业的得力助手，推动着药物的精确设计和固相筛选。这使得药物设计、固相筛选以及药物制剂开发的时间大幅缩短，有望加速新药物…...

编程日记 2023/9/21 0:41:40

C++中string对象之间比较、char*之间比较

#include <cstring> //char* 使用strcmp #include <string> //string 使用compare #include <iostream> using namespace std; int main() {string stringStr1 "42";string stringStr2 "42";string stringStr3 "213";cout …...

编程日记 2023/9/21 0:39:38

MVVM模式理解

链接： MVVM框架理解及其原理实现 - 知乎 (zhihu.com) 重点： 1.将展示的界面窗口和创建的构件是数据进行分离 2.利用一个中间商进行数据的处理，所有的数据通过中间商进行处理...

编程日记 2023/9/21 0:37:35

js常用的数组处理方法

some 方法用于检查数组中是否至少有一个元素满足指定条件。如果有满足条件的元素，返回值为 true，否则返回 false。 const numbers [1, 2, 3, 4, 5];const hasEvenNumber numbers.some((number) > number % 2 0); console.log(hasEvenNumber); /…...

编程日记 2023/9/21 0:36:34

[Document]VectoreStoreToDocument开发

该document是用来检索文档的。第一步：定义组件对象，该组件返回有两种类型：document和text。第二步：获取需要的信息，向量存储库，这里我使用的是内存向量存储（用该组件拿到文档，并检…...

编程日记 2023/9/21 0:35:34

【LeetCode-简单题】225. 用队列实现栈

文章目录题目方法一：单个队列实现题目方法一：单个队列实现入栈和入队正常进行出栈的元素其实就是队列的尾部元素，所以直接将尾部元素弹出即可，其实就可以将除了最后一个元素的其他元素出队再加入队，然后弹出队首元…...

编程日记 2023/9/21 0:30:30

数据预处理方式合集

删除空行 #del all None value data_all.dropna(axis1, howall, inplaceTrue) 删除空列 #del all None value data_all.dropna(axis0, howall, inplaceTrue) 缺失值处理观测缺失值观测数据缺失值有一个比较好用的工具包——missingno，直接传入DataFrame&…...

编程日记 2023/9/21 0:29:29

【前端】jquery获取data-*的属性值

通过jquery获取下面data-id的值 <div id"getId" data-id"122" >获取id</div> 方法一：dataset()方法 //data-前缀属性可以在JS中通过dataset取值，更加方便 console.log(getId.dataset.id);//112//赋值 getId.dataset.…...

编程日记 2023/9/21 0:27:26

GB28181学习（五）——实时视音频点播（信令传输部分）

要求实时视音频点播的SIP消息应通过本域或其他域的SIP服务器进行路由、转发，目标设备的实时视音频流宜通过本域的媒体服务器进行转发；采用INVITE方法实现会话连接，采用RTP/RTCP协议实现媒体传输；信令流程分为客户端主动发起和第…...

编程日记 2023/9/21 0:26:25

单例模式（饿汉模式懒汉模式）与一些特殊类设计

文章目录一、不能被拷贝的类二、只能在堆上创建类对象三、只能在栈上创建类对象四、不能被继承的类五、单例模式 5、1 什么是单例模式 5、2 什么是设计模式 5、3 单例模式的实现 5、3、1 饿汉模式 5、3、1 懒汉模式 🙋‍♂️ 作者：Ggggggtm &#x…...

编程日记 2023/9/21 0:25:24

133. 克隆图

133. 克隆图题目-中等难度示例1. bfs 题目-中等难度给你无向连通图中一个节点的引用，请你返回该图的深拷贝（克隆）。图中的每个节点都包含它的值 val（int） 和其邻居的列表（list[Node]）。…...

编程日记 2023/9/21 0:24:23

交流耐压试验目的

试验目的交流耐压试验是鉴定电力设备绝缘强度最有效和最直接的方法。电力设备在运行中， 绝缘长期受着电场、温度和机械振动的作用会逐渐发生劣化， 其中包括整体劣化和部分劣化，形成缺陷， 例如由于局部地方电场比较集中或者局部…...

编程日记 2023/9/21 0:23:21

使用 YCSB 和 PE 进行 HBase 性能压力测试

HBase主要性能压力测试有两个，一个是 HBase 自带的 PE，另一个是 YCSB，先简单说一个两者的区别。PE 是 HBase 自带的工具，开箱即用，使用起来非常简单，但是 PE 只能按单个线程统计压测结果，不能汇…...

编程日记 2023/9/21 0:22:20

正则表达式相关概念及不可见高度页面的获取

12.正则概念:匹配有规律的字符串,匹配上则正确 1.正则的创建方式构造函数创建 // 修饰符 igm// i 忽视 ignore// g global 全球全局// m 换行 var regnew RegExp("匹配的内容","修饰符")var str "this is a Box";var reg new RegExp(&qu…...

编程日记 2023/9/21 0:20:18

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/11/30 15:33:36

Spark 之入门讲解详细版（1）

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处&…...

编程新知 2026/2/5 4:17:31

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook，用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途，下面我将全面详细地介绍它的特性和用法。基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

编程新知 2025/6/11 15:21:26

在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能

下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能，包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...

编程新知 2025/11/14 9:31:35

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2026/2/8 8:16:14

在rocky linux 9.5上在线安装 docker

前面是指南，后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

编程新知 2025/7/27 10:03:12

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2026/1/28 8:34:48

python爬虫：Newspaper3k 的详细使用（好用的新闻网站文章抓取和解析的Python库）

更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一、Newspaper3k 概述1.1 Newspaper3k 介绍1.2 主要功能1.3 典型应用场景1.4 安装二、基本用法2.2 提取单篇文章的内容2.2 处理多篇文档三、高级选项3.1 自定义配置3.2 分析文章情感四、实战案例4.1 构建新闻摘要聚合器…...

编程新知 2025/10/25 7:51:48

Go 语言并发编程基础：无缓冲与有缓冲通道

在上一章节中，我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道，它们在并发编程中各具特点和应用场景。一、通道的基本分类类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

编程新知 2026/1/29 3:25:02

作为测试我们应该关注redis哪些方面

1、功能测试数据结构操作：验证字符串、列表、哈希、集合和有序的基本操作是否正确持久化：测试aof和aof持久化机制，确保数据在开启后正确恢复。事务：检查事务的原子性和回滚机制。发布订阅：确保消息正确传递。 2、性…...

编程新知 2025/11/1 2:00:51