当前位置: 首页 > news >正文

Python正则表达式处理中日韩字符过滤全解析

Python正则表达式处理中日韩字符过滤全解析

一、核心原理:Unicode字符范围定位

中日韩字符在Unicode中的分布:

  • 中文:\u4e00-\u9fff(基本区) + \u3400-\u4dbf(扩展A区) + \U00020000-\U0002a6df(扩展B区)
  • 日文:
    • 平假名:\u3040-\u309f
    • 片假名:\u30a0-\u30ff
    • 汉字:\u4e00-\u9fbf(与中文重叠)
  • 韩文:\uac00-\ud7a3(谚文音节) + \u1100-\u11ff(古韩文字母)

二、基础过滤模板

1. 简单替换示例

替换日文韩文,保留中文

import re text = "混合文本:Hello 你好 こんにちは 안녕하세요"
pattern = r"[\u3040-\u30ff\uac00-\ud7a3]"
result = re.sub(pattern, "[CJK]", text, flags=re.UNICODE)
print(result)  # 混合文本:Hello 你好 [CJK][CJK][CJK][CJK][CJK] [CJK][CJK][CJK][CJK][CJK]

2. 保留空格优化版

# 使用正向前瞻断言保留空格
pattern = r"([\u3040-\u30ff\uac00-\ud7a3]+|[\u30a0-\u30ff])"
result = re.sub(pattern, "[CJK]", text, flags=re.UNICODE)print(result)  #  混合文本:Hello 你好 [CJK] [CJK]

三、工业级解决方案

1. 多层级过滤系统

def cjk_filter(text, replace_char="", mode="strict"):cjk_ranges = {"basic": r"[\u3040-\u30ff\uac00-\ud7a3]","extended": r"[\u3400-\u4dbf\U00020000-\U0002a6df\u3040-\u30ff\uac00-\ud7a3\u1100-\u11ff]"}pattern = re.compile(cjk_ranges[mode], flags=re.UNICODE)return pattern.sub(replace_char, text)# 使用示例
text = "2025新版日汉字:峠 働 鱪 ♨"
print(cjk_filter(text, mode="extended"))  # 输出:2025新版日汉字:  ♨ 

2. 上下文感知过滤

# 保留英文与CJK混合词中的字母
def smart_filter(text):return re.sub(r"(?<![a-zA-Z])[\u3040-\u30ff\uac00-\ud7a3]+(?![a-zA-Z])","",text)text = "Python3.12新增了「こんにちは 」功能"
print(smart_filter(text))  # 输出:Python3.12新增了「」功能

四、性能优化方案

1. 预编译正则表达式

# 百万级文本处理提速方案
class CJKProcessor:def __init__(self):self.pattern = re.compile(r"[\u3040-\u30ff\uac00-\ud7a3]+",flags=re.UNICODE)def process(self, text):return self.pattern.sub("[CJK]", text)processor = CJKProcessor()
print(processor.process("批量处理测试:こんにちは"))  # 输出:批量处理测试:[CJK]

五、特殊场景处理

1. 带注音字符处理

# 过滤日语振假名(如:漢字󠄀)
text = "振り仮名付き: 漢󠄁字"
result = re.sub(r"[\u3040-\u30ff](\uDB40[\uDC00-\uDFFF])?", "", text 
)
print(result)  # 输出:振り仮名付き: 

2. 异体字筛选

# 保留标准中文,过滤日式汉字
def filter_variants(text):jp_kanji = r"[亜囲亙悪圧]"return re.sub(rf"({jp_kanji}|[\u3040-\u30ff])","",text)text = "日本汉字:亜 圧 vs 中文汉字:亚 压"
print(filter_variants(text))  # 输出:日本汉字:  vs 中文汉字:亚 压

六、可视化调试方案

1. 匹配高亮显示


def debug_cjk(text):highlighted = re.sub(r"([\u4e00-\u9fff\u3040-\u30ff\uac00-\ud7a3])",r"\033[31m\1\033[0m",text)print(highlighted)debug_cjk("调试示例:안녕하세요 こんにちは")
# 终端显示:调试示例:[红色]안녕하세요 [红色]こんにちは 

七、常见问题排查

1. 遗漏字符问题

  • 现象:部分韩文字符未被过滤
  • 解决方案:扩展韩文范围至\uac00-\ud7a3(现代韩文) + \u1100-\u11ff(古韩文)

2. 性能瓶颈分析

# 测试正则表达式性能 
import timeit 
setup = '''
import re 
text = "测试" * 100000 
pattern = re.compile(r'[\u4e00-\u9fff]')
'''
print(timeit.timeit('pattern.sub("", text)', setup, number=100))
# 输出:0.87秒(1亿次替换/分钟)

通过这种系统化的过滤方案,可应对以下场景:

  • 🔍 国际化网站的敏感词过滤
  • 📊 多语言混合数据的清洗
  • 🔒 用户输入的安全审查
  • 📚 古籍文献的数字化处理

相关文章:

Python正则表达式处理中日韩字符过滤全解析

Python正则表达式处理中日韩字符过滤全解析 一、核心原理&#xff1a;Unicode字符范围定位 中日韩字符在Unicode中的分布&#xff1a; 中文&#xff1a;\u4e00-\u9fff&#xff08;基本区&#xff09; \u3400-\u4dbf&#xff08;扩展A区&#xff09; \U00020000-\U0002a6df…...

Zabbix 7.2实操指南:基于OpenEuler系统安装Zabbix 7.2

原文出处&#xff1a;乐维社区 部署环境 openEuler 22.03 LTS PHP 8.0 Apache Mysql 8.0 MySQL数据库 6.0 以上版本需要安装mysql8.0以上版本的数据库&#xff08;以mysql为例子&#xff09;。 欧拉系统自带 mysql8.0 的源&#xff0c;无需要安装额外的源。 安装mysql …...

扩展阅读-Elasticsearch 通过索引阻塞实现数据保护深入解析

目录 前言 1、索引阻塞的种类 2、什么时候使用阻塞&#xff1f; 场景1&#xff1a;进行系统维护场景。 场景2&#xff1a;保护数据不被随意更改场景。 场景3&#xff1a;优化资源使用的场景。 场景4&#xff1a;遵守安全规则场景。 3、添加索引阻塞API 4、解除设置 AP…...

SpringMVC重定向接口,参数暴露在url中解决方案!RedirectAttributes

OK&#xff0c;首先描述下业务场景&#xff0c;终端数量限制登录 1.首先访问项目login的get接口 2.输入账号密码点击登录后&#xff0c;会请求login的POST接口 3.后台对终端数量逻辑处理不允许登录跳回到登录页面 4.因代码原因需在后台进行多次重定向接口&#xff0c;最后跳…...

硬件学习笔记--46 电能表影响量试验梳理

目录 1.电流和电压电路中的谐波影响试验 1&#xff09;电流和电压电路中谐波——第5次谐波试验 2&#xff09;电流和电压电路中谐波——方顶波波形试验 3&#xff09;​​​​​​​电流和电压电路中谐波——尖顶波波形试验 4&#xff09;​​​​​​​电流和电压电路中谐…...

大数据技术之HBase操作归纳

HBase基本命令总结表(实际操作方式) 进入Hbase&#xff1a;hbase shell 方式一&#xff1a;命令行窗口来操作HBase 1.通用性命令 version 版本信息 status 查看集群当前状态 whoami 查看登入者身份 help 帮助2.HBase DDL操作(对象级操作) 2.1、namespace命名空间(相当…...

后端Java Stream数据流的使用=>代替for循环

API讲解 对比 示例代码对比 for循环遍历 package cn.ryanfan.platformback.service.impl;import cn.ryanfan.platformback.entity.Algorithm; import cn.ryanfan.platformback.entity.AlgorithmCategory; import cn.ryanfan.platformback.entity.DTO.AlgorithmInfoDTO; im…...

遗传算法与深度学习实战系列,自动调优深度神经网络和机器学习的超参数

遗传算法与深度学习实战系列文章 目录 进化深度学习生命模拟及其应用生命模拟与进化论遗传算法中常用遗传算子遗传算法框架DEAPDEAP框架初体验使用遗传算法解决N皇后问题使用遗传算法解决旅行商问题使用遗传算法重建图像遗传编程详解与实现粒子群优化详解与实现协同进化详解与…...

体验用ai做了个python小游戏

体验用ai做了个python小游戏 写在前面使用的工具2.增加功能1.要求增加视频作为背景。2.我让增加了一个欢迎页面。3.我发现中文显示有问题。4.我提出了背景修改意见&#xff0c;欢迎页面和结束页面背景是视频&#xff0c;游戏页面背景是静态图片。5.提出增加更多游戏元素。 总结…...

谷粒商城—分布式高级②.md

认证服务 1. 环境搭建 创建gulimall-auth-server模块,导依赖,引入login.html和reg.html,并把静态资源放到nginx的static目录下 2. 注册功能 (1) 验证码倒计时 //点击发送验证码按钮触发下面函数 $("#sendCode").click(function () {//如果有disabled,说明最近…...

阿里云ECS命名规则解析与规格选型实战指南

阿里云ECS实例的命名规则通常采用 “ecs.{实例族}.{规格大小}” 的结构,各部分含义如下: 命名字段说明ecs代表“弹性计算服务”(Elastic Compute Service)。{实例族}标识实例的用途和代次(如 g7、c7、r7),由字母+数字组成。{规格大小}表示实例的资源配置(如 large、2xl…...

Spring MVC 的核心以及执行流程

Spring MVC的核心 Spring MVC是Spring框架中的一个重要模块&#xff0c;它采用了经典的MVC&#xff08;Model-View-Controller&#xff09;设计模式。 MVC是一种软件架构的思想&#xff0c;它将软件按照模型&#xff08;Model&#xff09;、视图&#xff08;View&#xff09;…...

ai json处理提示词

在解析JSON数据时&#xff0c;提示词的设计需要明确任务目标、输入格式以及期望的输出格式。以下是一些常用的提示词示例&#xff0c;适用于不同的JSON解析场景&#xff1a; 1. 提取特定字段 用于从JSON中提取特定字段的值。 示例&#xff1a; 从以下JSON数据中提…...

2025开源数据工程全景图

作者 | Alireza Sadeghi 译自Practical Data Engineering 2025年开源数据工程领域呈现蓬勃创新与生态重构的双重态势&#xff0c;九大技术赛道在实时化、轻量化与云原生架构驱动下加速演进。一份来自外网的2025年开源数据工程全景图全面地展示了这一领域的发展态势与走向&…...

438. 找到字符串中所有字母异位词(LeetCode 热题 100)

题目来源&#xff1a; 438. 找到字符串中所有字母异位词 - 力扣&#xff08;LeetCode&#xff09; 题目内容&#xff1a; 给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词的子串&#xff0c;返回这些子串的起始索引。不考虑答案输出的顺序。 示例 1: 输入: s &…...

c++标准io与线程,互斥锁

封装一个 File 类&#xff0c; 用有私有成员 File* fp 实现以下功能 File f "文件名" 要求打开该文件 f.write(string str) 要求将str数据写入文件中 string str f.read(int size) 从文件中读取最多size个字节&#xff0c; 并将读取到的数据返回 析构函数 #…...

java简单实现请求deepseek

1.deepseek的api创建 deepseek官网链接 点击右上API开放平台后找到API keys 创建APIkey&#xff1a; 注意&#xff1a;创建好的apikey只能在创建时可以复制&#xff0c;要保存好 2.java实现请求deepseek 使用springbootmaven 2.1 pom文件&#xff1a; <?xml version&…...

Ext系列文件系统 -- 磁盘结构,磁盘分区,inode,ext文件系统,软硬链接

目录 1.理解硬盘 1.1 磁盘、服务器、机柜、机房 1.2 磁盘物理结构 1.3 磁盘的存储结构 1.4 磁盘的逻辑结构 1.4.1 理解逻辑结构 1.4.2 真实过程 1.5 CHS地址和LBA地址的相互转换 2.引入文件系统 2.1 “块”概念 2.2 “分区”概念 2.3 “inode”概念 3.ext2文件系…...

PyTorch Tensor 形状变化操作详解

PyTorch Tensor 形状变化操作详解 在深度学习中&#xff0c;Tensor 的形状变换是非常常见的操作。PyTorch 提供了丰富的 API 来帮助我们调整 Tensor 的形状&#xff0c;以满足模型输入、计算或数据处理的需求。本文将详细介绍 PyTorch 中常见的 Tensor 形状变换操作&#xff0…...

文字识别软件cnocr学习笔记

• 安装 pip install cnocr • 基础的使用方法 首次运行会下载安装模型&#xff0c;如果没有梯子&#xff0c;会报错&#xff1a; 在网络上查找cnocr的模型资源&#xff0c;并下载到本地。https://download.csdn.net/download/qq_33464428/89514689?ops_request_misc%257B%2…...

如何将Spotify歌单永久保存到本地音乐库?

如何将Spotify歌单永久保存到本地音乐库&#xff1f; 【免费下载链接】spotify-downloader Download your Spotify playlists and songs along with album art and metadata (from YouTube if a match is found). 项目地址: https://gitcode.com/gh_mirrors/spotifydownlo/sp…...

Weka机器学习工具:从入门到高级应用指南

1. Weka机器学习工作台概述Weka&#xff08;Waikato Environment for Knowledge Analysis&#xff09;是新西兰怀卡托大学开发的一套开源机器学习工具集&#xff0c;它提供了一个图形化界面和Java API&#xff0c;让用户无需编写代码就能完成数据预处理、分类、回归、聚类、关联…...

AMD Ryzen SMU调试工具完全指南:从入门到精通的硬件调优秘籍

AMD Ryzen SMU调试工具完全指南&#xff1a;从入门到精通的硬件调优秘籍 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: http…...

记一次由「运营商中间件篡改HTTP响应」导致的JSON解析错误

记一次由「运营商中间件篡改HTTP响应」导致的JSON解析错误 在移动互联网时代&#xff0c;HTTP请求与响应是客户端与服务端通信的基础。某些情况下&#xff0c;运营商的中间件可能会对HTTP响应进行篡改&#xff0c;导致开发者难以预料的问题。最近&#xff0c;我在开发一个移动…...

终极指南:用MAA助手3步实现明日方舟全自动刷图,告别重复劳动

终极指南&#xff1a;用MAA助手3步实现明日方舟全自动刷图&#xff0c;告别重复劳动 【免费下载链接】MaaAssistantArknights 《明日方舟》小助手&#xff0c;全日常一键长草&#xff01;| A one-click tool for the daily tasks of Arknights, supporting all clients. 项目…...

Equalizer APO:Windows系统级音频均衡器的完整使用指南

Equalizer APO&#xff1a;Windows系统级音频均衡器的完整使用指南 【免费下载链接】equalizerapo Equalizer APO mirror 项目地址: https://gitcode.com/gh_mirrors/eq/equalizerapo 你是否曾经因为Windows系统的音频输出平淡无奇而感到困扰&#xff1f;无论是游戏中的…...

Cgo 回调中处理 const char- 参数的正确方法

本文详解如何在 Cgo 中为带 const char* 参数的 C 回调函数编写兼容的 Go 导出函数&#xff0c;解决因 const 修饰符导致的类型冲突编译错误&#xff0c;并提供安全、可移植的实践方案。 本文详解如何在 cgo 中为带 const char* 参数的 c 回调函数编写兼容的 go 导出函数&…...

【AI面试八股文 Vol.1.1 | 专题10】节点间通信:State传递vs Channel传递

面试官抬了一下眼皮&#xff0c;问了一句看似简单的话&#xff1a;"说说你对State传递和Channel传递的理解&#xff0c;两者在LangGraph里是怎么配合的&#xff1f;"你张了张嘴&#xff0c;感觉答案在嘴边但又有点模糊。 最后憋出来的回答是"State是共享状态&a…...

深入TMS320F28335的PIE模块:如何管理96个中断源并避免优先级冲突?

深入解析TMS320F28335的PIE中断管理&#xff1a;实战中的优先级配置与冲突规避 在电机控制和电力电子系统中&#xff0c;实时性和可靠性往往是核心诉求。当PWM模块正在生成精确的脉冲波形、ADC在采集电流反馈、CAP模块同时监测编码器信号时&#xff0c;这些外设产生的中断请求可…...

Path of Building终极指南:5分钟掌握流放之路最强离线构建工具

Path of Building终极指南&#xff1a;5分钟掌握流放之路最强离线构建工具 【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding Path of Building&#xff08;简称PoB&#xf…...