当前位置: 首页 > news >正文

一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。

Unicode验证网站:
unicode转换网站

目的:转换下面除ASCII字符外的字符为Unicode字符👇

🔥🎱é🕐  19h📱mação nos stories!link

一、encode方法

看过网上的一些技术文,像以下方法

text = "你好世界"
escaped_text = text.encode('unicode-escape')
print(escaped_text) # b'\\u4f60\\u597d\\u4e16\\u754c'

上面的确实可以转换,但表情却不行,比如"🔥🎱",转换之后是\\U0001f525\\U0001f3b1
去掉转义符号测试一下,没办法转换

而我们试试网站自身的编码,同样也是乱码,不能正常解析出来

这个方法显然不管用

二、高代理和低代理对处理方法

为了正确处理表情符号(Unicode Supplementary Characters),处理 Unicode 补充字符(Supplementary Characters),我们需要特别处理这些高代理和低代理对,这些字符的编码范围在 0x10000 到 0x10FFFF 之间,通常用于表示表情符号等。

高代理和低代理对(surrogate pairs)是 Unicode 用来编码超出基本多文种平面的字符的方法。基本多文种平面(BMP, Basic Multilingual Plane)包含从 0x0000 到 0xFFFF 的字符,而超出这个范围的字符称为补充字符(Supplementary Characters),它们的代码点范围是从 0x10000 到 0x10FFFF。

由于 UTF-16 编码格式只能表示 0x0000 到 0xFFFF 范围内的字符,为了表示超出这个范围的字符,Unicode 引入了代理对的概念。代理对由两个 16 位的代码单元组成:

  • 高代理单元(High Surrogate):范围是 0xD800 到 0xDBFF,包含 1024 个代码点。

  • 低代理单元(Low Surrogate):范围是 0xDC00 到 0xDFFF,也包含 1024 个代码点。

由于 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)

补充字符通常为表情符号,编码值一般大于 0xFFFF(即 65535)

补充字符的处理

  1. 检查字符是否是补充字符:
if code > 0xFFFF:

补充字符的编码值大于 0xFFFF(即 65535)。

  1. 计算高代理:

high_surrogate = 0xD800 + ((code - 0x10000) >> 10)

code - 0x10000:将编码值减去 0x10000,因为补充字符的编码范围是从 0x10000 开始的。
(code - 0x10000) >> 10:将结果右移 10 位,得到高 10 位的值。
0xD800 + ...:将高 10 位的值加上 0xD800(高代理范围的起始值)得到高代理的编码值。
3. 计算低代理:

low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)

code - 0x10000:将编码值减去 0x10000。
(code - 0x10000) & 0x3FF:将结果与 0x3FF 做按位与操作,得到低 10 位的值。
0xDC00 + ...:将低 10 位的值加上 0xDC00(低代理范围的起始值)得到低代理的编码值。
返回高代理和低代理对的 Unicode 转义表示:

return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'

\\u{high_surrogate:04x}:将高代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
\\u{low_surrogate:04x}:将低代理的编码值格式化为 4 位的十六进制数,并添加 Unicode 转义前缀 \u。
通过这种方式,我们可以将补充字符正确地转换为 Unicode 转义表示,保证它们在 JSON 文件中能以 \uXXXX\uXXXX 的形式表示。

处理非ASCII字符:

对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。

elif code > 127:return f'\\u{code:04x}'

保留 ASCII 字符:

对于 ASCII 字符(编码值小于等于 127),则直接返回字符本身。

最终代码

unicode_str = '🔥🎱é🕐  19h📱mação nos stories!link'def encode_non_ascii_chars(input_str):def to_unicode_escape(char):code = ord(char)# 处理补充字符(补充字符,通常是表情符号)# 补充字符的 Unicode 编码范围在 0x10000 到 0x10FFFF 之间。因为 UTF-16 不能直接表示这些字符,所以需要使用代理对(surrogate pairs)if code > 0xFFFF:  # Supplementary charactershigh_surrogate = 0xD800 + ((code - 0x10000) >> 10)low_surrogate = 0xDC00 + ((code - 0x10000) & 0x3FF)return f'\\u{high_surrogate:04x}\\u{low_surrogate:04x}'# 处理非ASCII字符# 对于其他非ASCII字符(编码值大于 127 且小于等于 0xFFFF),直接格式化为 \uXXXX。elif code > 127:  # non-ASCIIreturn f'\\u{code:04x}'# 对于 ASCII 字符(编码值小于等于 127),直接返回字符本身else:return charreturn ''.join(to_unicode_escape(char) for char in input_str)encoded_str = encode_non_ascii_chars(unicode_str)
print(encoded_str) # \ud83d\udd25\ud83c\udfb1\u00e9\ud83d\udd50  19h\ud83d\udcf1ma\u00e7\u00e3o nos stories!link

可正常转换

推荐文章:

(2024 最新 GPT4、GPT4.0 升级教程)ChatGPT 升级银行卡被拒绝,教你 5 分钟快速升级 chatgpt4

相关文章:

一种别样的Unicode Python编码方式,完美转换表情和阿拉伯语

我们可能有时候在处理字符时需要处理到非ASCII的字符,比如将表情、阿拉伯语转换为Unicode字符,从而避免在传输时会出现乱码的情况。 Unicode验证网站: unicode转换网站 目的:转换下面除ASCII字符外的字符为Unicode字符&#x1f…...

小白的晋升之路

编程小白如何成为大神?大学新生的最佳入门攻略 编程已成为当代大学生的必备技能,但面对众多编程语言和学习资源,新生们常常感到迷茫。如何选择适合自己的编程语言?如何制定有效的学习计划?如何避免常见的学习陷阱&…...

WebLogic:CVE-2017-10271[XML反序列化]

漏洞成因 Weblogic的WLS Security组件对外提供 webservice服务 其中使用了XMLDecoder来 解析用户传入的XML数据 在解析的过程中出现 反序列化漏洞 ,导致可执行任意命令 原理:https://xz.aliyun.com/t/10172 靶场部署 1.进入靶场目录 cd /vulhub-maste…...

Day13--JavaWeb学习之Servlet后端渲染界面

基于Day12中登录页面实现的修改,这里实现的是如果登录成功,跳到LoginSuccess页面中展示后端查询到数据库中的信息,并实现在浏览器实现插入数据和删除数据(mybaits)。 当输入账号密码正确后进入LoginSuccess页面&#x…...

【MySQL】全面剖析索引失效、回表查询与索引下推

1.索引失效的情况 以tb_user表举例,id为主键索引、name和phone字段上建立了一个普通索引,name和phone均为varchar类型。 索引列运算 当在 WHERE 子句或 JOIN 子句中对列使用函数或表达式时,索引会失效。 执行以下语句,可以发现执…...

1、爬⾍概述

1. 什么是爬虫? 爬虫(Web Crawler)是一种通过编写程序自动访问并提取互联网上数据的技术。爬虫可以帮助我们在浏览网页时自动收集和保存一些有用的数据,例如图片、视频和文本信息。简单来说,爬虫就是自动化的浏览器。…...

科普文:微服务之分布式链路追踪SkyWalking单点服务搭建

1. 概述 1.1 概念 SkyWalking 是什么? SkyWalking 极简入门 | Apache SkyWalking FROM Apache SkyWalking 分布式系统的应用程序性能监视工具,专为微服务、云原生架构和基于容器(Docker、K8s、Mesos)架构而设计。 提供分布式追…...

R 语言学习教程,从入门到精通,R的安装与环境的配置(3)

1、R 基础语法 一门新的语言学习一般是从输出 “Hello, World!” 程序开始&#xff0c;R 语言的 “Hello, World!” 程序代码如下&#xff1a; myString <- "Hello, World!" print ( myString )以上示例将字符串 “Hello, World!” 赋值给 myString 变量&#x…...

【Pageadmin】之cms漏洞

方法一&#xff1a;上传模块拿webshell 首页如下 第一步&#xff1a;访问admin/login&#xff0c;登录后台 第二步&#xff1a;使用哥斯拉工具生成payload 然后自动生成了一个asp的payload 第三步&#xff1a;上传文件 将asp文件压缩为压缩包&#xff0c;上传。 解压访问1.asp…...

AIGC重塑设施农业:让农事操作更智能,生产效率更高

设施农业是现代农业的重要组成部分,随着人工智能等前沿技术的快速发展,这个领域迎来了新的变革机遇。尤其是大语言模型(Large Language Model,LLM)技术的崛起,其强大的语言理解和知识汇聚能力,为设施农业智能化发展带来了新的想象空间。本文将深入探讨大模型技术在设施农业生产…...

netty应用-手写RPC

文章目录 手写RPC之案例定位与通信过程介绍RPC框架案例定位服务端与客户端架构通信过程1. 服务注册与发现2. 请求序列化与传输3. 请求处理与响应4. 响应反序列化与结果处理实现细节1. 服务端2. 客户端技术选型关键挑战总结手写RPC之请求响应通信协议定制协议结构示例消息头格式…...

私域流量变迁与精细移动化趋势下的AI智能名片小程序源码应用探索

摘要&#xff1a;随着移动互联网技术的飞速发展&#xff0c;私域流量的价值日益凸显&#xff0c;成为企业营销战略的重要组成部分。私域流量的精细化和移动化趋势不仅改变了传统的营销格局&#xff0c;也为新兴技术的应用提供了广阔空间。本文深入探讨了私域流量的变迁历程&…...

数据结构初阶之排序(下)

前言 上一期内容中我们了解了基本排序中的插入与选择排序&#xff0c;今天我将为大家带来剩下的几种排序算法 快速排序 快速排序是Hoare于1962年提出的⼀种⼆叉树结构的交换排序⽅法&#xff0c;其基本思想为&#xff1a;任取待排序元素序列中的某元素作为基准值&#xff0c;…...

RGB图像的读取与保存

目录 1、安装imageio 2、读取照片 3、保存照片 4、resize 5、示例代码 1、安装imageio pip install imageio -i https://pypi.tuna.tsinghua.edu.cn/simple 2、读取照片 import imageio img imageio.imread(image_path) 3、保存照片 import imageio import numpy as…...

江协科技51单片机学习- p35 AD/DA模拟/数字采样

&#x1f680;write in front&#x1f680; &#x1f50e;大家好&#xff0c;我是黄桃罐头&#xff0c;希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流 &#x1f381;欢迎各位→点赞&#x1f44d; 收藏⭐️ 留言&#x1f4dd;​…...

C#裁剪图像的几种方法总结

前言 我们在上位机软件开发过程中经常需要裁剪图像&#xff0c;本文就是对c#中常见的裁剪图像方法进行总结。 1、克隆 直接调用Bitmap的Clone函数&#xff0c;然后指定需要裁剪的区域即可裁剪图像&#xff0c;该种方法不会损失精度 public static Bitmap CropImage_Clone(Bi…...

被遗忘的哑终端 —— 键盘键位演变的启发者

注&#xff1a;机翻&#xff0c;未校对。 The Forgotten World of Dumb Terminals 被遗忘的哑终端世界 A quick journey through the lost age of “glass teletypes.” 快速穿越失落的“玻璃电传打字机”时代。 From the earliest days of digital computers, researchers o…...

APACHE安装与应用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…...

预警器件控制思考

预警器件控制思考 最小示例思想 当读取到环境信息与环境阈值的时候, 我们预警系统就要根据这些信息做出判断,是否要启动器件。 最简单的就是&#xff0c; 举温度temp的例子, temp(温度)与temp_th(阈值), 通过判断, 得出是否要启动器件. 如果在一段时间内, 一直是环境异常, 我…...

[Day 43] 區塊鏈與人工智能的聯動應用:理論、技術與實踐

區塊鏈的隱私保護機制 隨著區塊鏈技術的廣泛應用&#xff0c;隱私保護成為了一個至關重要的問題。區塊鏈以其去中心化和透明性的特點&#xff0c;為數據管理和交易提供了新的方法。然而&#xff0c;這些特點也帶來了新的挑戰&#xff0c;尤其是在隱私保護方面。本文將深入探討…...

重磅发布!2026网络安全六大趋势,决定企业安全布局

安全牛重磅发布&#xff01;2026 网络安全六大趋势&#xff0c;决定企业安全布局 《2026年网络安全趋势研究报告》&#xff0c;立足 2025 年网络安全行业发展背景&#xff0c;分析了当下行业核心特征与挑战&#xff0c;预判 2026 年网络安全六大核心技术发展趋势&#xff0c;并…...

从 AI 电影到小说:《凰标》延续《第一大道》的东方梦@凤凰标志

科技为翼&#xff0c;文脉为魂&#xff1b; 大道开路&#xff0c;凰标定局。一、时代之问&#xff1a;当AI沦为流量收割机&#xff0c;谁来守护东方文脉&#xff1f; AI 正以惊人的速度渗透文娱产业&#xff0c;却多数被资本用作「快餐内容」的流水线。 海棠山铁哥反其道而行—…...

从‘前后台’到‘多任务’:用UCOSIII官方例程理解RTOS内核如何接管你的单片机

从裸机到实时操作系统&#xff1a;UCOSIII内核如何重构单片机开发思维 第一次接触实时操作系统(RTOS)的嵌入式开发者&#xff0c;往往会被那些看似复杂的任务调度、优先级机制搞得一头雾水。我们习惯了在main函数里写一个无限循环&#xff0c;在中断服务例程(ISR)里处理紧急事件…...

告别语法冲突!用SLR分析法搞定编译原理中的移进/归约难题(附FOLLOW集实战)

告别语法冲突&#xff01;用SLR分析法搞定编译原理中的移进/归约难题&#xff08;附FOLLOW集实战&#xff09; 当你第一次尝试构建LR(0)分析表时&#xff0c;是否遇到过这样的报错&#xff1a;"状态I2存在移进/归约冲突"&#xff1f;这种既想移进又想归约的矛盾&…...

FPGA动态电压调节技术与PMBus控制路径设计

1. FPGA动态电压调节技术概述 在当今计算密集型应用中&#xff0c;FPGA因其可重构性和并行处理能力而广受欢迎&#xff0c;但随之而来的功耗问题也日益突出。动态电压调节技术(Dynamic Voltage Scaling, DVS)作为一种有效的功耗优化手段&#xff0c;允许系统根据工作负载实时调…...

STK Target Sequence实战:不写一行代码,30分钟搞定卫星初始轨道参数优化

STK Target Sequence实战&#xff1a;不写一行代码&#xff0c;30分钟搞定卫星初始轨道参数优化 在航天任务规划中&#xff0c;轨道设计往往是项目初期最耗时的环节之一。传统方法需要工程师反复调整参数、运行仿真、分析结果&#xff0c;整个过程可能持续数小时甚至数天。而ST…...

别再硬编码数据了!用QAbstractTableModel+QTableView打造你的第一个Qt桌面表格应用(附完整源码)

从零构建Qt桌面表格应用&#xff1a;实战学生信息管理系统 在桌面应用开发领域&#xff0c;数据展示与交互一直是核心需求。无论是企业内部的员工管理系统&#xff0c;还是学校里的成绩统计工具&#xff0c;一个高效、美观的表格界面往往能极大提升工作效率。对于C开发者而言&a…...

神经渲染新范式:体素网格技术全解析与实战指南

神经渲染新范式&#xff1a;体素网格技术全解析与实战指南 引言 在追求极致真实感与实时交互的3D数字世界中&#xff0c;神经渲染技术正掀起一场革命。其中&#xff0c;神经体素网格作为神经辐射场&#xff08;NeRF&#xff09;与显式体素表示融合的产物&#xff0c;以其在高…...

从 LLM 到 Agent Skill —— 一文打通 AI 核心概念底层逻辑

从 LLM 到 Agent Skill —— 一文打通 AI 核心概念底层逻辑你是否经常听到 LLM、Token、Prompt、RAG、Agent 这些词&#xff0c;却总觉得一知半解&#xff1f; 别担心&#xff0c;这篇文章用最通俗的方式&#xff0c;把这10个AI核心概念一次性讲清楚。1. LLM —— 大 Language …...

PyVideoTrans终极指南:5分钟掌握视频翻译与配音的完整流程

PyVideoTrans终极指南&#xff1a;5分钟掌握视频翻译与配音的完整流程 【免费下载链接】pyvideotrans Translate the video from one language to another and embed dubbing & subtitles. 项目地址: https://gitcode.com/gh_mirrors/py/pyvideotrans PyVideoTrans是…...