C/C++编码问题研究
文章目录
- 一、Unicode字符集与U8/U16/U32编码
- 二、编码
- 1. 占字节数
- 2. ASCII、GB2312、GBK、GB18030 以及 UTF8 的关系
- 3. BOM
- 4. UTF-8的存储实现
- 三、编译器字符集设置
- 1. GCC
- 语法
- Example
- 2. MSVC
- 语法
- Example
- 三、wchar_t
- 五、编码转换函数
- 六、代码 & 实践
- 1. UTF8与UTF16、UTF32的转换
- 2. GBK与UTF16的转换
- 七、参考资料 / 辅助网站
一、Unicode字符集与U8/U16/U32编码
Unicode 是国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换
Unicode 字符集的编码范围是 0x0000 - 0x10FFFF , 可以容纳一百多万个字符, 每个字符都有一个二进制数值和它对应,这个数值称为 码点 , 比如:汉字 “中” 的 码点是 0x4E2D, 大写字母 A 的码点是 0x41, 具体字符对应的 Unicode 编码可以查询 Unicode字符编码表
UTF-8、UTF-16、UTF-32编码是对Unicode字符集的实现,UTF的全称是Unicode Transformation Format,差别在于存储实现不同。
一个Unicode字符最多需要4个字节存储,但是如果每个字符都用4个字节存储,就会浪费很多空间,所以出现了U8、U16、U32的差异。
- UTF-8将Unicode字符按照变长存储,占1~6个字节;
- UTF-16将Unicode字符按照2个或4个字节存储;
- UTF-32将Unicode字符全部按照4个字节存储;
二、编码
1. 占字节数
注意ANSI和ASCII,ANSI是对ASCII的扩展。
不同地区对ANSI进行了不同的扩展,在中文windosw下,ANSI其实就代表GBK/GB2312/GB18030。在其他国家,比如日本就不一样了。
- ASCII字符占1个字节;
- U16一个汉字占2个字节;
- U32一个汉字占4个字节;
- U8常用汉字占3个字节;
- GBK和GB2312 每个汉字都占两个字节;
- GB18030 是变长多字节字符集,每个字或字符可以由一个,两个或四个字节组成;
2. ASCII、GB2312、GBK、GB18030 以及 UTF8 的关系

注意,UTF16、UTF32并不兼容ASCII,因为它们没有单字节编码。
3. BOM
BOM,全称Byte Order Mark,除了表示字节序外,还可以区分U8、U16、U32。
| 编码 | 16进制表示 | 10进制表示 | 解释为 Windows-1252 的字节 |
|---|---|---|---|
| UTF-8 | EF BB BF | 239 187 191 |  |
| UTF-16 (BE) | FE FF | 254 255 | þÿ |
| UTF-16 (LE) | FF FE | 255 254 | ÿþ |
| UTF-32 (BE) | 00 00 FE FF | 0 0 254 255 | ^@^@þÿ (^@ is the null character) |
| UTF-32 (LE) | FF FE 00 00 | 255 254 0 0 | ÿþ^@^@ (^@is the null character) |
(表格引自维基百科Byte order mark)
Unicode 标准允许UTF-8中的 BOM ,但不要求或建议使用它。字节顺序在 UTF-8 中没有意义,因此它在 UTF-8 中的唯一用途是在开始时发出信号,表明文本流是用 UTF-8 编码的,或者已转换为 UTF-8来自包含可选 BOM 的流。该标准也不建议删除 BOM,这样编码之间的往返就不会丢失信息,并且依赖它的代码可以继续工作。
(引自维基百科Byte order mark)
也就是说,windows下U8也可以用BOM,但是在其他平台不一定能被识别(GCC似乎也开始支持U8 BOM)。
4. UTF-8的存储实现
码点 ↔ UTF-8 的转换
| 第一个码点 | 最后一个码点 | 字节 1 | 字节 2 | 字节 3 | 字节 4 |
|---|---|---|---|---|---|
| U+0000 | U+007F | 0xxxxxxx | —— | —— | —— |
| U+0080 | U+07FF | 110xxxxx | 10xxxxxx | —— | —— |
| U+0800 | U+FFFF | 1110xxxx | 10xxxxxx | 10xxxxxx | —— |
| U+10000 | U+10FFFF | 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |
还有5、6字节的,维基百科没有列出,但Linux手册的utf-8可以查询到。
(表格引自维基百科UTF-8)
提醒:码点是字符在字符集中对应的二进制数值。
可以看到,当字符只需要一个字节就能表示时,UTF-8就只用一个字节存储,而且最高bit是0,这与ASCII也兼容。
需要几个字节编码,那么第一个字节的开头就有多少个连续的1,其余字节开头都用10表示( 我也不知道为什么)。
所以UTF-8下,
1个字节只能表示2^7个字符;
2个字节只能表示2^11个字符;
3个字节只能表示2^16个字符;
4个字节只能表示2^21个字符。
三、编译器字符集设置
1. GCC
-finput-charset=charsetSet the input character set, used for translation from the character set of the input file to the sourcecharacter set used by GCC. If the locale does not specify, or GCC cannot get this information from thelocale, the default is UTF-8. This can be overridden by either the locale or this command-line option.Currently the command-line option takes precedence if there's a conflict. charset can be any encodingsupported by the system's "iconv" library routine.-fexec-charset=charsetSet the execution character set, used for string and character constants. The default is UTF-8. charsetcan be any encoding supported by the system's "iconv" library routine.-fwide-exec-charset=charsetSet the wide execution character set, used for wide string and character constants. The default is UTF-32or UTF-16, whichever corresponds to the width of "wchar_t". As with -fexec-charset, charset can be anyencoding supported by the system's "iconv" library routine; however, you will have problems with encodingsthat do not fit exactly in "wchar_t".
语法
-finput-charset=charset
-fexec-charset=charset
Example
-finput-charset=gb2312
-finput-charset=gbk
-fexec-charset=utf-8
2. MSVC
源字符集是用于解释程序源文本的编码。它被转换为内部表示形式,用作编译前预处理阶段的输入。然后,内部表示形式将转换为执行字符集,以将字符串和字符值存储在可执行文件中。
当源文件包含基本源字符集中未表示的字符时,可以设置此选项指定要使用的扩展源字符集。
执行字符集是用于在所有预处理步骤之后输入到编译阶段的程序文本的编码。
该字符集用于编译代码中任何字符串或字符文字的内部表示。
设置此选项可指定当源文件包含基本执行字符集中无法表示的字符时要使用的扩展执行字符集。
(引自MSVC文档/execution-charset,/source-charset)
MSVC还有/validate-charset,详见官方文档。
语法
/source-charset:[IANA_name | .CPID]
/execution-charset:[IANA_name | .CPID]
如果要将源字符集和执行字符集都设置为UTF-8,可以使用
/utf-8*编译器选项作为快捷方式。
相当于/source-charset:utf-8 /execution-charset:utf-8在命令行上。
默认情况下,这些选项中的任何一个都会启用/validate-charset选项。
(该解释来自MSVC文档/execution-charset,/source-charset)
最后,有一个快捷开关
/utf-8,它同时设置了/source-charset:utf-8和/execution-charset:utf-8。
这些命令行选项与旧的#pragma setlocale和#pragma execution-character-set指令不兼容,它们全局应用于所有源文件。
对于停留在较早版本编译器上的用户,最好的选择仍然是使用BOM将源文件保存为UTF-8 (其他答案表明,IDE在保存时可以做到这一点)。编译器将自动检测到这一点,并进行适当的操作。GCC也是如此,他在源文件开始时也接受BOM,而不会窒息而死,因此这种方法在功能上是可移植的。
(引自MSVC++中的源字符集编码规范)
Example
/source-charset:utf-8
/source-charset:.65001
三、wchar_t
这个取决于系统。
wchar_t在Linux默认占4个字节,使用的是U32编码。
wchar_t在Windows默认占2个字节,使用的是U16编码。
Windows下的头文件<tchar.h>,定义了一些列的宽窄自动转换函数,如类型TCHAR、宏_T()和TEXT()。
在定义了_UNICODE宏和UNICODE宏时,会转为wchar_t相应的函数,在未定义时就转为char对应的函数。
windows的一些API也是如此,例如MessageBox()、MessageBoxA()、MessageBoxW()。
为了防止出现差异,需要保证UNICODE宏和_UNCIDEO宏 都定义或都不定义。
五、编码转换函数
- 待办
六、代码 & 实践
1. UTF8与UTF16、UTF32的转换
- 待办
2. GBK与UTF16的转换
- 待办
七、参考资料 / 辅助网站
-
一文读懂Unicode编码原理 - 一个汉字UTF8编码占用多少字节。
-
UTF8、UTF16编解码网站。
-
Codeblocks converting to execution character set: Illegal byte sequence错误解决办法
-
MSVC++中的源字符集编码规范
- /source-charset (Set source character set)
- New Options for Managing Character Sets in the Microsoft C/C++ Compiler
-
gcc中的-finput-charset和-fexec-charset开关
-
彻底搞明白 GB2312、GBK 和 GB18030
-
维基百科Byte order mark
-
GCC Manual
-
UTF8 UTF16 之间的互相转换
-
Unicode、UTF-8、UTF-16 终于懂了
相关文章:
C/C++编码问题研究
文章目录 一、Unicode字符集与U8/U16/U32编码二、编码1. 占字节数2. ASCII、GB2312、GBK、GB18030 以及 UTF8 的关系3. BOM4. UTF-8的存储实现 三、编译器字符集设置1. GCC语法Example 2. MSVC语法Example 三、wchar_t五、编码转换函数六、代码 & 实践1. UTF8与UTF16、UTF3…...
二刷代码随想录|Java版|回溯算法3|子集问题
习题 2.3 子集问题 就是组合过程收集path。就像是代码随想录里说得那样,组合和分割问题就是收集叶子结点,子集问题就是收集每一个节点。 有涉及到同层重复元素的问题。 先排序,后再for循环里处理相同数值跳过。 设置函数内的used。 还可以用…...
mongodb config
windows: 1.同级bin,data,log创建mongo.config文件 dbpathD:\Program\mongodb\data\db logpathD:\Program\mongodb\log\mongo.log logappendtrue #默认启用日志 journaltrue #过滤无用日志信息,调试设置为false quiettrue port2…...
pytorch 实现中文文本分类
🍨 本文为[🔗365天深度学习训练营学习记录博客🍦 参考文章:365天深度学习训练营🍖 原作者:[K同学啊 | 接辅导、项目定制]\n🚀 文章来源:[K同学的学习圈子](https://www.yuque.com/mi…...
【MySQL】聚合函数和内置函数
文章目录 1 :peach:聚合函数:peach:2 :peach:group by子句的使用:peach:3 :peach:内置函数:peach:3.1 :apple:日期函数:apple:3.2 :apple:字符串函数:apple:3.3 :apple:数学函数:apple: 4 :peach:其它函数:peach: 1 🍑聚合函数🍑 函数说明COUNT([DISTIN…...
python第五节:集合set(4)
集合其他方法: len(s) set 的长度 x in s x 是否是 s 的成员 x not in s x 是否不是 s 的成员 s.issubset(t) 是否 s 中的每一个元素都在 t 中 s.issuperset(t) 是否 t 中的每一个元素都在 s s.union(t) 返回一个新的 set 包含 s 和 t 中的每一个元素 …...
知识笔记(一百)———什么是okhttp?
OkHttp简介: OkHttp 是一个开源的、高效的 HTTP 客户端库,由 Square 公司开发和维护。它为 Android 和 Java 应用程序提供了简单、强大、灵活的 HTTP 请求和响应的处理方式。OkHttp 的设计目标是使网络请求变得更加简单、快速、高效,并且支持…...
Electron桌面应用实战:Element UI 导航栏橙色轮廓之谜与Bootstrap样式冲突解决方案
目录 引言 问题现象及排查过程 描述问题 深入探索 查明原因 解决方案与策略探讨 重写样式 禁用 Bootstrap 样式片段 深度定制 Element UI 组件 隔离样式作用域 结语 引言 在基于 Electron 开发桌面应用的过程中,我们可能时常遇到各种意想不到的问题…...
Nuget包缓存存放位置迁移
一、背景 默认情况下,NuGet会将项目中使用的包缓存到C盘,随着项目开发积累nuget包越来越多,这会逐渐挤占大量C盘空间,所以我们可以将nuget包缓存位置指定到其他盘中存放。 二、软件环境 win10、vs2022 三、查看当前缓存存放位…...
键盘上Ins键的作用
前几天编写文档时,发现一个问题:插入内容时,输入的字符将会覆盖光标位置后的字符。原来是按到了键盘上的 Ins键,解决方法是:再按一次 Ins键(Ins键如果独立作为一键时,否则使用 “Fn Ins”组合键…...
css display 左右对齐 技巧
.list_number{ display: flex; } .list_name_number{ width:100px; } //左边固定width .list_name_type{ //右边给flex:2 自动撑开 flex:2; }...
【Linux操作系统】:Linux开发工具编辑器vim
目录 Linux 软件包管理器 yum 什么是软件包 注意事项 查看软件包 如何安装软件 如何卸载软件 Linux 开发工具 Linux编辑器-vim使用 vim的基本概念 vim的基本操作 vim正常模式命令集 插入模式 插入模式切换为命令模式 移动光标 删除文字 复制 替换 撤销 跳至指…...
Good Trip Codeforces Round 921 (Div. 2) 1925D
Problem - D - Codeforces 题目大意:有n个数,其中有m个匹配对,对于一个匹配对(x,y),他们的除湿贡献为z,一共有k轮行动,每一轮从n个数中独立等概率的选出两个数,如果这两…...
推荐一款Linux、数据库、Redis、MongoDB统一管理平台!
官方演示 状态查看 ssh 终端 文件操作 数据库操作 sql 编辑器 在线增删改查数据 Redis 操作 Mongo 操作 系统管理 账号管理 角色管理 资源管理 一.安装 1.下载安装包 cd /opt wget https://gitee.com/dromara/mayfly-go/releases/download/v1.7.1/mayfly-go-linux-amd64.zi…...
TensorFlow2实战-系列教程6:迁移学习实战
🧡💛💚TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 1、迁移学习 用已经训练好模型的权重参数当做自己任务的模型权重初始化一般全连接层需…...
怎样开发adobe indesign插件,具体流程?
文章目录 第一.流程步骤第二.如何调试indesign插件第三.相关资源第四.总结 第一.流程步骤 开发Adobe InDesign插件通常涉及以下步骤: 获取SDK和工具: 从Adobe官方网站下载最新的Adobe InDesign SDK(Software Development Kit)&am…...
Docker 安装与基本操作
目录 一、Docker 概述 1、Docker 简述 2、Docker 的优势 3、Docker与虚拟机的区别 4、Docker 的核心概念 1)镜像 2)容器 3)仓库 二、Docker 安装 1、命令: 2、实操: 三、Docker 镜像操作 1、命令࿱…...
译文带你理解Python的dataclass装饰器
dataclass 是 Python dataclasses 模块中的一个 decorator。当使用 dataclass 装饰器时,它会自动生成一些特殊方法,包括: _ _ init _ _:用于初始化字段的构造函数_ _ repr _ _:对象的字符串表示_ _ eq _ _:…...
【C语言】实现程序的暂停
编写程序时,有时候需要让程序在某些地方暂停执行,等待用户输入或者观察程序执行结果。在 C 语言中,有多种方法可以实现程序的暂停,包括 system("pause")、getchar() 和 while ((c getchar()) ! \n && c ! EOF)…...
Hana SQL+正则表达式
目录 一、Pre 前言 二、知识点拆解 1)case when…then…else 2)json_value 函数 拓展资料 3)CAST 函数 拓展资料 4) ROUND 函数 5)occurences_regexpr 函数 拓展资料 6)正则表达式 拓展资料 三、整合分析…...
新手零基础入门:跟着快马生成的互动教程完成jdk17下载安装与第一个程序
作为一名Java初学者,第一次接触JDK安装可能会觉得有些迷茫。最近我在InsCode(快马)平台上尝试了一个JDK17安装教程项目,整个过程比我预想的要简单很多。下面就把我的学习笔记分享给大家,希望能帮助到同样刚入门的朋友。 JDK17下载步骤 首先需…...
手把手教你搞定VMware vSphere 7.0全家桶:从服务器RAID配置到vCenter上线的保姆级避坑指南
企业级虚拟化平台部署实战:从硬件配置到vSphere 7.0全栈落地指南 当企业IT基础设施面临数字化转型时,服务器虚拟化技术往往成为关键突破口。作为业界标杆的VMware vSphere解决方案,其7.0版本在性能、安全性和管理便捷性方面都有显著提升。本文…...
破解金融分析复杂性:TradingAgents-CN多智能体协作框架的实战价值与落地指南
破解金融分析复杂性:TradingAgents-CN多智能体协作框架的实战价值与落地指南 【免费下载链接】TradingAgents-CN 基于多智能体LLM的中文金融交易框架 - TradingAgents中文增强版 项目地址: https://gitcode.com/GitHub_Trending/tr/TradingAgents-CN 价值定位…...
nli-distilroberta-base自动化测试:集成CI/CD流水线进行模型回归测试
nli-distilroberta-base自动化测试:集成CI/CD流水线进行模型回归测试 1. 为什么需要自动化模型测试 在AI模型开发中,每次更新或微调都可能引入意想不到的行为变化。传统的人工测试方法效率低下,难以应对频繁的模型迭代。我们团队在实际项目…...
GHelper:华硕笔记本性能调校神器,让你的ROG设备焕发新生
GHelper:华硕笔记本性能调校神器,让你的ROG设备焕发新生 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other mod…...
Qwen3-4B-Thinking环境部署:vLLM推理加速+Web前端调用完整步骤
Qwen3-4B-Thinking环境部署:vLLM推理加速Web前端调用完整步骤 1. 开篇:为什么你需要这个组合方案? 如果你正在寻找一个既能快速推理大模型,又能通过网页轻松对话的解决方案,那么你来对地方了。今天要介绍的ÿ…...
深入解析JLink与SWD接口:从引脚定义到实际调试应用
1. JLink调试器基础认知 第一次接触JLink时,我完全被那排密密麻麻的20针接口吓到了。这玩意儿真的比USB转串口工具复杂十倍不止!但用熟之后才发现,它其实是嵌入式开发的"瑞士军刀"。简单来说,JLink是SEGGER公司推出的专…...
open_clip技术解构:从核心原理到产业级应用
open_clip技术解构:从核心原理到产业级应用 【免费下载链接】open_clip An open source implementation of CLIP. 项目地址: https://gitcode.com/GitHub_Trending/op/open_clip 一、价值定位:重新定义多模态AI开发范式 核心问题:为什…...
Nunchaku-flux-1-dev一键部署教程:Ubuntu20.04环境配置
Nunchaku-flux-1-dev一键部署教程:Ubuntu20.04环境配置 1. 开篇:为什么选择这个部署方案 如果你刚接触Linux环境下的模型部署,可能会觉得配置各种依赖和环境变量很头疼。Nunchaku-flux-1-dev作为一个功能强大的模型,其实在Ubunt…...
如何快速提升像素画创作效率:探索Piskel精选工具与功能
如何快速提升像素画创作效率:探索Piskel精选工具与功能 【免费下载链接】piskel A simple web-based tool for Spriting and Pixel art. 项目地址: https://gitcode.com/gh_mirrors/pi/piskel Piskel是一款简单易用的基于Web的像素画创作工具,专为…...
