当前位置：首页 > news >正文

字符集详解

news 2026/2/9 14:45:25

常见字符集介绍

字符集基础知识：

计算机底层不可以直接存储字符的。

计算机中底层只能存储二进制(0、1) 。

二进制是可以转换成十进制的。

结论：计算机底层可以表示成十进制编号。计算机可以给人类字符进行编号存储，这套编号规则就是字符集。

ASCII字符集：

ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)：包括了数字、英文、符号。

ASCII使用1个字节存储一个字符，一个字节是8位，首位为0，总共可以表示128个字符信息，对于英文，数字来说是够用的。

GBK：

window系统默认的码表。兼容ASCII码表，也包含了几万个汉字，并支持繁体汉字以及部分日韩文字。

注意：GBK是中国的码表，一个中文以两个字节的形式存储。但不包含世界上所有国家的文字。

Unicode码表：

unicode（又称统一码、万国码、单一码）是计算机科学领域里的一项业界字符编码标准。

容纳世界上大多数国家的所有常见文字和符号。

Unicode会先通过UTF-8，UTF-16，以及 UTF-32编码成二进制后再存储到计算机，其中最为常见的就是UTF-8。

注意

Unicode是万国码，以UTF-8编码后一个中文一般以三个字节的形式存储。

UTF-8也要兼容ASCII编码表。

技术人员都应该使用UTF-8的字符集编码。

编码前和编码后的字符集需要一致，否则会出现中文乱码。

汉字存储和展示过程解析

总结

1、字符串常见的字符底层组成是什么样的？

英文和数字等在任何国家的字符集中都占1个字节。

GBK字符中一个中文字符占2个字节。

UTF-8编码中一个中文1般占3个字节。

2、编码前的字符集和编码好的字符集有什么要求？

必须一致，否则会出现中文字符乱码。

英文和数字在任何国家的编码中都不会乱码。

字符集的编码、解码操作

String编码

byte[] getBytes() 使用平台的默认字符集将该 String编码为一系列字节，将结果存储到新的字节数组中。

byte[] getBytes(String charsetName)

String解码

String(byte[] bytes) 通过使用平台的默认字符集解码指定的字节数组来构造新的 String。

String(byte[] bytes, String charsetName)

案例

public class Test {public static void main(String[] args) throws Exception {// 1、编码：把文字转换成字节（使用指定的编码）String name = "abc我爱你中国";// byte[] bytes = name.getBytes(); // 以当前代码默认字符集进行编码 （UTF-8）byte[] bytes = name.getBytes("GBK"); // 指定编码System.out.println(bytes.length);System.out.println(Arrays.toString(bytes));// 2、解码：把字节转换成对应的中文形式（编码前 和 编码后的字符集必须一致，否则乱码 ）// String rs = new String(bytes); // 默认的UTF-8String rs = new String(bytes, "GBK"); // 指定GBK解码System.out.println(rs);}
}

字符集详解

常见字符集介绍字符集基础知识： 计算机底层不可以直接存储字符的。计算机中底层只能存储二进制(0、1) 。二进制是可以转换成十进制的。结论：计算机底层可以表示成十进制编号。计算机可以给人类字符进行编号存储，这套编号规则就是字符…...

编程日记 2023/10/31 13:15:59

Vert.x学习笔记-什么是Vert.x

Vert.x介绍用官网的一句话来总结：Vert.x是用于在JVM上构建响应式应用程序的工具包，项目初期的目标是成为“JVM版的Node.js”，但是后续的发展逐渐偏离了初期的目标，变成了一个给JVM提供量身定制的异步编程基础框架的工具包。 Ver…...

编程日记 2023/10/31 13:14:57

AcWing 第127场周赛构造矩阵

构造题目，考虑去除掉最后一行最后一列先进行考虑，假设除了最后一行和最后一列都已经排好了（你可以随便排），那么分析知最后一个数字由限制以外其他都已经确定了，无解的情况是k为-1 并且n，m的奇偶…...

编程日记 2023/10/31 13:13:56

Seata入门系列【15】@GlobalLock注解使用场景及源码分析

1 前言在Seata 中提供了一个全局锁注解GlobalLock，字面意思是全局锁，搜索相关文档，发现资料很少，所以分析下它的应用场景和基本原理，首先看下源码中对该注解的说明： // 声明事务仅在单个本地RM中执行 //…...

编程日记 2023/10/31 13:12:55

Dubbo 路由及负载均衡性能优化

作者：vivo 互联网中间件团队- Wang Xiaochuang 本文主要介绍在vivo内部针对Dubbo路由模块及负载均衡的一些优化手段，主要是异步化缓存，可减少在RPC调用过程中路由及负载均衡的CPU消耗，极大提升调用效率。一、概要 vivo内部Java…...

编程日记 2023/10/31 13:11:54

Python数据可视化入门指南

Matplotlib和Plotly是两个在Python中广泛使用的数据可视化库，它们具有丰富的API和功能，用于创建各种类型的图表和图形。在本篇博客中，我们将介绍它们的主要特点和基本用法。 Matplotlib 主要特点： 高度自定义： Matp…...

编程日记 2023/10/31 13:10:53

我的ChatGPT的几个使用场景

示例一，工作辅助、写函数代码： 这里展示了一个完整的代码，修正，然后最终输出的过程。GPT具备足够丰富的相关的小型代码生成能力，语法能力也足够好。这类应用场景，在我的GPT使用中，能占到65%以上…...

编程日记 2023/10/31 13:09:53

3 — NLP 中的标记化：分解文本数据的艺术

一、说明这是一个系列文章的第三篇文章， 文章前半部分分别是： 1 — NLP 的文本预处理技术2 — NLP中的词干提取和词形还原：文本预处理技术在本文中，我们将介绍标记化主题。在开始之前，我建议您阅读我之前介绍…...

编程日记 2023/10/31 13:08:52

C++-类与对象(上)

一、 auto关键字 1.自动识别数据类型 2.auto的初始化 3.auto简化for循环 nullptr的使用二、类与对象 1.c中类的定义 2.c语言与c的比较 3.类的访问限定符以及封装 3.1访问限定符 3.2封装 3.3类的作用域 3.4类的声明与定义分离 🗡CSDN主页：d1ff1cult.&…...

编程日记 2023/10/31 13:06:49

多进程间通信学习之无名管道

无名管道：首先它是内核空间的实现机制；然后只能用于亲缘进程间通信；它在内核所占的大小是64KB；它采用半双工的通信方式；请勿使用lseek函数；读写特点：若读端存在写管道，那么有多少数据…...

编程日记 2023/10/31 13:05:47

flink常用的几种调优手段的优缺点

背景: 不管是基于减少反压还是基于减少端到端的延迟的目的，我们有时候都需要对flink进行调优，本文就整理下几种常见的调优手段以及他们的优缺点 flink调优手段 1.使用事件时间EventTime模式时，可以设置水位线发送的时间间隔，比…...

编程日记 2023/10/31 13:03:45

如何选择安全又可靠的文件数据同步软件？

数据实时同步价值体现在它能够确保数据在多个设备或系统之间实时更新和保持一致。这种技术可以应用于许多领域，如电子商务、社交媒体、金融服务等。在这些领域中，数据实时同步可以带来很多好处，如提高工作效率、减少数据不一致、提高用户体验…...

编程日记 2023/10/31 13:02:44

使用反射调用类的私有内部类的私有方法

文章目录使用反射调用类的私有方法类实现方法实现代码使用反射调用类的私有内部类的私有方法类实现方法实现代码在进行单元测试时，我们往往需要直接访问某个类的内部类或者某个类的私有方法，此时正常的调用就无能为力了，因此我们可以使用反…...

编程日记 2023/10/31 13:00:42

记一次 AWD 比赛中曲折的 Linux 提权

前提背景： 今天一场 AWD 比赛中，遇到一个场景：PHP网站存在SQL注入和文件上传漏洞, MYSQL当前用户为ROOT，文件上传蚁剑连接SHELL是权限很低的用户。我需要想办法进行提权，才能读取到 /root 目录下的 flag。一、sqlmap …...

编程日记 2023/10/31 12:58:38

[SpringCloud] Feign 与 Gateway 简介

目录一、Feign 简介 1、RestTemplate 远程调用中存在的问题 2、定义和使用 Feign 客户端 3、Feign 自定义配置 4、Feign 性能优化 5、Feign 最佳实践 6、Feign 使用问题汇总二、Gateway 网关简介 1、搭建网关服务 2、路由断言工厂 3、路由的过滤器配置 4、全局过…...

编程日记 2023/10/31 12:56:36

[Unity] 个人编码规范与命名准则参考

Unity C# 在写的过程中, 和纯 C# 是有很大出入的. 甚至说, Unity C# 就是邪教. 例如它的命名规范与 C# 是不一致的, 而且由于游戏引擎的介入, 编写时的习惯相较于 C# 来讲, 也需要有所改变. 通用编码规范常见的一些编码规范就不需要过多提及了, 这里只做简单列举. 添加合适…...

编程日记 2023/10/31 12:54:34

堆栈与队列算法-以链表来实现队列

目录堆栈与队列算法-以链表来实现队列 C代码堆栈与队列算法-以链表来实现队列队列除了能以数组的方式来实现外，也可以用链表来实现。在声明队列的类中，除了和队列相关的方法外，还必须有指向队列前端和队列末尾的指针，即fron…...

编程日记 2023/10/31 12:53:33

快速入门：使用 Spring Boot 构建 Web 应用程序

前言本文将讨论以下主题： 安装 Java JDK、Gradle 或 Maven 和 Eclipse 或 IntelliJ IDEA创建一个新的 Spring Boot 项目运行 Spring Boot 应用程序编写一个简单的 Web 应用程序打包应用程序以用于生产环境通过这些主题，您将能够开始使用 Spring Boo…...

编程日记 2023/10/31 12:52:32

01.CentOS7静默安装oracle11g

CentOS7静默安装oracle11g 一、下载Oracle11g安装包二、开始安装oracle11g三、配置Oracle监听程序四、添加数据库实例五、设置开机启动六、登录后解除锁定一、下载Oracle11g安装包下载链接：https://pan.baidu.com/s/1gcLMFGX7-8ju7OoFOFLzQA 提取码：6…...

编程日记 2023/10/31 12:51:31

SASE安全访问服务边缘

自存用： 参考文档： 什么是安全访问服务边缘 (SASE)？ | Microsoft 安全网安人必读 ｜一文读懂SASE - 知乎...

编程日记 2023/10/31 12:50:29

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下，越来越多的求职者将目光投向了日本及中日双语岗位。但是，一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧？面对生疏的日语交流环境，即便提前恶补了…...

编程新知 2026/2/8 4:37:01

大语言模型如何处理长文本？常用文本分割技术详解

为什么需要文本分割？引言：为什么需要文本分割？一、基础文本分割方法1. 按段落分割（Paragraph Splitting）2. 按句子分割（Sentence Splitting）二、高级文本分割策略3. 重叠分割（Sliding Window）4. 递归分割（Recursive Splitting）三、生产级工具推荐5. 使用LangChain的…...

编程新知 2025/11/18 0:32:13

Python如何给视频添加音频和字幕

在Python中，给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加，包括必要的代码示例和详细解释。环境准备在开始之前，需要安装以下Python库：…...

编程新知 2025/9/3 4:12:17

EtherNet/IP转DeviceNet协议网关详解

一，设备主要功能疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络，本网关连接到EtherNet/IP总线中做为从站使用，连接到DeviceNet总线中做为从站使用。在自动…...

编程新知 2026/1/31 6:53:51

Android Bitmap治理全解析：从加载优化到泄漏防控的全生命周期管理

引言 Bitmap（位图）是Android应用内存占用的“头号杀手”。一张1080P（1920x1080）的图片以ARGB_8888格式加载时，内存占用高达8MB（192010804字节）。据统计，超过60%的应用OOM崩溃与Bitm…...

编程新知 2026/1/8 22:17:14

全志A40i android7.1 调试信息打印串口由uart0改为uart3

一，概述 1. 目的将调试信息打印串口由uart0改为uart3。 2. 版本信息 Uboot版本：2014.07； Kernel版本：Linux-3.10； 二，Uboot 1. sys_config.fex改动使能uart3(TX:PH00 RX:PH01)，并让boo…...

编程新知 2026/2/5 6:28:09

Fabric V2.5 通用溯源系统——增加图片上传与下载功能

fabric-trace项目在发布一年后，部署量已突破1000次，为支持更多场景，现新增支持图片信息上链，本文对图片上传、下载功能代码进行梳理，包含智能合约、后端、前端部分。一、智能合约修改为了增加图片信息上链溯源，需要对底层数据结构进行修改，在此对智能合约中的农产品数…...

编程新知 2025/9/27 12:03:43

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

浪潮交换机配置track检测实现高速公路收费网络主备切换NQA

浪潮交换机track配置项目背景高速网络拓扑网络情况分析通信线路收费网络路由收费汇聚交换机相应配置收费汇聚track配置项目背景在实施省内一条高速公路时遇到的需求，本次涉及的主要是收费汇聚交换机的配置，浪潮网络设备在高速项目很少，通…...

编程新知 2026/2/6 13:10:51

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

FTP 客服管理系统实现kefu123登录，不允许匿名访问，kefu只能访问/data/kefu目录，不能查看其他目录创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...

编程新知 2026/1/25 9:03:19