ByteArrayInputStream和DataInputStream的源码分析和使用方法详细分析前言）UTF-8 编码规则合集

UTF-8（Unicode Transformation Format-8-bit）是一种针对 Unicode 的可变长度字符编码，通过 1 至 4 个字节表示一个字符，完美兼容 ASCII 编码，同时支持全球所有语言的字符（包括中文、日文、韩文、阿拉伯语等）。其核心设计思想是通过首字节的标识符确定字符的字节长度，后续字节以固定格式标记，确保编码的唯一性和可解析性。
UTF-8 的编码规则基于 Unicode 码点的范围，通过首字节的前几位（前缀码）标识字符的字节长度，后续字节以 10 开头作为延续标记。具体规则如下：

Unicode码点范围	对应UTF-8编码时占用的字节数	用UTF-8编码时首字节的格式	用UTF-8编码时后续字节格式	示例字符	UTF-8 编码
U+0000 ~ U+007F	1	0xxxxxxx	无	A	0x41
U+0080 ~ U+07FF	2	110xxxxx	10xxxxxx（10xxxxxx * 1）	é	0xC3 0xA9
U+0800 ~ U+FFFF	3	1110xxxx	10xxxxxx 10xxxxxx （10xxxxxx * 2）	中	0xE4 0xB8 0xAD
U+10000 ~ U+10FFFF	4	11110xxx	10xxxxxx 10xxxxxx 10xxxxxx（10xxxxxx * 3）	𠮷	0xF0 0xA0 0xAE 0xB7

一、编码步骤详解

1.1、中文编码解码步骤

1.1.1、汉字“中”的编码步骤

以汉字“中”（Unicode 码点 U+4E2D）为例，其 UTF-8 编码过程如下：
①、确定编码模板，由于 U+4E2D 属于 U+0800 ~ U+FFFF 范围，需使用 3 字节模板：

1110xxxx 10xxxxxx 10xxxxxx

②、码点转二进制，U+4E2D 的二进制表示为

0100 1110 0010 1101（高位补零至 16 位）。

③、填充到步骤①中的编码模板中
a、第一个字节：取0100填充1110xxxx ，填充后的结果为 1110 0100（0xE4）。
b、第二个字节：取111000填充10xxxxxx ，填充后的结果为 1011 1000（0xB8）。
c、第三个字节：取 101101填充10xxxxxx ，填充后的结果为 1010 1101（0xAD）。
④、组合步骤③中的所有的填充结果，最终，汉子“中” 的 UTF-8 编码为 0xE4 0xB8 0xAD。

1.1.2、汉字"中"的解码步骤

汉字“中”解码过程和编码过程相反，先根据首字节的前缀码确定字节数，再提取有效位组合成 Unicode 码点，具体步骤如下：
①、首字节 0xE4 以 1110 开头，说明是 3 字节编码模板。
②、分别从3个字节中提取各自的有效位，总共提取3次
a、从第一个字节 1110 0100（0xE4）中取 0100。
b、从第二个字节1011 1000（0xB8）中取 111000。
c、从第三个字节1010 1101（0xAD）中取 101101。
③、依次组合步骤②中a、b、c提取的码点，拼接成有效位：

0100 1110 0010 1101 → U+4E2D（在Unicode 码点中表示"中"）。

1.2、英文编码解码步骤

1.2.1、英文"A"的编码步骤

以英文字母"A"（Unicode 码点 U+0041）为例，其 UTF-8 编码过程如下：
①、确定编码模板，由于 U+0041 属于 U+0000 ~ U+007F 范围，需使用 1 字节模板：

0xxxxxxx

②、码点转二进制，U+0041 的二进制表示为

0100 0001（高位补零至 8 位）。

③、填充到步骤①中的编码模板中
a、第一个字节：取100 0001填充0xxxxxxx，填充后的结果为 0100 0001（0x41）。
④、组合步骤③中的所有的填充结果，最终，英文字母"A" 的 UTF-8 编码为0x41。

1.2.2、英文"A"的解码步骤

英文"A"解码过程和编码过程相反，先根据首字节的前缀码确定字节数，再提取有效位组合成 Unicode 码点，具体步骤如下：
①、首字节 0x41 以 0 开头，说明是 1 字节编码模板。
②、只从唯一的1个字节中提取有效位，只提取1次
a、从第一个字节 0100 0001（0x41）中取 100 0001。
③、组合步骤②中a提取的码点，拼接成有效位：

0100 0001 → U+0041（高位补零至 8 位，在Unicode 码点中表示"A"）。

1.3、中文中的特殊字符é编码解码步骤

1.3.1、中文中的特殊字符"é"的编码步骤

以中文中的特殊字符"é"（Unicode 码点 U+00E9）为例，其 UTF-8 编码过程如下：
①、确定编码模板，由于 U+00E9属于 U+0080 ~ U+07FF 范围，需使用 2字节模板：

110xxxxx 10xxxxxx

②、码点转二进制，U+00E9 的二进制表示为

0000 0000 1110 1001（高位补零至 16 位）。

③、填充到步骤①中的编码模板中
a、第一个字节：取000 11填充110xxxxx，填充后的结果为 1100 0011（0xC3）；
b、第二个字节：取10 1001填充10xxxxxx，填充后的结果为 1010 1001（0xA9）；
④、组合步骤③中的所有的填充结果，最终，中文中的特殊字符"é"的 UTF-8 编码为0xC3 0xA9。

1.3.2、中文中的特殊字符"é"的解码步骤

中文中的特殊字符"é"解码过程和编码过程相反，先根据首字节的前缀码确定字节数，再提取有效位组合成 Unicode 码点，具体步骤如下：
①、首字节 0xC3 以 110 开头，说明是 2 字节编码模板。
②、分别从2个字节中提取各自的有效位，总共提取2次
a、从第一个字节1100 0011（0xC3）中取 0 0011。
b、从第二个字节1010 1001（0xA9）中取 10 1001。
③、依次组合步骤②中a、b提取的码点，拼接成有效位：

企业官网建设流程全解析

一、编码步骤详解

1.1、中文编码解码步骤

1.1.1、汉字“中”的编码步骤

1.1.2、汉字"中"的解码步骤

1.2、英文编码解码步骤

1.2.1、英文"A"的编码步骤

1.2.2、英文"A"的解码步骤

1.3、中文中的特殊字符é编码解码步骤

1.3.1、中文中的特殊字符"é"的编码步骤

1.3.2、中文中的特殊字符"é"的解码步骤

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、编码步骤详解

1.1、中文编码解码步骤

1.1.1、汉字“中”的编码步骤

1.1.2、汉字"中"的解码步骤

1.2、英文编码解码步骤

1.2.1、英文"A"的编码步骤

1.2.2、英文"A"的解码步骤

1.3、中文中的特殊字符é编码解码步骤

1.3.1、中文中的特殊字符"é"的编码步骤

1.3.2、中文中的特殊字符"é"的解码步骤

热门文章

文章分类

标签云

相关文章

基于 Docker + FreeSurfer 6.0 的 T1 结构像预处理流程文档

DeepLabCut模块化插件开发深度解析：扩展架构设计与技术实现指南

爬虫频繁被封 IP？从原因定位到接入动态代理的完整实操

需要专业的网站建设服务？