ByteArrayInputStream和DataInputStream的源码分析和使用方法详细分析前言)UTF-8 编码规则合集 - 【Java—JDK源码】IO的使用和IO相关的源码(14)1
2026/6/24 2:28:59 网站建设 项目流程

UTF-8(Unicode Transformation Format-8-bit)是一种针对 Unicode 的可变长度字符编码,通过 1 至 4 个字节表示一个字符,完美兼容 ASCII 编码,同时支持全球所有语言的字符(包括中文、日文、韩文、阿拉伯语等)。其核心设计思想是通过首字节的标识符确定字符的字节长度,后续字节以固定格式标记,确保编码的唯一性和可解析性。
UTF-8 的编码规则基于 Unicode 码点的范围,通过首字节的前几位(前缀码)标识字符的字节长度,后续字节以 10 开头作为延续标记。具体规则如下:

Unicode码点范围对应UTF-8编码时占用的字节数用UTF-8编码时首字节的格式用UTF-8编码时后续字节格式示例字符UTF-8 编码
U+0000 ~ U+007F10xxxxxxxA0x41
U+0080 ~ U+07FF2110xxxxx10xxxxxx(10xxxxxx * 1)é0xC3 0xA9
U+0800 ~ U+FFFF31110xxxx10xxxxxx 10xxxxxx (10xxxxxx * 2)0xE4 0xB8 0xAD
U+10000 ~ U+10FFFF411110xxx10xxxxxx 10xxxxxx 10xxxxxx(10xxxxxx * 3)𠮷0xF0 0xA0 0xAE 0xB7
一、编码步骤详解
1.1、中文编码解码步骤
1.1.1、汉字“中”的编码步骤

以汉字“中”(Unicode 码点 U+4E2D)为例,其 UTF-8 编码过程如下:
①、确定编码模板,由于 U+4E2D 属于 U+0800 ~ U+FFFF 范围,需使用 3 字节模板:

1110xxxx 10xxxxxx 10xxxxxx

②、码点转二进制,U+4E2D 的二进制表示为

0100 1110 0010 1101(高位补零至 16 位)。

③、填充到步骤①中的编码模板中
a、第一个字节:取0100填充1110xxxx ,填充后的结果为 1110 0100(0xE4)。
b、第二个字节:取111000填充10xxxxxx ,填充后的结果为 1011 1000(0xB8)。
c、第三个字节:取 101101填充10xxxxxx ,填充后的结果为 1010 1101(0xAD)。
④、组合步骤③中的所有的填充结果,最终,汉子“中” 的 UTF-8 编码为 0xE4 0xB8 0xAD。

1.1.2、汉字"中"的解码步骤

汉字“中”解码过程和编码过程相反,先根据首字节的前缀码确定字节数,再提取有效位组合成 Unicode 码点,具体步骤如下:
①、首字节 0xE4 以 1110 开头,说明是 3 字节编码模板。
②、分别从3个字节中提取各自的有效位,总共提取3次
a、从第一个字节 1110 0100(0xE4)中取 0100。
b、从第二个字节1011 1000(0xB8) 中取 111000。
c、从第三个字节1010 1101(0xAD)中取 101101。
③、依次组合步骤②中a、b、c提取的码点,拼接成有效位:

0100 1110 0010 1101 → U+4E2D(在Unicode 码点中表示"中")。

1.2、英文编码解码步骤
1.2.1、英文"A"的编码步骤

以英文字母"A"(Unicode 码点 U+0041)为例,其 UTF-8 编码过程如下:
①、确定编码模板,由于 U+0041 属于 U+0000 ~ U+007F 范围,需使用 1 字节模板:

0xxxxxxx

②、码点转二进制,U+0041 的二进制表示为

0100 0001(高位补零至 8 位)。

③、填充到步骤①中的编码模板中
a、第一个字节:取100 0001填充0xxxxxxx,填充后的结果为 0100 0001(0x41)。
④、组合步骤③中的所有的填充结果,最终,英文字母"A" 的 UTF-8 编码为0x41。

1.2.2、英文"A"的解码步骤

英文"A"解码过程和编码过程相反,先根据首字节的前缀码确定字节数,再提取有效位组合成 Unicode 码点,具体步骤如下:
①、首字节 0x41 以 0 开头,说明是 1 字节编码模板。
②、只从唯一的1个字节中提取有效位,只提取1次
a、从第一个字节 0100 0001(0x41)中取 100 0001。
③、组合步骤②中a提取的码点,拼接成有效位:

0100 0001 → U+0041(高位补零至 8 位,在Unicode 码点中表示"A")。
1.3、中文中的特殊字符é编码解码步骤
1.3.1、中文中的特殊字符"é"的编码步骤

以中文中的特殊字符"é"(Unicode 码点 U+00E9)为例,其 UTF-8 编码过程如下:
①、确定编码模板,由于 U+00E9属于 U+0080 ~ U+07FF 范围,需使用 2字节模板:

110xxxxx 10xxxxxx

②、码点转二进制,U+00E9 的二进制表示为

0000 0000 1110 1001(高位补零至 16 位)。

③、填充到步骤①中的编码模板中
a、第一个字节:取000 11填充110xxxxx,填充后的结果为 1100 0011(0xC3);
b、第二个字节:取10 1001填充10xxxxxx,填充后的结果为 1010 1001(0xA9);
④、组合步骤③中的所有的填充结果,最终,中文中的特殊字符"é"的 UTF-8 编码为0xC3 0xA9。

1.3.2、中文中的特殊字符"é"的解码步骤

中文中的特殊字符"é"解码过程和编码过程相反,先根据首字节的前缀码确定字节数,再提取有效位组合成 Unicode 码点,具体步骤如下:
①、首字节 0xC3 以 110 开头,说明是 2 字节编码模板。
②、分别从2个字节中提取各自的有效位,总共提取2次
a、从第一个字节1100 0011(0xC3)中取 0 0011。
b、从第二个字节1010 1001(0xA9) 中取 10 1001。
③、依次组合步骤②中a、b提取的码点,拼接成有效位:

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询