Java Unicode编码

Unicode是一种通用的国际标准字符编码,能够代表世界上大多数书面语言。

Java语言中统一采用Unicode编码系统。

1 为什么Java使用Unicode编码

在Unicode之前,有许多语言编码标准:

  • 美国的ASCII(美国信息交换标准代码)。
  • 用于西欧语言的ISO-8859-1
  • KOI-8(俄语)。
  • GB18030和BIG-5(中文)等等。

1.1 问题

这些有这么语言编码标准的存在,所以导致了两个问题:

  • 不同语言标准的字母所使用的代码值不一致。
  • 具有大字符集的语言的编码具有可变的长度。一些常见字符编码为单个字节,其他一些则需要两个或更多字节。

总之,因为语言编码不同,产生了很多地方不统一的情况。

1.2 解决办法

为了解决以上的问题,开发了一种新的语言标准,即Unicode编码。
在Unicode编码中,char字符保留2个字节,因此Java语言继续在char字符数据类型上采用2个字节。

  • Unicode的最低值: \u0000
  • Unicode的最高值: \uFFFF

推荐好课