java - Unicode 系统



Unicode 是一种通用的国际标准字符编码,能够表示世界上大多数书面语言。

为什么 java 使用 Unicode 系统?

在 Unicode 之前,有许多语言标准:

  • 美国的 ASCII(美国信息交换标准代码)。
  • ISO 8859-1 西欧语言。
  • KOI-8 代表俄语。
  • GB18030 和 BIG-5 代表中文,依此类推。

问题

这导致了两个问题:

  • 特定的 code 值对应于各种语言标准中的不同字母。
  • 具有大字符集的语言的编码具有可变长度。一些常见字符编码为单个字节,其他字符需要两个或多个字节。

解决方案

为了解决这些问题,开发了一种新的语言标准,即 Unicode 系统。 在 Unicode 中,字符保存 2 个字节,因此 java 也使用 2 个字节作为字符。

最低值:

\u0000

最高值:

\uFFFF