您现在的位置是:KOK球盘体育 > 单元作文 >

java中的代码点和代码单元分别都是什么?谁能详

2020-05-04 07:26单元作文 人已围观

简介酒驾交警马路说白了一个代码点就是一个Unicode字符。代码单元就是代码点的集合。 字符集是各种文字(包括拉丁文、e79fa5e98193e59b9ee7ad2西里尔文、中文、朝鲜语、日语、希伯来语和阿拉伯语)中所包...

  

  说白了一个代码点就是一个Unicode字符。代码单元就是代码点的集合。

  字符集是各种文字(包括拉丁文、e79fa5e98193e59b9ee7ad2西里尔文、中文、朝鲜语、日语、希伯来语和阿拉伯语)中所包含的字符的一个抽象列表,酒驾交警马路由一百多万个字符组成。字符集还包括其他符号,例如音符。

  Unicode 和 GB18030 标准都具有字符集。当某个标准添加了新字符时,为了保持对等,另一个标准也将添加这些字符。

  注意 这第二个字符视图只适用于 Unicode,而不适用于 GB18030。

  字符集中的每个字符都被分配到一个“代码点”。每个代码点都有一个特定的数值,称为标量值。该标量值通常用十六进制表示。

  代码点存在于“代码空间”中。代码空间由许多标量值组成,这些值被划分在两个平面中:

  所有可能的标量值的完整代码空间的大小为 17 * 64k(1,088,000 个可能值)。

  在 GB18030 中,编码数据直接从字符集派生:标量值(作为字符集和编码数据之间的媒介)的概念只适用于 Unicode。

  “代码单元”是各个编码形式中的单个单元。代码单元的大小等效于特定编码的位数测量单位:

  在 UTF-8 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个、三个或四个代码单元。

  UTF-16 的代码单元大小是 8 位代码单元的两倍。所以,标量值小于 U+10000 的代码点被编码到单个代码单元中。

  对于标量值大于或等于 U+10000 的代码点,每个代码点需要两个代码单元。在 UTF-16 中,这些代码单元对有一个独特的术语:“Unicode 代理对”。

  UTF-32 中使用的 32 位代码单元足够大,每个代码点都可编码为单个代码单元。

  在 GB18030 中,因为代码单元较小的缘故,每个代码点常常被映射到多个代码单元。代码点将被映射到一个、两个或四个代码单元。

  某些受 Unicode 支持的文字包含代码点的标量值大于或等于 U+10000 的字符。在 UTF-16 中,通过使用代理对来对这些代码点进行编码。

Tags: 酒驾交警马路 

本栏推荐

标签云

站点信息

  • 文章统计3737篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们