字符是人们使用的记号,抽象意义上的一个符号。例如:'1', '中', 'a', '$', '¥', ……。
字节是计算机中存储数据的单元,一个8位的二进制数,是一个很具体的存储空间。
字符集说明使用哪些字符,也就是说哪些汉字,字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。
在设计字符集时,首先要决定所需字符的数目,并确定所需字符的清单。根据字符的数目,可以设定整数值的上限,这个整数范围称为编码空间(code space),其中的一个特定整数称为一个码点(code point)。然后,为字符清单中的每个字符指定一个整数值,也就是一个码点,这样就得到一个字符集,称作编码字符集(Coded Character Set)。此处的编码指为字符集中的字符分配码点。
在计算机系统的实现中,整数以特定大小的单元表示,通常为8位(1字节),16位,或32位。在字符编码中,这样的单元称为编码单元(code unit)。根据编码空间的大小和具体要求,来选择合适的编码单元。通常,所选择编码单元对应的整数范围要大于编码空间的整数范围,这样每个码点就只需一个编码单元表示,并且在字符码点与编码单元间的转换非常简便,因为字符码点对应的整数值与相应编码单元的整数值相同。如果编码单元对应的整数范围小于编码空间的整数范围,就需要多个编码单元表示一个码点。
编码格式(encoding form)指定如何将每个码点表示为一个或多个编码单元序列,形成内码。
在计算机程序中或者数据文件里,文本(text)是作为数字序列输入和存储的,如何解释这些数字是由字符集(character set)、编码格式(encoding form)决定的。根据指定编码格式提取出来的单个整数组被称为内码。内码对于字库来说,只是查找字形的索引。如果换另一个编码标准的字体,同一个字符串就会呈现不同的字形,也就是乱码。
各个国家和地区在制定编码标准的时候,“字符集”和“编码规则”一般都是同时制定的。因此,平常我们所说的“字符集”,比如:GB2312, GBK, JIS 等,除了有“字符集”这层含义外,同时也包含了“编码规则”的含义。此时,我们把这种集合称为“内码集”。
参见 “Sans Serif字体与Serif字体的区别 ”
http://zh.wikibooks.org/wiki/Unicode_5000-5FFF
0 comments:
Post a Comment