Mark.Yin---人民需要无线互联的AI: 字体的基本概念

字体的基本概念 Monday, October 12, 2009

字符是人们使用的记号，抽象意义上的一个符号。例如：'1', '中', 'a', '$', '￥', ……。

字节是计算机中存储数据的单元，一个8位的二进制数，是一个很具体的存储空间。

字符集说明使用哪些字符，也就是说哪些汉字，字母和符号会被收入标准中。所包含“字符”的集合就叫做“字符集”。

在设计字符集时，首先要决定所需字符的数目，并确定所需字符的清单。根据字符的数目，可以设定整数值的上限，这个整数范围称为编码空间（code space），其中的一个特定整数称为一个码点（code point）。然后，为字符清单中的每个字符指定一个整数值，也就是一个码点，这样就得到一个字符集，称作编码字符集（Coded Character Set）。此处的编码指为字符集中的字符分配码点。

在计算机系统的实现中，整数以特定大小的单元表示，通常为8位（1字节），16位，或32位。在字符编码中，这样的单元称为编码单元（code unit）。根据编码空间的大小和具体要求，来选择合适的编码单元。通常，所选择编码单元对应的整数范围要大于编码空间的整数范围，这样每个码点就只需一个编码单元表示，并且在字符码点与编码单元间的转换非常简便，因为字符码点对应的整数值与相应编码单元的整数值相同。如果编码单元对应的整数范围小于编码空间的整数范围，就需要多个编码单元表示一个码点。

编码格式（encoding form）指定如何将每个码点表示为一个或多个编码单元序列，形成内码。

在计算机程序中或者数据文件里，文本（text）是作为数字序列输入和存储的，如何解释这些数字是由字符集（character set）、编码格式（encoding form）决定的。根据指定编码格式提取出来的单个整数组被称为内码。内码对于字库来说,只是查找字形的索引。如果换另一个编码标准的字体，同一个字符串就会呈现不同的字形，也就是乱码。

各个国家和地区在制定编码标准的时候，“字符集”和“编码规则”一般都是同时制定的。因此，平常我们所说的“字符集”，比如：GB2312, GBK, JIS 等，除了有“字符集”这层含义外，同时也包含了“编码规则”的含义。此时，我们把这种集合称为“内码集”。

参见 “Sans Serif字体与Serif字体的区别 ”

http://zh.wikibooks.org/wiki/Unicode_5000-5FFF

Mark.Yin---人民需要无线互联的AI

字体的基本概念 Monday, October 12, 2009

0 comments:

About Me

Search This Blog

Popular Posts

Labels

Blog Archive

My Favorite WebSites

Total Pageviews

Mark.Yin---人民需要无线互联的AI

字体的基本概念 Monday, October 12, 2009

0 comments:

About Me

订阅Mark.Yin

Search This Blog

Popular Posts

Labels

Blog Archive

My Favorite WebSites

Total Pageviews