谈Office 2000的字符编码技术

Author: 关涛 Date: 1999年第24期 15版

　　微软公司的办公套件Office97针对不同语言有各种不同版本，当你要使用一种语言进行文字编辑时，需安装相应语言版本的Office才能有最好的支持和兼容性，另外很多时候不同语言也不能在文档中同时正确显示。不过在即将推出的Office2000中，这些问题将得到解决，全世界的用户都只需安装同一个版本的Office2000，然后通过选择不同的语言包就可以得到不同的界面和语言支持，并且包含不同语言的Office文档也不会再有兼容性的问题。而这一切的实现，一个很重要的原因是Office2000提供了真正的全球性的Unicode支持。
#1操作系统的字符编码
　　1.编码方式
　　微软最初的操作系统MS－DOS只支持256个字符，其中包括26个英文字母（大小写两种形式都有，即实际共有52个）、标点符号、希腊字母、画线符（用于基于MS－DOS的应用程序画框）和一些重音字符，即扩展ASCII码（扩展美国国家标准交换码，其中前面从0－127是标准ASCII码，后面的为扩展字符）。随着计算机的日益普及，为了让用户能用自己的语言在计算机上操作，于是增加了很多的代码页，每种代码页支持一种语言，单字节代码页中代码从32到127（十六进制0x20～0x7F）间的字符都是标准ASCII码，其他的则是根据所支持的语言不同而不同的相应的扩充字符。当操作系统进入Windows时代后，用代码页来支持不同语言的方法被保留了下来，从Windows3.1到Windows95使用的代码页是相同的，而Windows98在原ANSI字符集基础上有了变化。扩展ASCII码表和Win95 ANSI字符集见^241501a^一和^241501b^二所示。
　　2.存在的问题
　　由于代码页使用的是单字节字符集（SBCS），即每个字符都是用一个字节来表示，所以代码页能包含的字符最多只有28=256个，这对于使用字母的语言够用了，但像中文这种表意字符，每个字都要占用字节，而常用汉字怎么也有两三千个，单字节字符集显然就无能为力了。于是很自然地出现了双字节字符集（DBCS）。在DBCS中，大多数字符（表意字符）由两个字节构成，但同时也存在只占一个字节的字符，比如ASCII码和日文片假名等，DBCS的缺点也就由此而生了。当你如往常一样使用strlen函数想知道一个DBCS字符串中的字符数时，得到的结果只是该字符串中的字节数。虽然Windows提供了一些诸如CharNext、CharPrev、IsDBCSLeadByte之类的函数来帮助处理DBCS字符，但对于程序员来说，处理字符串时总是要判断一个字符是一个字节宽还是两个字节宽，这无疑是在做一场恶梦。
#1不能同时正确显示多国语言的原因
　　因为Windows 3.X每次启动时都是载入与其版本相对应的代码页，即只支持单一代码页（DOS也一样）。其中除了ANSI字符集、相应的DOS字符集，就只有该版本代码页中所支持语言的字符了，而对于使用这些字符集之外的语言自然就无法被调出来显示了。Windows 95为了支持混合语言，采用了大字体。在大字体中通常包含多种字符集，如GBK字体中就包含了采用GB码和BIG5码的汉字。不过Win95中大字体的使用还不普遍，大字体需单独安装。在Windows98中，开始支持称为Extended Windows ANSI（也称为WGL4）的字符集，该字符集包含了652个字符，除了标准ANSI字符外，还有俄语、希腊语、土耳其语等多种语言的字符，大字体技术虽然向多语言支持迈进了一步，但仍然脱离不了代码页的映射和转换，所以一旦文档被另存为不带格式的纯文本，被转移到另一台没有安装多语言支持或相同字体，文档的显示结果将会是部分字符无法显示或乱码一堆。这种情况在如今大量通过网络进行信息传递的时代屡见不鲜，也是使用代码页技术的最大弊病。^241501c^三和^241501d^四表明了用Win98 Arial字体可正常显示的希腊字母和俄文在换用Win95 Arial字体后全部无法显示。
#1Unicode字符编码的原理
　　Unicode简言之就是宽字节字符集。在Unicode中，每个字符都固定使用两个字节来表示，这样一来，在字符串中只需简单地通过加减指针就能访问一个完整的字符。由于Unicode中字符都用16位（即两字节）的值表示，所以可以表示的字符最多有216=65536个，这样一来，几乎全世界所有书面语言所使用的所有字符都能被包含进来了。即使如此，所有的字母和符号加起来也才用了约35000个代码点，至今大约还有29000个代码点未被分配，保留作将来使用，这其中又有6500个位置是留供用户添加所需的自定义字符，一般是一些罕见的代表人名和地名的象形文字。Unicode的编码布局见^241501e^五。
　　Unicode力图让每个被编码的字符用途都是唯一的。例如，常见符号“－”，可以是连字符，也可以是减号，因两者的用途完全不同，所以即使外观一样，但在Unicode中仍各有编码，并通过使用略微不同的宽度来描绘它们。不过对于中文和日文中的相同汉字，却又是使用同一编码，因为Unicode不能区分字符在语义和读音方面的区别，不管这个字是什么意思，怎么读，反正是用来表达意思的一个表意字符，这样做到了汉字的统一。也正是由于Unicode相当于一个单一的字符集，所以不再有多内码页的映射和转换问题，使用Unicode编码方式的文档无论使用哪种Unicode字体来显示都是一样，乱码不会再有了，唯一可能出错的地方就是字体中包含的字符不完整。
#1Office2000字符编码的秘密
　　由于Office2000全面支持Unicode，则源程序中涉及字符串处理的函数都能接受16位，而且是Unicode编码的字符串参数。因为以前非东亚版本的函数可能对其中的字符串参数是用char关键字定义的，这样实际规定了参数只能是8位，现在用short关键字定义，就能接受16位的值了。而且一般函数接受的字符串都是ANSI字符串，因为与Unicode编码方式完全不同，所以要想处理Unicode字符串参数，对字符串的处理也必须做改动。以前之所以有那么多不同的版本，主要就是为了适应当地的字符集，有了全球统一编码的16位Unicode字符集，可以直接适应全球用户，不再有单、双字节和不同代码页的混合处理问题，不需再对核心程序做修改，也就实现了全球版本的同一性。
　　遗憾的是Win9X对Unicode的支持还很不完善，它仍然使用代码页方式，所以为实现多语言功能，在Office2000中还要安装相应的语言包。
　　国产软件要到国际市场去竞争，使用Unicode应该是一条必经之路，这样软件不仅进行国际化时的工作量会小得多，更主要的是能有很好的适应能力。其实我认为Unicode最有用的地方应该在网络中。当Unicode得到普及后，无论你访问哪种语言的网站，查看哪种语言的文档，都能得到正确的显示，不会再有乱码出现，到那时大概就是网络世界的大同时代了吧。