“计算机操作技术”讲座(8) 文字处理(一)

🏠 首页 《无线电》杂志 1995年 🔗 第3期 🔗 第41页 分类:答读者问 🔗 杨锡平 🔗

文字处理是微机应用的一个重要内容,也是当今流行的办公自动化的必不可少的组成部分。概括地说,文字处理的主要任务是借助微机的文字处理软件,对文书文件进行编辑、修改、存储、打印等操作。由于在我国使用的文字是汉字,所以这里讲的文字处理主要是指对汉字的处理操作。另外,文字处理又是一种重要的基础知识,只有掌握了文字处理的基本功能,才能方便地使用其它基于汉字处理的软件。

一、文字处理软件

文字处理软件是一种应用软件,它所要完成的主要工作有文书文件的建立、编辑、保存、查阅、格式变换、打印输出等等。目前市面上流行的文字处理软件有许多种,如 C-WORDSTAR、CCED、WPS等等。

C-WORDSTAR可以说是汉字处理软件的老前辈,它是由有关单位在西文WORDSTAR的基础上汉化而成的,其主要特点是对微机的硬件资源要求很小,在配有640k内存和软盘驱动器的微机上均可运行,而且配有多种汉字输入方法,操作简单方便,但打印质量较差,C-WORDSTAR流行了较长一段时间,现在仍有人在使用。

CCED是稍后开始流行的另一种文字处理软件,它除保留C-WORDSTAR的主要功能外,还提供了方便的制表功能,另外文书文件可以和数据库dBASE进行数据交换。

WPS是近几年来出现的十分完善的文字处理软件,也是当今市面上最优秀的文字处理软件之一。它具有良好的用户界面,所有操作均以菜单方式完成,另外还提供了多种高精度字库,可以打印出十分美观的汉字,不仅如此,WPS还提供了丰富的版面控制功能,使之有能力成为一套小型的排版系统。但WPS对微机的硬件要求较高,所配微机必需有硬盘驱动器,而且必须有较快的处理速度。随着微机价格的不断下降,性能不断提高,WPS也会在更大的范围内得到普及,基于这种原因,我们将主要介绍WPS文字处理系统,在掌握WPS后,了解其它的文字处理软件会变得更为容易。

二、汉字代码

当计算机刚诞生时并没有考虑到汉字的处理问题,只是到了八十年代初,微机的迅速普及给汉字处理及印刷技术带来了一次革命。我们知道,微机只能接收从键盘输入的字符,而键盘上并没有汉字键,所以汉字必须以某种代码方式进行传输才能被微机识别,这种代码主要有:

1.输入码

输入码是指微机操作者从键盘上输入的代表某个汉字的编码,输入码一般由英文字母或阿拉伯数字组成。目前已经出现的输入码有上百种之多,而且新的输入方案还在不断出现,但就其成熟程度和方便性、普及性来说,五笔字型码、拼音码、区位码等是较为优秀的编码方案。限于篇幅,在这里我们也只能介绍这几种输入方法。

2.机内码

机内码是指微机在存储和处理汉字时使用的代码。输入码被微机接受后会自动地由汉字处理软件转换为机内码进行存储,机内码目前尚未完全统一,但大部分汉字系统使用的机内码有99%左右是一致的。所以一般不用担心汉字系统之间的“文本文件”兼容性问题,也就是说在一个汉字系统下编辑的文本文件可以在其它汉字系统下使用。机内码占2字节宽度,从理论上讲,它可以代表2\(^{16}\)=65536个汉字。

3.交换码

交换码是指不同汉字系统交换汉字信息时使用的代码,交换码是统一的,目前均使用国际GB2312-80所规定的国标码。事实上,交换码可以看成是机内码的一个子集,不同的汉字系统只是对交换码进行了不同的扩充。

在GB2312-80中,规定了682个图形符号,西文字母和6763个常用汉字,共计7445个字符和汉字,分布在87个区中。6763个常用汉字又分成二级,一级汉字使用频率最高,共计3755个,它覆盖了文书文件中常用汉字的99%。二级汉字共有3008个,二者合计覆盖率为99.99%。

一级汉字按汉语拼音顺序排列,二级汉字则按偏旁部首及笔划多少排列。具体87区分布如下:

l~9区 图形字符

10~15区 空闲未用

16~55区 一级汉字

56~87区 二级汉字

另外,非常用汉字由GB7589—87和GB7590—87两个辅助集作出规定,3个国标总计规定了21039个汉字。但一般的汉字系统均未提供对两个辅助汉字集的处理功能,这是由于这些汉字极少使用,如果万一用到了这些汉字,则往往通过造字的方法进行解决。

三、汉字字库

上面已经讲到,汉字在计算机中是通过各类代码来表示的,但仅有汉字代码还不能将汉字在屏幕上显示出来或者是从打印机上打印出来,而要做到这一点,则要通过汉字字库或字模来实现。所谓汉字字库是指存放汉字字型(而不是汉字代码)的数据集合,其存储媒介一般是ROM(硬字库)或磁盘(软字库)。如果显示某个汉字,先要找其交换码,然后根据其交换码在字库中寻找相应地址处的字型数据,将这些数据从显示器上显示出来。打印汉字时也是类似的原理,只不过结果送至打印机而已。汉字字库按其使用目的来说有显示字库和打印字库两类;显示字库一般是16×16点阵式的,目前也有使用24×24点阵的,点阵越高,字符的清晰度也越好,但只能在高分辨率的显示器中得以体现;打印字库有点阵字库和矢量字库两种,其中点阵字库又有24×24,32×32,40×40,48×48,64×64,72×72等等多种,点阵越高,打印字体也越漂亮,但高点阵字库需要占用极大的磁盘空间。矢量字库是相对较新的一种构造字库的方法,在字库中它只保留汉字的某种结构信息,在输出时需要由某种算法进行转换,其特点是占用磁盘空间小,输出精度与汉字大小无关等。

四、汉字输入方法

这里我们暂时回避具体的汉字软件,先来介绍一下常见的汉字输入方法。选择输入方法一般是通过Alt键和F1~F10功能键的组合实现的,如Alt+F1一般指区位码输入方法,对不同的汉字系统,一般只要走一遍Alt+F1~F10均可以找到某种输入方法,只不过是各种汉字系统有些细微的差别罢了。

1.全拼双音输入法

全拼双音输入法采用标准的汉语拼音方案,用键盘上除V外的25个英文字母键作输入,按照某个汉字的拼音逐个输入相应的字母,然后从提示行中给出同音的所有汉字,这些同音字一般按使用频率作先后排列,同音字较多时,还可以“向后翻页”或“向前翻页”,直至找到所需的汉字,每一页的后面有个数字表示后面还有多少个同音的汉字,翻页一般是通过一对键“〈“和”〉”(或者“-”和“+”)来实现的。如要输入中国的“中”字,则先选择全拼输入方式(一般为Alt+F2),然后输入“中”的拼音Zhong,这时可以看到提示行(屏幕最底下的一行)有如下信息:

图1
图1 🔍原图 (882×158)

这时再输入1便可以将“中”显示在屏幕上。也可以选择其它的汉字,只要输入汉字前面相应的数字就可以了。但若在同一页中要选多个汉字时,必须使用Alt键,如上例中若第一次选择了1,输入“中”字,若还要输入“众”字,则必须键入Alt+4。在提示行中[007]代表与zhong同音的还有另外7个汉字,这时需要“翻页”才能显示余下的汉字,但要注意的是,若已选择了本页中的某个汉字。则不能进行“翻页”,若要寻找后续汉字,则必须重新输入其拼音,再进行“翻页”。

在全拼双音输入法中,还有输入自然结束和输入非自然结束之分,自然结束是指某个汉字的拼音后面若再加上字母便不是其它汉字的拼音了,如上面说的zhong。自然结束的汉字在输入其拼音码后,在提示行中会自动显示与该汉字同音的所有汉字,如“中”字。非自然结束是指某个汉字的拼音加上某个字母后会成为另一个汉字的拼音,如“家”为jia,该拼音加上n后会是“建”的拼音jian,而jian加上g后又会成为“将”jiang的拼音,jiang后再加任何字母也不会成为其它汉字的拼音了。所以“将”是自然结束,而“家”、“建”均不是自然结束,在输入jia或jian后,提示行中并不立即显示汉字,而是要再按一下空格键才能将所希望的汉字显示出来。

全拼双音输入法是最早提出来的,也可以说是最直接自然的一种输入法,但它有不可弥补的缺陷:重码多,输入速度慢,而且要求使用者能说标准的普通话。

为了解决重码多(多个汉字具有相同的拼音)的问题,有些汉字系统允许全拼双音输入法有“双字输入方式”(如WPS汉字系统),也就是说一次可以输入一个词组的拼音,由于词组同音比单个汉字同音要少得多,所以双字输入法在一定程度上解决重码问题。在WPS中,Ctrl+F2用于设置双字输入方式,这时提示行为:

图2
图2 🔍原图 (886×170)

此时若要输入“现实”,则可以键入xian shi(注意,由于xian是非自然结束,所以输入完后要按一下空格键,再输入shi),这时提示行为:

图3
图3 🔍原图 (894×196)

选择1便输入了“现实”两个汉字

2.国标区位输入法

国标码、区位码都是由国标GB2312一80所定义的,它由4个数字组成,前两个数字代表区号,后两个数字代表该区中的某个汉字,如汉字“啊”的区位码是3021,“行”是5050等。由于每个汉字仅与一个区位码一一对应,所以区位码输入方法不产生重码,但由于极少有人能全部记住所有汉字的区位码,所以该输入方法的输入速度慢,只作为辅助的输入手段,在用其它输入方法难于找到某个汉字或特殊符号时才使用这种方法,而且使用前要先查区位码表(有些汉字系统提供了查区位码表的功能,如WPS等)。

区位码输入法都使用Alt+F1组合键进行转换,这时提示行为:

图4
图4 🔍原图 (880×175)

若直接输入四位数字,则得到以其为区位码的汉字或特殊符号。但应注意WPS中已将区位码作了某种修改,它将两字节汉字第一位字节均加1,即3021在WPS中为B0A1,5050为D0D0。(未完待续)(杨锡平)