汉字输入百花齐放
专题快递
从电子计算机迈入中国大门的那一天起,国内无数的的计算机工作者就在为能让计算机认识中文而努力。时至今日,国内的汉字录入技术无论是传统的键盘输入,还是科技含量和难度都比较高的手写输入、语音输入及OCR扫描输入都已经发展到一个比较成熟的阶段。下面,笔者就先简单介绍一下目前比较流行的几种汉字输入技术的原理及发展近况。
一、键盘输入
众所周知,电脑其实只能认识二进制中的0和1。一般说来,电脑对于语言文字的信息处理,主要还是针对26个英文字母和10个阿拉伯数字以及一些标点符号的表达、识别、传输和复制,但对它们的处理也并不是简单的识别,而是通过它们的ASCII代码进行识别。举个例子来说,当我们在键盘上输入字母“A”时,电脑并不认识这个“A”,但可以认识“A”的代码,也就是“1000001”,并对这个代码进行处理,在显示输出时,再将它还原为“A”,我们就可以看到英文字母A的输入。这是我们用键盘输入一个英文字母的原理。
汉字输入电脑的情况可就没有这么简单了。我们所用的汉字大约有6万个,组成这么多汉字构成的偏旁部首也有600多个,这么大的数量在电脑中使用二进制代码是无法直接表达出来的,解决的办法是先把这些汉字编成字母或数字表达的外码,然后在键盘上输入这些字母或数字,经电脑转换识别,最后还原为汉字输出,这就是我们常见的键盘汉字输入法的一般原理。
二、手写输入
手写输入技术基本上沿袭了人们日常中的书写习惯,很容易被人们接受。一般说来,一个手写输入产品一般由硬件和软件两个部分组成,硬件主要是手写笔和手写板(如(图1)),软件主要是与手写笔结合的手写识别软件。

中文手写产品发展至今已经相当成熟,生产中文手写输入产品的公司也很多,比如汉王公司的汉王笔、爱国者的手写笔和手写键盘、清华紫光的紫光笔等等。
三、语音输入
语音输入就是让电脑通过你的语音来识别文字,它是一种自然输入,可以说它是目前汉字输入的最高形式。
目前语音输入技术得到飞跃性的发展,一般说来,一台奔腾级的多媒体电脑,再配置一支麦克风就可以胜任全部工作(如(图2))。语音识别技术的优劣取决于它的识别率(语音识别系统正确识别文字的比率)。语音识别的正确率不可能是百分之百,它与你录入的内容息息相关。严格的说,单独使用语音识别输入法,还不能实现真正的非键盘输入。

四、OCR扫描输入
在现有的几种汉字输入技术中,OCR(光学字符识别)扫描输入大概是是最简单高效的输入方式了,不过它的局限性也最大,只能帮助你扫描、识别那些已经存在于纸上的文字,而且需要配备扫描仪。
当我们将一张印刷体纸张放入扫描仪扫描时,计算机通过扫描仪扫描得到的是一张图像,并不存在任何文字信息。只有借助于OCR软件的识别,才能将图像转化为文字。必须注意的是,OCR是印刷体文字识别系统,只适合于印刷文本的识别。