如何用扫描仪OCR

Author: 刘卫京 Date: 2000年第40期

　　如今扫描仪已大量进入我们的家庭和办公场所，利用它来进行文本录入，提高工作效率，真是手到擒来。以下就是我用扫描仪进行OCR（Optical Character Recognition：光学字符识别）的使用经验。
#1 一、前期准备
　　所使用的软件：
　　1.清华紫光扫描大师；
　　2.清华紫光TH－OCRMF7.50；
　　3.Microsoft Word 2000；
　　4.中文Windows98。
　　所使用的硬件：
　　1.支持TWAIN标准的扫描仪。（我用的是紫光Uniscan 5C）
　　2.赛扬300A、32M内存、4.3G的组装微机。
#1 二、操作过程
　　1.扫描大师的使用及扫描仪设定
　　启动扫描大师，当然也可直接启动TH－OCRMF7.50选择扫描，为什么用扫描大师呢？首先它扫描功能强大，特别是支持批量和单个图像的扫描，它的批量扫描功能在大量扫描时很有用，可以自动保存图像文件。再者它与TH－OCRMF7.50搭配最好，注意扫描时将图像保存设定为非压缩TIFF格式、PackBit或G4压缩的TIFF格式、BMP格式或PCX格式。但是我认为选非压缩TIFF格式或PCX格式最好，识别率也相对较高。（我曾用过其它的图像处理软件进行扫描，结果用TH－OCRMF7.50打不开图像文件。）
　　设定扫描仪：对普通文本、字号大小在5号以上的印刷材料，可选择扫描分辨率为300，扫描亮度为0，注意选用黑白格式。
　　2.TH－OCR操作过程
　　①打开磁盘上保存好的图像文件
　　②进行图像版面处理
　　对扫描所得图像文件根据需要进行处理（旋转、反转、剪裁、倾斜校正、版面分析等等），为识别做好充分准备。
　　注意：要选择进行文字识别的区域，如果不选择，则认为是对整篇图像进行识别。在对整篇图像进行识别时，识别区域中不能包含有插图（如有插图另外处理）。
　　③进行识别及修改
　　选择“命令”下的“识别”命令或用工具条上的识别钮完成文字的识别。完成识别后，系统自动进入编辑修改状态。
　　④识别结果输出
　　识别结果经修改编辑后，可根据需要通过复制输出到其它应用程序中（如WORD2000、WPS2000等），也可直接存盘。
　　3.用Microsoft Word 2000进行排版，为什么用Microsoft Word 2000呢？主要是用它强大的替换和中文校对功能。因为我们识别出来的文本复制到WORD是每行成一个段落的，要是一个一个地把回车符号删除，岂不累死。我是这样做的：首先把所有的回车符（^P）替换成空，也就是不在“替换为”框内输入内容即可，然后再根据段间的空格替换成回车符（^P），两次操作就可轻松搞定。Microsoft Word 2000后台简体中文校对也很实用，在确信有错误的中文词语下面，将显示红色的波形下划线；在不能确定是否有误但强烈建议你仔细检查的中文词语下面，将显示绿色的波形下划线，自动帮你查找错误，何乐而不为呢？
　　以上介绍中，以TH－OCRMF7.50软件的使用最为重要，其它都为辅助，可选其它软件替代，在紫光扫描仪的主页有扫描大师及TH－OCR的共享版供下载使用，大家可下载一试，假如你现在买了紫光扫描仪的话，那么你就可以免费得到TH－OCRMF7.50专业版了，而且各种工具齐全，赶快行动吧！