如何用扫描仪OCR

Author: 刘卫京 Date: 2000年 第40期

  如今扫描仪已大量进入我们的家庭和办公场所,利用它来进行文本录入,提高工作效率,真是手到擒来。以下就是我用扫描仪进行OCR(Optical Character Recognition:光学字符识别)的使用经验。
#1    一、前期准备
  所使用的软件:
  1.清华紫光扫描大师;
  2.清华紫光TH-OCRMF7.50;
  3.Microsoft Word 2000;
  4.中文Windows98。
  所使用的硬件:
  1.支持TWAIN标准的扫描仪。(我用的是紫光Uniscan 5C)
  2.赛扬300A、32M内存、4.3G的组装微机。
#1    二、操作过程
  1.扫描大师的使用及扫描仪设定
  启动扫描大师,当然也可直接启动TH-OCRMF7.50选择扫描,为什么用扫描大师呢?首先它扫描功能强大,特别是支持批量和单个图像的扫描,它的批量扫描功能在大量扫描时很有用,可以自动保存图像文件。再者它与TH-OCRMF7.50搭配最好,注意扫描时将图像保存设定为非压缩TIFF格式、PackBit或G4压缩的TIFF格式、BMP格式或PCX格式。但是我认为选非压缩TIFF格式或PCX格式最好,识别率也相对较高。(我曾用过其它的图像处理软件进行扫描,结果用TH-OCRMF7.50打不开图像文件。)
  设定扫描仪:对普通文本、字号大小在5号以上的印刷材料,可选择扫描分辨率为300,扫描亮度为0,注意选用黑白格式。
  2.TH-OCR操作过程
  ①打开磁盘上保存好的图像文件
  ②进行图像版面处理
  对扫描所得图像文件根据需要进行处理(旋转、反转、剪裁、倾斜校正、版面分析等等),为识别做好充分准备。
  注意:要选择进行文字识别的区域,如果不选择,则认为是对整篇图像进行识别。在对整篇图像进行识别时,识别区域中不能包含有插图(如有插图另外处理)。
  ③进行识别及修改
  选择“命令”下的“识别”命令或用工具条上的识别钮完成文字的识别。完成识别后,系统自动进入编辑修改状态。
  ④识别结果输出
  识别结果经修改编辑后,可根据需要通过复制输出到其它应用程序中(如WORD2000、WPS2000等),也可直接存盘。
  3.用Microsoft Word 2000进行排版,为什么用Microsoft Word 2000呢?主要是用它强大的替换和中文校对功能。因为我们识别出来的文本复制到WORD是每行成一个段落的,要是一个一个地把回车符号删除,岂不累死。我是这样做的:首先把所有的回车符(^P)替换成空,也就是不在“替换为”框内输入内容即可,然后再根据段间的空格替换成回车符(^P),两次操作就可轻松搞定。Microsoft Word 2000后台简体中文校对也很实用,在确信有错误的中文词语下面,将显示红色的波形下划线;在不能确定是否有误但强烈建议你仔细检查的中文词语下面,将显示绿色的波形下划线,自动帮你查找错误,何乐而不为呢?
  以上介绍中,以TH-OCRMF7.50软件的使用最为重要,其它都为辅助,可选其它软件替代,在紫光扫描仪的主页有扫描大师及TH-OCR的共享版供下载使用,大家可下载一试,假如你现在买了紫光扫描仪的话,那么你就可以免费得到TH-OCRMF7.50专业版了,而且各种工具齐全,赶快行动吧!