扫描OCR之经验

Author: 郑优军 Date: 2001年 1期

    扫描仪不仅仅能原版复制图像,如果将它同OCR软件结合起来,你会惊讶地发现,工作原来是如此轻松。下面就是我在扫描OCR中总结出来的经验,很管用的。
      1.选好软件。当然先选一款好的OCR软件,一般不要使用扫描仪自带的OEM软件,OEM的OCR软件的功能少、效果差,有的甚至没有中文识别,经过比较,我选用了清华TH-OCR MF7.50专业版文本自动识别输入系统。再选一个图像软件,OCR软件不是有扫描接口吗?为什么还找图像软件?第一,OCR软件不能识别所有的扫描仪;第二,也是最关键的,利用图像软件的扫描接口扫描出来的图像便于处理;一般选用PHOTOSHOP。
      2.原稿的准备。为了获得最高的识别率,原稿要平整,不能有皱纹,有内容的地方最好没有污渍。将原稿放置玻璃板上时,原稿的边缘要与玻璃板的边缘平行,不能歪斜。玻璃板要保持干净,避免出现杂物。
      3.扫描参数设置。对于用来OCR的图像,我的经验是:图像类型选择黑白,扫描模式选高质量,分辨率选300DPI,缩放选100%,滤镜根据原稿选择。
      4.选取扫描区域。设置好参数后,先预览一下,然后开始选取扫描区域。不要将要用的文章一股脑儿选在一个区域内,因为现在的文章排版为了追求更好的视觉效果,使用图文混排的较多,扫成一幅图像会影响OCR识别。因此,要根据实际情况将版面分成N个区域,怎么划分区域呢?每一区域内的文字字体、字号最好一致,没有图形、图像,每一行的宽度一致,遇到长短不一,再细分,一般一次最多可扫描10个选区。不要嫌这个过程太烦,那可是提高识别率的有效手段。
      5.存盘。扫描出来的图像存盘还有讲究?其实也没什么,存为TIF格式就行。
      6.OCR软件操作(不同软件可能有区别)。打开已扫描好的图像文件,先将图像旋转,直至横排正文。然后进行图像倾斜校正、版面分析,版面分析后要将不是‘横排正文’的版块设置成‘横排正文’,还有,版面分析后,最好再将各板块倾斜校正一下。最后进行识别工作。
      7.编辑。识别后出现编辑窗口,这时打开汉字输入法,不要理会识别系统对可疑字的相似字提示(那样会浪费时间),直接参照修改参照行(又称浮动跟踪窗口,浮动在编辑窗口之内当前行之上或之下,显示了当前行的原始图象信息)进行修改。修改完,OCR工作也就结束了。
      8.字体的区别。经过多次OCR工作,我发现软件对不同字体的识别效果会有所不同,其中对楷体的识别效果最好,仿宋和宋体次之,圆体(特别是细圆体)的识别效果最差。
      9.报纸的扫描识别。由于报纸很薄且大部分纸质不高,导致扫描仪上盖板不能完全压住报纸(有缝隙),所以一般情况下报纸的扫描识别效果没有杂志的效果好。我的解决办法是在报纸上压一至两本16K的杂志,效果还不错。