OCR使用的常见问题及解决

Author: 王翔蔚 Date: 2000年 第48期

  OCR是英文Optical Character Recognitiond的缩写,意思为光学字符识别,是扫描仪处理文稿的最重要软件。下面将向大家介绍的是在使用OCR软件时遇到的问题及解决方法,希望对大家有所启发和帮助。
#1  一、软件的兼容性
  我们在购买扫描仪的时候,一般都会随机获赠一款OCR识别软件。下面就讲解两款主流OCR软件的兼容性问题。
  1.紫光OCR
  清华紫光OCR V7.5 32位专业版是紫光系列扫描仪随机附赠的OCR软件,它具有支持的图像格式多,识别率高,支持表格识别等特点,是一款不错的OCR软件。但它只支持紫光系列的扫描仪,如果在其它品牌的扫描仪上使用,它会显示出错信息,并拒绝工作。
  2.尚书OCR
  尚书5.0这款OCR识别软件,具有识别率高,界面简单友好的特点,特别适合于初学者。它适用于MicroTEK,N-TEK,ScanPAQ,ScanPORT系列扫描仪,该软件只识别自己扫描的图像,很不方便。
  解决方法:其实解决此类问题也很简单,我们可以使用其它图像处理软件来进行扫描,只要扫描得到的图像格式能够被OCR软件所支持、识别就可以了。这里介绍一款专为OCR软件设计的图像增强软件——扫描小精灵,它能有效地提高输入图像质量,它提供的全自动扫描方式、自动存盘功能,特别适合于需要大量处理文稿的用户。根据实验,扫描小精灵的TIF图像输出格式全面兼容紫光OCR V7.5 32位专业版、汉王OCR 5.0、尚书5.0、北信OCR(WPS2000手写系统中携带的)等。此软件大家可以到httP:∥jwsg.yeah.net下载,大小不到140KB。
#1  二、用OCR识别软件处理传真文件
  随着计算机通讯技术的发展,利用计算机收发传真已经不是什么新鲜事了,有的人甚至通过一定的方法把传真机和计算机连接起来作为扫描仪使用。虽然几乎所有的传真软件都支持将收到的传真件存为TIF图像文件,但这种TIF图像文件是不能直接被OCR软件所识别的。
  解决方法:根据我们的实验,2值(BITMAP、黑白)、IBM PC格式、没有LZW压缩的TIF图像格式能够被大多数的OCR软件所识别,可用的OCR软件有紫光OCR V7.5 32位专业版、汉王OCR 5.0、北信OCR等。所以只要将得到的传真文件转换成以上格式就行了。比如PhotoImpact5.0 (扫描仪随机附赠的),利用其文件菜单下的批量转换功能可以很方便的将批量文件转换为IBM PC格式,没有LZW压缩的TIF图像。其它图像处理软件如PhotoShop也可以。
  对于尚书5.0我们还需用到尚书5号OCR软件TIF文件转换器,下载地址是http:∥dihou.126.com,大小不到70KB。此软件能将2值(BITMAP、黑白)、IBM PC格式、没有LZW压缩的TIF图像转换为尚书5.0能识别的格式。使用很简单,按“添加文件”按钮将文件加入待处理的文件列表,按“开始”按钮开始处理,完成后的文件自动加前缀DH-。
#1  三、表格识别和编辑
  1.表格的识别
  紫光OCR和尚书OCR都提供了表格识别功能,尚书OCR做得比较好,能够对表格进行自动识别,但我们在用紫光OCR识别表格时,往往只能识别出表头而无表格。这是因为紫光OCR不能对表格自动进行划分,我们需要进行手动版面分析,单独定义出表格属性。紫光OCR的识别属性分为“横排正文”、“竖排正文”及“表格”,只要将表头单独框起来定义为“横排正文”,再单独将表格框起来定义为“表格”就可以正确识别了。
  2.表格的编辑
  如果我们用WORD等编辑软件将识别后的表格文件直接打开时,表格可能会一团糟,这是因为表格线是被作为字符处理的。解决这个问题最简单的方法是使用WPS 2000,它可以将字符型的表格线直接转换成可编辑的表格。如果我们需要在WORD里进行编辑,只需在WPS 2000里将文件另存为RTF格式就可以了。注意:请不要使用复制粘贴,因为WORD是将WPS 2000的表格作为图片来处理。
#1  四、段落重排
  经常看到一些朋友把识别后的文本复制粘贴到WORD中,利用WORD强大的查找替换功能来去掉多余的硬回车。其实我们完全不需要这样麻烦,尚书OCR、汉王OCR和紫光OCR都提供了段内去硬回车的功能。尚书、汉王使用比较简单,只要在识别后的文本存盘时,选回车设置为软回车就行了。对于紫光OCR则需要在识别完成后,选择文件菜单下的导出命令,将存为类型选为TXT,段内回车字符选为无。注意:一定不要直接存盘,否则不能自动去掉文章的硬回车。
#1  五、文字校正
  文字校正可能是OCR识别中最麻烦和繁琐的工作了,在这里,向大家推荐Readbook作为文字校正的辅助工具。我们用到的主要功能是:
  自动平滑滚屏;可以对文件进行局部编辑;具有“智能分段”功能,可以将每行都是硬回车换行的文章,去掉回车重新排列,并且不破坏原有的段落;启动时可自动装入上次正在阅读的文章。
  Readbook的最新版本为1.42,下载地址为:http:∥readbook.126.com。