OCR字识别系统辅助软件使用技巧

硬件周刊

紫光OCR7.5字识别软件是扫描仪用户比较常用的软件,但该系统使用起来效率不高以及扫描仪硬件冲突问题却让人头疼。经过一段时间的搜寻,笔者找到了几个能让紫光OCR7.5操作明快、一物多用的辅助软件,现写给朋友们参考。

一、仿真复印机软件Photocopier Pro

版本号:1.08
文件大小:449KB
下载地址:http://www.nico2000.com(试用30天)
步骤一:运行Photocopier Pro(如(图1)),进行扫描设置。“settings”是一个参数设置按钮,具体操作不再赘言。主要弄清楚点击按钮后“Options”项属下的主要内容(如(图2)):Force copy to have same size as项是强制复印相同尺寸的页面;Enlarge image to fill page是扩大图像至满页;Auto crop scanned images是自动修剪扫描图像;Let me preview scan results浏览扫描图像结果;Show printer set up dialog before在打印前显示打印机设置 ;Make log file是制作一个日记文件。我们感兴趣的是第四项(Let me preview scan results),如果你要直接复印,则不要在此项复选框上打钩,如果要进行文字识别,则在此项打钩。如果仅仅是复印,为提高复印效率,取消第四项即可。

图1
图1
图2
图2

步骤二:当你按动主界面“copy”按钮后,稍微等上一会儿,系统会弹出一个预览对话框(如(图3)),如果你是复印文档,则点击“print”,打印机就打印出你要复印的文件了。至于复印几份、输出页面内容的布局,要在主界面上选择。如果你仅仅为识别则选择“save as”按钮把扫描图像保存下来。如果你复印与识别都要兼顾,则先对图像进行保存,然后,选择打印命令。
图3
图3

步骤三:启动识别软件,调用复印时生成的图像文件,对后备图像进行必要的编辑修改,就可以对图像进行单张或多张识别。
注意事项:一是扫描模式建议设为黑白,分辨率设置为300dp。二是利用复印文档过程中产生的图像数据接口,输出复印扫描得到的PCX、BMP和TIFF三种格式的图像文件恰好符合TH-OCRMF7.5识别软件对扫描图像格式的要求。三是复印身份证最佳配置为:把打印模式选为“copy in color”,这种复印设置质量是机械复印机所无法比拟的。四是识别印刷质量差的文稿,最好先复印一份,识别效果会更好一些。

二、扫描小精灵

版本号:1.20
文件大小:135KB
下载地址:http://jwsg.yeah.net(下载后可以直接在该主页上进行注册)
步骤一:运行扫描小精灵软件(如(图4)),点击主界面上扫描按钮,系统即刻开始工作,进行一系列处理,图像也会被自动保存,如果你设置的参数是“纯复印机”,则直接打印出文档。需要特别指出两点:一是通过“扫描小精灵软件”自动保存的扫描图像,免除了目前所有的OCR软件必须进行的恼人“预扫”,该软件能够智能化地选择阈值的工作。

图4
图4

对于经常处理印刷质量不高的文稿的OCR用户来说,其好处是不言自明的,因为它对报纸文稿处理有特效。该软件实现了灰度文稿图像的动态二值化,能自动判断文稿的局部灰度,得到较好的二值图像。实验证明:对那些纸质很差的文稿其处理效果大大优于一般的自动/手动阈值法。
步骤二:启动识别软件。调用在输出路径上自动生成的图像文件,就可以直接对图像进行单张或多张识别。
注意事项:一是扫描模式为灰度,分辨率设置为300dp。二是只要是能读取TIF、PCX黑白二值图像文件的OCR,软件都可以调用经过本软件增强的文稿,可用的软件有:文通OCR、紫光OCR、尚书OCR、蒙恬OCR、TextBridge、WordLinx等等一系列的中文或英文识别软件。三是由于使用了微软的动态链接库,所以需要寻找MFC42.DLL及COMCTL32.DLL等动态库来支持。四是该软件着眼于处理大量文稿。