铅字幻变电子文档──OCR操作轻松学

硬件周刊

OCR是字符识别软件的简称,它可以通过分析扫描仪读取的印刷品上的文字图像信息来识别印刷体汉字。使用扫描仪加OCR可以部分地代替键盘输入汉字的功能,是省力快捷的文字输入方法。下面就以清华紫光TH-OCR 2000千禧版为例介绍一下它的用法。

第一步 参数设置

参数设置直接影响扫描效果,也关系到识别率的高低。参数设置方法是:运行TH-OCR,点击“文件”菜单,选择“扫描设置”选项,打开设置对话框。正常情况下,我们将扫描模式设置为黑白(这样做不仅扫描、识别速度快,而且文件小);将扫描亮度设置为自动或将固定值设为0;将扫描分辨率设定为300dpi。如果文稿质量不好,可适当增加亮度。文稿字号过大、过小,可调整分辨率(见(图2))。

图2
图2

小提示:怎样才知所设亮度和分辨率是恰当的呢?
扫描亮度是否合适,要观察扫描后的文字。如果文字笔划断裂或残缺不全,就是亮度太高;如果文字笔划相互粘连并黑成一团,就是亮度太低;如果文字黑白分明,笔划较细但又不断开就是亮度合适。至于分辨率的设定,有一个推荐值,可供参考。(图1)
图1
图1

第二步 图像获取

图像获取的办法是用扫描仪进行扫描。点击“文件”菜单,选择“扫描”选项,扫描仪自动将文稿扫进计算机,并在计算机窗口左侧出现被扫描的文件名(见(图3))。

图3
图3

扫描时,文稿一定要摆放端正。如果文稿没有摆放端正,稍有倾斜时,可使用倾斜校正功能自动校正。方法是,点击“命令”菜单,选择“倾斜校正”选项。若倾斜角度较大,则需手动校正。手动校正倾斜的方法是:按住Shift键的同时再按住鼠标右键,划出一条与倾斜着的文字平行的直线,然后松开鼠标右键即可。如果倾斜角度大与15度,就应摆正后重新扫描。
小提示:扫描得到的图像必须为白底黑字(即背景是白的,文字是黑的)才可以被识别。如果扫描图像为反白,即黑底白字,就必须进行黑白反转处理。方法是,点击“图像”菜单,选择“反转”选项。

第三步 版面处理

版面分析处理的任务,就是选择需要识别的区域,并明确各区域的属性,以便系统进行识别。选定区域的办法是,按住鼠标左键,移动十字光标,用拉出的矩形套住待选的区域。文稿一般包括横排正文、竖排正文、表格和图形四种类型。选定区域后,先在区域内单击鼠标左键将其激活(该区域变为黄色),然后单击鼠标右键,即可按以上类型对应设置各区域属性。设置后,横排正文的框线为蓝色,竖排正文的框线为红色,表格的框线为粉红色,图形的框线为绿色,图形框线内的内容是不被识别的。文字区域还要选择字体类型,如简体多体、繁体多体等(见(图4))。

图4
图4

小提示:对于结构简单,比如单一格式的普通文稿,框选区域后,系统会自动完成版面分析。对于表格,表头部分应单独框出,设为正文。对于复杂的版面要耐心地进行划分调整,区域分得越细,识别率就会越高。

第四步 识别修改

版面分析处理完成后就可以进行识别。点击“命令”菜单,选择“识别”选项,系统自动进行识别。识别后,文件不直接出现在识别界面中。
点击被识别图像文件左边的“+”号,出现识别后的文件名,双击此文件,即可打开该文件进行编辑修改。当文件为横排时,右侧上部为识别后的文本窗口,右侧下部为局部图像窗口;当文件为竖排时,识别后文本窗口和识别前局部图像窗口左右排列。
小提示:在编辑修改状态,正常识别的文字用黑色显示,可疑字用系统设置的颜色显示(默认为红色),我们可以按照提示,逐个进行改正(见(图5))。

图5
图5

第五步 结果输出

经过编辑修改后就可以存盘了。点击“文件”菜单,选择“导出”选项,在“导出为”对话框中可以选择RTF或 TXT格式。这两种格式都可以用WORD或WPS打开。用RTF格式导出的文件,版式与原稿一模一样,如果想保留原版式或文稿中含有表格,一定要选择此格式。否则可以用TXT格式导出。文件导出后,就可以用WPS或Word等文字处理软件进行编辑并分门别类地保存(见(图6))。

图6
图6