让文字输入飞起来

应用之道

情境1:作为秘书的小王接到一个任务,把去年的单位管理规章制度材料再提一份出来。可她却忘了存放在哪儿了,在电脑里搜索,但是没找到,心想可能是误删除了吧。于是从档案袋中找到一份原来的打印稿,心想,拿给领导吧!如果以后让我再提一份,怎么办?再打一份,那可足足有30多页啊。

情境2:学校为了给学生减负,给老师买了很多资料,要求以后讲义都必须自己精心选择组织习题。打字速度很慢的物理张老师看着手中的上十本教辅用书,心想,要是能把它输入电脑中,变成题库多好啊。

需要的条件

硬件:一台扫描仪

软件:OCR识别软件(Microsoft Office 2003的附加功能或购扫描仪时附带)

做好了准备之后,我们就能在短时间内把大量的文字和图片材料录入电脑了。

解决过程

1.首先安装扫描仪驱动,然后接上扫描仪,系统找到硬件并自动完成软件的安装。

2.安装专业的OCR识别软件,小王使用的是扫描仪自带的汉王OCR 6.0。

若完全安装了Microsoft Office 2003后,在Office工具栏中会显示出扫描识别功能的快捷方式。如图1所示。

9-b14-1-1.jpg
图1

对电脑和Office软件比较熟悉的小王,虽是第一次遇到这个问题,却也有条不紊。把装订好的文件拆开,端正地放在扫描仪面板上,启动Microsoft Office Document Imaging,按下工具栏上的“扫描”按钮,弹出图2所示的设置对话框,一般保持预设设置,直接点击扫描按钮(有特殊扫描要求的可进行重新设置)开始扫描。 Microsoft Office Document Imaging扫描结束后即开始文字识别,完成后便在窗口中显示结果, 窗口分为“缩略图窗格”和“页面窗格”左右两部分。如果用户连续扫描了多页文档,则缩略图窗格显示各页的缩略图,页面窗格显示当前文档的图像。如图3所示。

9-b14-1-2.jpg
图2
9-b14-1-3.jpg
图3

当需要某页或几页文档中的所有文本时,可以直接运行工具栏中的“将文本发送到Word”按钮,选择添加到Word的文本范围、输出版式以及保存位置。完成后单击“确定”按钮,即可在指定位置自动保存为html格式文档,然后使用“文件”菜单下的“使用Microsoft Office Word编辑”选项就可以编辑了。

应用延伸

小王解决了自己的问题非常高兴,所以也有心情去帮助张老师。Microsoft Office 2003的识别功能很死板,有时分不清图形和文字。这次,她使用了购买扫描仪时附带的汉王OCR 6.0来解决这个问题。因为有更多的手动设置功能,所以扫描出来的结果也很令人满意。

1.启动汉王OCR 6.0,扫描文件,一般灰度图像的识别率大于黑白两色。

2.然后按下工具栏的版面分析,或直接用鼠标手动分析版面(图4),将扫描文档中的图形、文字、表格告诉程序。

9-b14-1-4.jpg
图4

3.按下识别按钮(眼镜形状的图标),程序自动识别文字和表格。然后将识别的错误改正,最好利用程序给你提供的选择文字,这也是程序自学习的过程。实在没有了,再用键盘输入。

4.从“输出”菜单下选择“输出到指定格式”。若选择网页格式,则将完整保存原版面的样式,表格和图片都完好。一般我们选择文本(默认格式),将原材料中的文字识别出来,这是最主要的步骤。

5.利用图形处理软件将扫描文档中的图片转化为黑白两色,插入到文字处理文档中。经过简单的排版,就大功告成了。

如果你也有大量的文字图形需要录入电脑编辑排版,何不试着用扫描仪呢?

点评:其实,OCR软件识别的话题很普遍。但是对于Microsoft Office Document Imaging这种就在自己眼前的OCR工具,大家可能用得并不好。Microsoft Office Document Imaging能保留原文档的段落结构形式,但是对图片的识别能力很差。所以,对于含有图片的文档来说则不太适合。在这种情况下可以考虑使用汉王OCR等专业OCR识别软件。同时,对于网络上的一些含有文字的图片,也可以先用画图程序转换成TIF等图片格式,再进行OCR识别。