让扫描仪“复印”资料
应用百分百
笔者花了一个多月的时间,将单位的一套认证文件输入电脑,并打印了一套供使用。不过,由于未做备份,结果这套文件在同事的一次误删除操作后就永远“消失”了。而这套文件马上要换版,很多内容都只须在原有文件的基础上进行修改即可,难道要把这套文件重新输入电脑吗?单位新买了一台EPSON Perfection 1670扫描仪,在这款扫描仪的说明书中,笔者看到它具有将资料扫描到硬盘上、并进行再编辑的功能,便决定用它试一试。
把文件“复印”到硬盘上
1.文本预扫描
将扫描仪连接好并安装完驱动程序。进入工作状态,把已经打印装订的那一套资料放入扫描仪中。点击桌面上的“EPSON Smart Panel”图标,进入扫描控制面板(图1),选中Document栏下的Scan to OCR命令(OCR是光符识别软件,是一种允许计算机“阅读”图形字体的技术),此时扫描仪自动调用“丹青中英文文件辨识系统”(此系统是在安装扫描仪驱动的时候被安装的)。首先单击工具栏上的“扫描”命令,此时扫描仪启动OCR程序自动对所扫描的文字进行辨识,进行一次预扫之后,文字资料已经像照片一样被显示出来了,不过此时的文本不能进行文字编辑,还要进行进一步的处理。

2.文件辨识
在进行文件辨识之前,还要进行辨识字集的设定。丹青中英文文件辨识系统共有4套字集,分别是繁体常用字集、繁体一般字集、繁体全字集、简体字集。因为这套文件都是普通的简体字,我选择“格式→设定辨识字集→简体字集”。
为了方便以后的排版还要设定版面格式。版面格式的设定主要用于设定欲辨识文件的属性,包括文件的横/竖排、单/多栏、所使用的语言及表格相关的设定等。选择“格式→版面设定”命令,就出现如图2所示对话框,依据文件的内容选择所需要的版面(一般采用默认方式)。

最后单击工具栏上的“辨识”命令,此时OCR软件开始对扫描结果进行进一步的辨认识别,配合工具栏上的“词库校对”功能,对文本进行进一步的核查,至此扫描输入工作已经基本完成了。
3.文本输出
单击工具栏上的“保存”按钮,出现如图3所示的对话框。在这里可以选择文本保存的格式。其中“文本文件(GB2312)”输出为TXT 纯文本文件,选择此种文件格式系统将只保存文件中的文字部分而不会保留其中的图形;“MS_Word 文档格式”会将文件保存为Word文档,若文件中包含图形,系统会将图形保存为JPEG文件并依次序编号。在此我选择了将它保存为Word文档。

批量修改巧编辑
不要认为工作就此结束了,虽然将资料“复印”到硬盘上,但是离规范文本还有差距,进行一些修改就更完美了。
1.消除烦人的文本框
输出到Word文档的文本是用文本框来划分边界的,但是对于文档内容的添加操作,文本框却起了阻碍作用。我的目的是将文本框中的文字内容复制到没有文本框的空白处。如果使用普通的“复制、粘贴”命令经常会连带文本框一同复制过来,文本框就如影随形一样,怎么都摆脱不掉。经过几次实践,我发现使用“选择性粘贴”可以解决这个问题。选中要复制的文本,单击“复制”,将光标移动到空白处,选择“编辑→选择性粘贴”打开如图4所示对话框。选择其中的“无格式文本”命令,即可摆脱难缠的文本框。

2.英文标点批量转换
在我所复制的资料中有很多类似于1.1、3.2之类的章节序号,但是扫描时,软件已经“自作聪明”地把它们变成了全角的英文标点或逗号(1,1或1.1),无论哪一种符号对于规范的文件来说都是不允许的。此时要用到“查找替换”命令了。将全角的英文标点或逗号选中复制到“查找内容”栏中,再将半角英文标点中的“.”复制到“替换为”栏中,单击“全部替换”按钮,文档在几秒钟后就变得非常规范了。
掌握了上面的规律和技巧,一篇一千字左右的文档在两三分钟之内就可以“复印”到硬盘上,省去了手工输入的麻烦。
得益于EPSON Perfection 1670扫描仪的新增功能,使我轻松地完成了工作。但是这项新增功能只支持印刷品,并不支持手写的文本,且对纸张的要求较高。如果纸质发黄,扫描仪会自动将它作为图片处理,而不会将它转化为可编辑的文本了。