将扫描的表格变成Excel文件
数字办公
刚开学不久,学校领导就交给我一个非常艰巨的任务:在最短的时间内把全县的上学期参加中考学生的成绩排出来,作为内部参考。而提供给我的是厚厚一叠纸质文档,这要是一个字一个字地敲要敲到什么时候啊?经过一阵思考后思路在头脑中逐渐清晰起来。说干就干,看我几个步骤搞定这个问题。
所需工具:扫描仪;Word、Excel;尚书七号OCR软件。
1.扫描表格。首先依次把表格扫描成TIF图像文件备用。扫描时300dpi就可以,太高的话识别率反而下降,而且处理时间加长。文件名最好与页数相关,这样在查对起来时也更加方便。在预扫时确定扫描的边界,没有用的部分不用扫描,只选择表格体就可以了。
2.进行表格识别。现在轮到本次任务的主角尚书七号OCR识别软件登场了!我个人认为它的表格识别能力还是很强的。一般在买扫描仪时附送,没有的话可以到网上下载一个。在尚书七号软件中,点“文件→打开图像”,找到刚才扫描的表格图像。
这时在右侧图像区中单击左键,选“编辑→旋转图像→右转90度”或按“Ctrl+R”组合键,将图像摆正(这一步根据实际情况进行左旋还是右旋)。
现在图像已摆正了,不过还有一些倾斜。这时点“编辑→自动倾斜校正”或“Ctrl+D”组合键对原稿进行倾斜校正。这一步骤非常重要,直接影响到表格识别率。下面进行表格的识别。点“识别→开始识别”(图1),或按快捷键“F8”,几秒种后识别结果已跃然屏幕上。

下面对识别后的表格文字进行初步校正。一般怀疑有误的地方,软件用红色表示出来。当鼠标放上去时会有图像提示,方便进行校正。在删改后表格线可能有所变动,不用管它。对于0~9的识别错误,有的必须先行加以纠正,例如“3”识别成“:{”,“7”识别成“/”;有的可以在Word中用查找替换的方法加以改正,比如,“0”识别成字母“O”,“1”识别成字母“l”,“5”识别成字母“s”。这样,80%的错误可以在这里消灭。数字间有空格也不用管它,可以进行后期处理(图2)。

3.在Word中进行纠错并生成Excel数据源。将在尚书七号中识别出来的表格和文字复制、粘贴到Word中(2000及以上版本即可)。页面不妨设置为横向A3纸,因为我们只是利用Word进行纠错并生成TXT文件,这样粘贴过来的表格才不致于折行。表头部分不需要粘贴。这时候再把非常明显的错误手动纠正(别忘了时时存盘)。
每张表格识别后都做以上处理,待所有表格都粘贴过来以后,利用Word的查找、替换功能进行纠错。具体操作如下:选择制表符“┣”,按“Ctrl+C”组合键;点“编辑→替换”,在“查找内容”文本框内按“Ctrl+V”组合键,“替换为”文本框内不填任何字符,点“全部替换”,就消掉了所有的“┣”符号。
类似地,我们将“━”、“╋”、“┫”都消掉。这样做的目的就是将每行之间产生的表格线去掉。下面再用此功能,将“.”及“。”替换成小数点“.”,将字母“O”、“l”、“s”分别替换成数字“0”、“1”、“5”,再有把所有的空格也用这种方法去掉。“┃”可以保留,也可以替换成英文的“,”作为间隔符。这样,表格就变成了下面的样子:

接着把这个文件另存为纯文本文件。
4.数据导入Excel。打开Excel软件,点“数据→导入外部数据→导入数据”,“文件类型”选“文本文件”,找到刚才保存的那个纯文本文件,点“打开”进入文本导入向导(图3)。

步骤1中默认的“原始数据类型”就是“分隔符号”,直接点“下一步(N)”。
在步骤2中,“分隔符号”文本框中单击左键,输入英文符号“,”,点“下一步(N)”。
步骤3中,在“不导入此列”前收音机钮上点左键,忽略最前面一列。点“完成”。
再单击“确定”。这样,数据就被导入到Excel中来啦!
下面,再对导入到Excel中的数据进行校验、纠错。这一步骤比较好做,因为在Excel中数字是右对齐的,如果在前面的步骤中有的数据错误没有被纠正,则会被认为是文本数据,左对齐。这样就可以轻松地将它们挑出来进行纠正(图4)。

至此,本任务被完美地完成,效率很高,所用工具也只不过是非常普通的程序。在此将本文写出来希望能对有同样需要的朋友们起到一点帮助,同时起到抛砖引玉的作用。