将扫描的表格变成Excel文件

数字办公

黑龙江黄建华 · 2007年12月10日第49期

刚开学不久，学校领导就交给我一个非常艰巨的任务：在最短的时间内把全县的上学期参加中考学生的成绩排出来，作为内部参考。而提供给我的是厚厚一叠纸质文档，这要是一个字一个字地敲要敲到什么时候啊？经过一阵思考后思路在头脑中逐渐清晰起来。说干就干，看我几个步骤搞定这个问题。

所需工具：扫描仪；Word、Excel；尚书七号OCR软件。

1.扫描表格。首先依次把表格扫描成TIF图像文件备用。扫描时300dpi就可以，太高的话识别率反而下降，而且处理时间加长。文件名最好与页数相关，这样在查对起来时也更加方便。在预扫时确定扫描的边界，没有用的部分不用扫描，只选择表格体就可以了。

2.进行表格识别。现在轮到本次任务的主角尚书七号OCR识别软件登场了！我个人认为它的表格识别能力还是很强的。一般在买扫描仪时附送，没有的话可以到网上下载一个。在尚书七号软件中，点“文件→打开图像”，找到刚才扫描的表格图像。

这时在右侧图像区中单击左键，选“编辑→旋转图像→右转90度”或按“Ctrl+R”组合键，将图像摆正（这一步根据实际情况进行左旋还是右旋）。

现在图像已摆正了，不过还有一些倾斜。这时点“编辑→自动倾斜校正”或“Ctrl+D”组合键对原稿进行倾斜校正。这一步骤非常重要，直接影响到表格识别率。下面进行表格的识别。点“识别→开始识别”（图1），或按快捷键“F8”，几秒种后识别结果已跃然屏幕上。

下面对识别后的表格文字进行初步校正。一般怀疑有误的地方，软件用红色表示出来。当鼠标放上去时会有图像提示，方便进行校正。在删改后表格线可能有所变动，不用管它。对于0～9的识别错误，有的必须先行加以纠正，例如“3”识别成“：{”，“7”识别成“/”；有的可以在Word中用查找替换的方法加以改正，比如，“0”识别成字母“O”，“1”识别成字母“l”，“5”识别成字母“s”。这样，80%的错误可以在这里消灭。数字间有空格也不用管它，可以进行后期处理（图2）。

3.在Word中进行纠错并生成Excel数据源。将在尚书七号中识别出来的表格和文字复制、粘贴到Word中（2000及以上版本即可）。页面不妨设置为横向A3纸，因为我们只是利用Word进行纠错并生成TXT文件，这样粘贴过来的表格才不致于折行。表头部分不需要粘贴。这时候再把非常明显的错误手动纠正（别忘了时时存盘）。

每张表格识别后都做以上处理，待所有表格都粘贴过来以后，利用Word的查找、替换功能进行纠错。具体操作如下：选择制表符“┣”，按“Ctrl+C”组合键；点“编辑→替换”，在“查找内容”文本框内按“Ctrl+V”组合键，“替换为”文本框内不填任何字符，点“全部替换”，就消掉了所有的“┣”符号。

类似地，我们将“━”、“╋”、“┫”都消掉。这样做的目的就是将每行之间产生的表格线去掉。下面再用此功能，将“．”及“。”替换成小数点“.”，将字母“O”、“l”、“s”分别替换成数字“0”、“1”、“5”，再有把所有的空格也用这种方法去掉。“┃”可以保留，也可以替换成英文的“,”作为间隔符。这样，表格就变成了下面的样子：

接着把这个文件另存为纯文本文件。

4.数据导入Excel。打开Excel软件，点“数据→导入外部数据→导入数据”，“文件类型”选“文本文件”，找到刚才保存的那个纯文本文件，点“打开”进入文本导入向导（图3）。

步骤1中默认的“原始数据类型”就是“分隔符号”，直接点“下一步（N）”。

在步骤2中，“分隔符号”文本框中单击左键，输入英文符号“,”，点“下一步（N）”。

步骤3中，在“不导入此列”前收音机钮上点左键，忽略最前面一列。点“完成”。

再单击“确定”。这样，数据就被导入到Excel中来啦！

下面，再对导入到Excel中的数据进行校验、纠错。这一步骤比较好做，因为在Excel中数字是右对齐的，如果在前面的步骤中有的数据错误没有被纠正，则会被认为是文本数据，左对齐。这样就可以轻松地将它们挑出来进行纠正（图4）。

至此，本任务被完美地完成，效率很高，所用工具也只不过是非常普通的程序。在此将本文写出来希望能对有同样需要的朋友们起到一点帮助，同时起到抛砖引玉的作用。