文字识别一招制胜

董师傅

2012年6月25日第25期

“董师傅，许多网站都有防拷贝措施，不能复制网站里的内容，只能截屏保存，但是保存下来的图片文件只能查看，想要编辑的话还真难倒我了，难道要我照着图片中的内容一个字一个字地重新录入吗？”

了解原理导入图像

遇到这种问题，你需要先了解一个概念——光学字符识别（OCR），这是一个由电子设备（例如扫描仪或数码相机）检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。所以我们需要一款好用的OCR软件——ABBYY FineReader 11 Professional Editor。它是目前最好用的OCR软件之一，而且识别率非常高，甚至能识别出图片中的文字。

ABBYY功能非常强大，按你的需求，可以在“新建任务”中点击“文件（PDF/图像）至Microsoft Word”就可以开始工作了（如图1）。接下来会弹出打开图像的窗口，让你选择PDF或者图像文件，浏览到相应文件即可（或者直接把要识别的图像或者PDF文件，拖放到ABBYY主界面，也会自动导入图像文件的）。

拖放到主界面后，会自动出现“正在将图像添加到文档”的窗口，显示打开、识别的进度。完成之后就可以看到ABBYY的工作成果，效果不错（如图2）。

和原始文件相比，ABBYY基本能做到原汁原味的保留。原来的图片区域，识别后单独区分，而文字区域则转换成可编辑的文字。细心的你可能会发现，在图像区中，有不同的颜色块，其实，那些不同的颜色块，代表了不同的区域类型，比如粉色的是图片区域，绿色的是文字区域，紫色的是表格区域等，你可以右击颜色块，然后在弹出菜单的“更改区域类型”中查看对应的区域类型。当然你也可以修改区域类型，比如包含文字的图片区域，被ABBYY识别为文字区域，但实际上这个区域不需要识别，那么可以将区域类型改为“图片”即可（如图3）。

微调细节输出文档

ABBYY通常会把图片区域中的文字也识别出来，而这些内容并不需要编辑。在区域内点击右键可以看到“删除区域”、“删除区域和所有文本”选项，在此删除默认区域后，可以自己重新划定并指定区域类型（点击鼠标左键不放，画出你要识别的区域，然后再右击，更改区域类型即可）。这一步，可能稍微多费一些工夫，但是，磨刀不误砍柴工，如果版式和文字比较乱，反而加大了后期工作量，仔细地修改识别区域类型，是非常有必要的，点击菜单栏的“读取”按钮，即可重新识别。

我们可以看到，识别率相当高，但是你也知道，软件也不能百分之百识别正确，识别错误是在所难免的。这时候，你可以点击右侧上面的“验证”按钮进行逐一确认。ABBYY就会对它不确定的字符，显示出原始图像文件相应的位置，如果正确，你就点击“忽略”按钮来继续确认下一个不确定的字符。否则，你可以在中间直接敲入正确的字符，或者在下面建议的备选字中选择正确的字符（如图4）。

最后全部识别修改完毕，你要做的就是导出到Word中了。点击主界面菜单栏上的“保存”按钮就可以直接保存为DOC格式的文档（如图5，如果点击旁边的小三角，则会出现下拉菜单，选择更多格式）。

保存为Microsoft Word文档后会自动打开转换后的DOC，到这里，原始的图像文件，无论是PDF也好，JPEG也好，都已经变成了可以编辑的Word文档了！

顺便偷偷告诉你一声，如果是英文文档的话，识别率将会超过100%！为什么这么说呢？因为ABBYY在识别过程中，除了准确地识别原始文档的文字外，还会自动纠正原始文档中的错误拼写！

文字识别 一招制胜

了解原理 导入图像

微调细节 输出文档

文字识别一招制胜

了解原理导入图像

微调细节输出文档