文字识别 一招制胜

董师傅

“董师傅,许多网站都有防拷贝措施,不能复制网站里的内容,只能截屏保存,但是保存下来的图片文件只能查看,想要编辑的话还真难倒我了,难道要我照着图片中的内容一个字一个字地重新录入吗?”

了解原理 导入图像

遇到这种问题,你需要先了解一个概念——光学字符识别(OCR),这是一个由电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。所以我们需要一款好用的OCR软件——ABBYY FineReader 11 Professional Editor。它是目前最好用的OCR软件之一,而且识别率非常高,甚至能识别出图片中的文字。

ABBYY功能非常强大,按你的需求,可以在“新建任务”中点击“文件(PDF/图像)至Microsoft Word”就可以开始工作了(如图1)。接下来会弹出打开图像的窗口,让你选择PDF或者图像文件,浏览到相应文件即可(或者直接把要识别的图像或者PDF文件,拖放到ABBYY主界面,也会自动导入图像文件的)。

25-f5-1-1.jpg

拖放到主界面后,会自动出现“正在将图像添加到文档”的窗口,显示打开、识别的进度。完成之后就可以看到ABBYY的工作成果,效果不错(如图2)。

25-f5-1-2.jpg

和原始文件相比,ABBYY基本能做到原汁原味的保留。原来的图片区域,识别后单独区分,而文字区域则转换成可编辑的文字。细心的你可能会发现,在图像区中,有不同的颜色块,其实,那些不同的颜色块,代表了不同的区域类型,比如粉色的是图片区域,绿色的是文字区域,紫色的是表格区域等,你可以右击颜色块,然后在弹出菜单的“更改区域类型”中查看对应的区域类型。当然你也可以修改区域类型,比如包含文字的图片区域,被ABBYY识别为文字区域,但实际上这个区域不需要识别,那么可以将区域类型改为“图片”即可(如图3)。

25-f5-1-3.jpg

微调细节 输出文档

ABBYY通常会把图片区域中的文字也识别出来,而这些内容并不需要编辑。在区域内点击右键可以看到“删除区域”、“删除区域和所有文本”选项,在此删除默认区域后,可以自己重新划定并指定区域类型(点击鼠标左键不放,画出你要识别的区域,然后再右击,更改区域类型即可)。这一步,可能稍微多费一些工夫,但是,磨刀不误砍柴工,如果版式和文字比较乱,反而加大了后期工作量,仔细地修改识别区域类型,是非常有必要的,点击菜单栏的“读取”按钮,即可重新识别。

我们可以看到,识别率相当高,但是你也知道,软件也不能百分之百识别正确,识别错误是在所难免的。这时候,你可以点击右侧上面的“验证”按钮进行逐一确认。ABBYY就会对它不确定的字符,显示出原始图像文件相应的位置,如果正确,你就点击“忽略”按钮来继续确认下一个不确定的字符。否则,你可以在中间直接敲入正确的字符,或者在下面建议的备选字中选择正确的字符(如图4)。

25-f5-1-4.jpg

最后全部识别修改完毕,你要做的就是导出到Word中了。点击主界面菜单栏上的“保存”按钮就可以直接保存为DOC格式的文档(如图5,如果点击旁边的小三角,则会出现下拉菜单,选择更多格式)。

25-f5-1-5.jpg

保存为Microsoft Word文档后会自动打开转换后的DOC,到这里,原始的图像文件,无论是PDF也好,JPEG也好,都已经变成了可以编辑的Word文档了!

顺便偷偷告诉你一声,如果是英文文档的话,识别率将会超过100%!为什么这么说呢?因为ABBYY在识别过程中,除了准确地识别原始文档的文字外,还会自动纠正原始文档中的错误拼写!