怎样提高扫描仪OCR识别率

硬件周刊

光学字符识别技术(Optical Character Recognition)简称OCR,它是一种智能的图像识别技术,OCR软件通过这种识别技术能将原图形方式存在的点阵图像中的文字转换成文本格式的字符,以便我们进一步处理。OCR软件在现代化办公中有着举足轻重的地位,并随着扫描仪的不断降价,开始进入家用市场。
虽然OCR操作步骤看似简单,其中却暗藏着很多技巧,下面就听笔者一一道来!

原稿的处理

原稿的质量直接影响到扫描出来的图像质量,更会直接影响最后OCR的正确率。例如报纸,在进行扫描之前,如果我们对它进行适当的处理,最终的OCR效果可能会有质的改变。对于报纸这样的低质量稿件,笔者的经验是扫描之前可以考虑先用复印机进行复印。复印的时候注意调节对比度和亮度,使背景变成白色,而文字色泽保持黑色即可。经过复印以后的报纸,OCR的识别率有明显的提高,完全可以和打印稿相比。

扫描的技巧

原稿在扫描仪中一定要正确放置,不能倾斜放置,否则扫描出来的字体也是倾斜的,OCR软件将无法正确识别。如果实在无法将原稿摆正,那就需要使用“自动倾斜校正”或者“手动纠斜”功能纠正字体的倾斜。如果文档扫描的时候稍微倾斜,可以利用OCR软件的“倾斜校正”功能纠正。
扫描书本的时候更要注意,因为书本中央的脊会翘起,导致中央部位图像变形,所以一定要将书本的脊压平以后再进行扫描。
选择适当的分辨率也是很重要的,对于一般大小的文字使用200~300dpi分辨率进行扫描就比较合适,分辨率太高没有太大意义,只会增加扫描时间!
大多数情况下,扫描出来的图像,不能直接进行OCR,因为此时的图像常常会有污点干扰识别率,我们需要使用图像处理软件将这些污点擦去。常见的图像处理软件,如Photoshop、ACDSee都非常不错。如果污点较少,我们可以直接使用上述软件中的橡皮擦工具将污点擦掉。但是如果当原稿图片质量较差,文档遍布污点,我们又怎么办呢?这时,只要通过调节图像对比度和亮度就能达到消除遍布的污点的目的。而且,即使文档扫描出的图像没有污点,我们也可以适当地调节对比度和亮度,因为这样可以增加文字和背景的对比度,能提高OCR软件的识别率。
((图1))和((图2))中是亮度和对比度调整前后的对比:由于原稿取材于报纸,因此没有调整之前,前景和背景色调接近,对比不强烈。直接转换成黑白图片后,字体周围有较多污点。经过调整后,污点已经大大减少。

图1
图1
图2
图2

最后要注意的是,不论使用哪种图像处理方式,必须保证文字笔画的连续性,一旦文字中笔画有断开的情况,就会严重影响识别率。

版面分析

如果需要识别的文档包含有多种大小或者字体的文字,那么我们就需要进行版面分析,将大小和字体一致的文字划为一个块,这样OCR软件才能正确识别。另外,当你划分文字块的时候,每个块的上面会出现一个数字,这是代表该块被识别的顺序,如果你需要调整识别后文字的顺序,就必须在定义块的时候就设定好。

OCR软件

其实,OCR的识别率很大程度上取决于对原稿的处理和扫描后的调整,只有一小部分取决于OCR软件,市场上大多数OCR软件的性能相差无几,因此我们觉得OCR软件并不是很重要的,即使是扫描仪附送的软件也基本上能满足OCR的需要。
当然,市面上比较流行的OCR软件在功能、识别质量以及操作的方便性上可能较OEM的OCR软件要好,所以你也可以根据自己的习惯选择适合的OCR软件,比较好的有清华TH-OCR、中晶尚书、汉王OCR、丹青等等,但是应当注意,有些专用的OCR软件可能并不支持你的扫描仪。

校对和排版

经过一番调整,OCR识别的正确率仍然难以达到100%,这就少不了校对。汉字、英文字母和数字混排,以及标点符号都是容易出错的地方,因此在校对的时候要特别注意这些地方。如果文档太长而且很复杂,你还可以借助一些工具来帮助校对,例如能读出文章的软件,一边听读,一边看原稿,有了错误就可以马上发现。