扫描仪高效OCR的关键

Author: 赵巍 张英 Date: 2001年 3期

#1    1.资料扫描要完整
      单页材料倒无所谓,扫描书籍时要特别注意书脊部分。如果压得不平,靠近书脊的部分有可能扫描不到,识别当然无从谈起。此外,材料要尽可能放置得靠近扫描框的前部(上部),因为多数扫描仪常常扫描不到靠近扫描框下部的部分。
  #1    2.矫正位置
      扫描后识别前,应该首先把调入的文件放正再识别,放置倾斜,识别率会大大降低。位置校正有手动和自动两种,最好选用自动。低版本的OCR软件常会发现自动校正功能无缘无故地失灵,这时只好用手动。
  #1    3.设置恰当的扫描分辨率
      分辨率设置不当,低版本的OCR软件可能根本无法识别。扫描仪的默认值通常是300dpi,适用于大多数文字材料。如果需扫描的字太小,分辨率应酌情加大,特别小的字可加大到500dpi~600dpi。当然,字号大,分辨率应该缩小,对于较大字号可用100dpi~150dpi。
  #1    4.清理页面
      提高识别率,关键的关键是页面的清洁。有些印刷品的纸张和印刷质量很差。扫描后可以清晰地看出页面上布满污点,而且笔划残缺,页面不经清理,计算机很难辨认。其实,肉眼看上去印刷质量似乎不错的原始材料也难免出现这种情况。因此必须首先清理页面再识别。通过图像处理软件手动清理,费时费力。高效、快速的方法是通过调整图像对比度和亮度来清理。首先要注意,扫描要使用256灰度,不要使用黑白二值。我通常使用Photoshop在扫描之后进行页面清理。Photoshop的图片处理功能要比其它软件强大得多,使用也方便得多。使用的方法是,在Photoshop打开需要处理的文件,选主菜单/image/adjust/levels,调整output或者input的对比度和亮度均可。^03050602a^1所示,是调整input level的页面。调整时要注意页面的变化,要调到污点清除而字体最真切。为了清晰地观察调整的效果,最好先放大图像。这种页面清理也可以通过扫描仪所附的设置完成,通常是在预扫描之后终扫描之前进行,比如纸张不好的报纸,可把对比度调到100%,把亮度调到-30~-20,会得到满意的扫描结果(^03050602b^2)。
      注意:不管通过哪种途径进行调整,最后都要把灰度格式变到黑白,否则OCR软件不能识别。如果使用的是Photoshop,更改方法是打开主菜单/image/mode,选中bitmap即可。
      为了得到最清洁的页面,对比度和亮度的调整会因使用的程序的不同而不同。比如Photoshop的值就不同于扫描仪。而不同的原始材料,最佳值可能相距甚远。有时扫描同一本书,比如书页的纸张也可能有差异,因此也必须采用不同的对比度和亮度。使用多了,便会有经验,很容易就会调到最佳值。
  #1    5.省去预扫描,节约时间
      预扫描为的是确定扫描范围,除此并没有其他目的。在处理大量页面相同的材料时,为了节省时间,可以仅仅预扫描第一页,其余页面不必再进行预扫描。扫描第一页时,记好在扫描框上放置的位置,以后各页都按此放置即可。TH-OCR MF7.5有一项设置,允许直接扫描而不进行预扫描,很方便。设置的方法是,打开主菜单的“文件”,选中“直接终扫”。
  #1    6.直接打印
      如果仅仅想把材料保存下来,而需要保存的材料又不多,纸张和印刷质量也还可以,扫描后也可以不进行文字识别,直接打印。这种方法等于复印,因此绝对不会出现识别错误之类的问题。但是,这种处理办法是把文字材料当作图片,占用空间当然很大,不适合一次处理量大的资料。同时,扫描仪的精度比复印机高得多,哪怕纸张上有一点微疵它都会扫描出来。因此,为了得到干干净净的复制品,在打印前应先进行页面清理为好。除非原始材料的印刷质量和用纸非常好,否则,打印出的材料会出现污点。
  #1    7.使用高版本OCR软件扫描
      目前大多数用户使用的文字识别软件是清华紫光的TH-OCR,自MF7.5版本起,功能增强许多。就以矫正位置来说吧,以前的版本不论自动还是手动,不但有时作不到精确的矫正,影响识别率,还常常在矫正时发生故障。MF7.5版本的自动矫正功能则得心应手。再比如,以前的版本在识别后总要遗留下极占空间的垃圾文件,硬盘小,会被它们撑破的。经设置,MF7.5版本可以自动消除这些垃圾。再有,这种版本的适应性大大提高了,因此对印刷和纸张质量的要求不再那么苛刻。纸张和印刷质量即使低劣些它的识别率也相当高。