相识,从这里开始──中文OCR软件学习速成

Author: Date: 2001年 38期

?牐犜谇懊娴奈恼轮校乙丫蠹壹虻ソ樯芰艘恍┲髁鞯腛CR软件。我想大家对OCR软件已经有了一个感性的认识。在这一章,我将着重为大家介绍OCR软件的使用方法及使用中注意事项。这里我选取了丹青OCR作具体介绍。至于其他的主流OCR软件,因为其功能和操作都基本相似,所以在这里不再作介绍。
  ?牐犝饫镏饕步饬龇矫娴哪谌荩?
  ?牐?1.丹青OCR的安装
  ?牐?2.丹青OCR的工作界面
  ?牐?3.丹青OCR工作流程
  ?牐?4.丹青OCR文字识别实例
  ?牐?5.丹青OCR小窍门
  ?牐犗M琳咄ü亩粒醪秸莆誒CR软件的使用方法。
  #1?牐犚弧⒌で郞CR的安装
  ?牐牭で郞CR软件是立新国际开发的新一代光学字符识别软件,最新版本为4.0黄金版。
  ?牐犜诘谌糠种形颐且丫樯芰说で郞CR的软硬件工作环境。本次实例所用到的是随ACER扫描仪捆绑的丹青OCR4.0黄金版。其运行平台见下表:
  ?牐犜谏?描之前,我们要对丹青OCR软件进行安装。我们只须一路点击“下一步”,就可完成丹青OCR的安装。安装结束后,在桌面上会出现一个丹青OCR的快捷方式。双击此快捷方式即可启动丹青OCR软件。
  #1?牐牰⒌で郞CR的工作界面
  ?牐犉舳で郞CR软件之后,我们会看到它的工作界面(^38060105a^)。菜单栏分类列出所有可供你使用的命令,如打开、保存、编辑或辨识文件等等。
  ?牐犜诓说ダ钢率强旖莨ぞ呃浮?旖莨ぞ呃干系耐急昕梢匀媚憧焖俚刂葱懈髦殖S貌说ッ睿幻扛龉ぞ呃赶路蕉加幸桓鱿吕降拿畈说ィ晌闾峁└嗟难≡瘛?
  ?牐犜诠ぞ呃傅南旅娣治笥伊礁龃翱冢蟊叩拇翱谑撬趼酝即翱诤臀募晨刂魄K趼酝即翱诮汛蚩奈募运趼酝挤绞较允荆晒┠阒苯友∪ D阋部梢岳孟路降奈募晨刂魄陌醇贫聊阆胍囊趁妗U庖舱堑で郞CR软件的多任务功能的表现之一。缩略图窗口和文件页控制区的右边是工作区。你可在工作区中执行图片处理的工作,例如转正倾斜的图片,清除杂点,切除不需辨识的部分,或是做更精确的版面分析,使得辨识结果更令人满意。
  ?牐犜诠ぷ髑挠疑辖鞘遣榭垂ぞ呃负捅嗉ぞ呦洹2榭垂ぞ呃缚扇媚闼跣』蚍糯笸计南允颈壤⒖裳≡裨逋计J健⑷惩嘉哪J郊拔母灞嗉J健D憧梢岳盟峁┑谋嗉ぞ撸?理辨识过程中各个阶段的文件,例如编辑扫描进来的图片、更改文件的区块设定、校正辨识后的文稿等等。编辑工具箱也会随着辨识阶段的不同为你提供不同的编辑工具。这些工具的具体用途我在后面的实例里将会介绍。
  ?牐犜诠ぷ髑南路交褂幸桓鲎刺福刺赶允灸壳肮獗晁谖恢玫腦座标和Y座标、光标所在物件的相关信息,以及目前所选择的辨识字集。
  #1?牐犎⒌で郞CR工作流程
  ?牐牷诠庋ё址侗鸸ぷ髟恚野袿CR软件的工作流程大致分成了4大部分,它们分别是原稿处理,辨识文件,文稿校对,结果输出。在4个大部分中又包含了若干个小的分支。OCR软件处理工作流程(^38060105b^)。  
  #1?牐犓摹CR文字识别实例
  #2?牐?1.原稿处理
  ?牐?1)原稿的选择
  ?牐犙≡窈米魑皇侗鸲韵蟮脑澹墙形淖质侗鹨约盎竦媒细呤侗鹇实那疤崽跫N颐茄≡裨宓氖焙颍紫纫⒁庠逡秸詈迷迳厦挥形圩铡F浯危颐撬≡竦脑迳系淖痔遄詈檬荗CR软件字库能够识别的字体,这样可以保证较高识别率。最后我们还应该注意扫描仪的清洁问题,不要让扫描仪上的污点影响原稿的质量。
  ?牐?2)原稿的扫描
  ?牐牷谠逖≡裼Ω米⒁獾囊恍┮蛩兀已≡窳艘环萦∷⑻逦谋咀魑濉=酉吕次颐且龅氖嵌栽褰猩?描,使之成为图像文件。首先我们可以在OCR软件中调入扫描仪的驱动程序,执行这一步骤的前提是OCR软件必须识别出扫描仪。我们可以通过“文件→扫描仪”设定来查看一下(^38060105c^)。我们可以看到我所选用的丹青OCR已经成功地识别出扫描仪。
  ?牐犜谌啡狭松?描仪的兼容性后,我们要通过快捷键“扫描”或者通过“文件→扫描文件”或用快捷键F10来调入扫描仪的驱动程序。
  ?牐犜谏?描原稿之前,我们应该对扫描仪的参数作一些最基本设定。扫描仪类型默认为平板扫描仪,图像类型选择黑白模式,扫描模式选高质量,分辨率选300dpi,缩放选100%(^38060105d^)。一般不用选择滤镜,除非你有特殊要求。参数设置中一定要注意选择好分辨率,这是提高原稿质量以及最后文字识别率的保证。当然这也不是说我们选择的分辨率越大越好,我们可以根据不同质量的原稿,选择不同的分辨率。比如:黑白图像的识别我们一般选择300dpi,彩色图像的识别我们一般选择150dpi就够了。
  ?牐犐?描参数设定好后,我们先预扫一下,通过预扫结果来选择扫描识别的工作区。选择好工作区后,我们就可以对原稿进行扫描。因为我们是从OCR软件中调用的扫描程序,所以当我们扫描完原稿后,只须关闭扫描程序,扫描结果就会自动送入OCR软件的文件任务区(^38060105e^)。这样我们对于原稿的扫描任务也就结束了。
  ?牐?3)原稿的处理
  ?牐牰杂谏?描好的原稿文件,我们可以在识别之前进行一些处理工作,比如说去掉多余的污点,把亮度调高一点,或者调一下阈值。这些工作你可以用一些专业的绘图软件完成,比如Photoshop。如果你嫌这样太麻烦,你也可以在扫描程序中完成这些工作,现在大多扫描仪的扫描程序都带有一些图像处理工具(^38060105f^)。此外,OCR软件中也有相关的工具可以使用,比如橡皮工具和铅笔工具。丹青中所带的橡皮和铅笔工具还有许多不同的选项可供选择。(^38060105g^)
  ?牐牨热缭谏?描的原稿文件中,有一些多余的线条(一个五角星和手写的10∶10的字样)。我们就可以通过OCR自带的橡皮工具对原稿来进行修正,图7是修正后的原稿。我们可以看到修正后的原稿上的多余线条已经被擦掉。(^38060105h^)
  #2?牐?2.辨识文件
  ?牐?1)原稿输入
  ?牐犜谏衔闹形以岬剑覱CR软件中调用扫描程序,在原稿扫描完成后,只需关闭扫描程序,扫描的结果就会自动输入到文件任务区。也可以配合键盘上的“Shift”或“Ctrl”键,选择多份文件同时打开。此外,我们也可以通过Photoshop或者其他的专业绘图软件来调用扫描程序,原稿扫描完成后,再把扫描结果存放为OCR软件可以识别的图形文件格式。OCR软件可以通过“文件→打开”来调用这些原稿图片,同样也可以做到使原稿图片输入到文件任务区。这样做的优点是可以在Photoshop中对原稿图片进行一些预处理。
  ?牐?2)二次校正
  ?牐犖抑园颜飧霾街杞凶龆涡U且蛭诖?理原稿的时候已经经过了一次校正。与一次校正的区别在于:二次校正所用到的工具全部是由OCR软件本身自带的,校正的质量和精度更高一些。
  ?牐犝饫锼档亩涡Uㄇ宄拥慵安孤┌住⑶谐δ堋⒎窗坠δ芎颓阈毙Uδ堋G宄拥慵安孤┌资侵溉敉计嫌性拥悖ㄓ绕涫窃谖淖智楦浇胛淖执笮∠嘟脑拥悖?,可利用编辑工具箱上的“橡皮擦”工具将其去除;若图片上有漏白的部分,也可以用“绘笔”工具补上,以提高正确率。而切除功能是指若输入的图片不须全部辨识,你可利用编辑工具箱上的“选择图片区域”工具选取欲保留的区域,再选择“编辑→切除”,将不必要的部分切除。再有就是反白功能,它是指由于丹青系统无法辨识黑底白字的图片,可利用“编辑→反白”的功能,将图片转换成白底黑字之后,再进行辨识。
  ?牐犖颐亲畛S玫降氖乔阈毙Uδ堋G阈毙U前言逋计阈钡牟糠中U础5恢裁吹で嗝挥刑峁┐斯δ堋2还で嗵峁┑脑逍δ埽部梢源锏酵男Ч5で嗟脑逍ㄋ衬媸闭氲母髦纸嵌鹊男颐峭ü氨嗉贝蚩斯δ埽╚38060105i^)。若图片倾斜角度小于3度,此为正常辨识可接受的范围,你不须调整图片角度。而如果图片倾斜角度为90度,则可利用“编辑→旋转→顺(逆)时针旋转90度”的命令,将图片转正。我们通过倾斜校正可以进一步提高原稿的质量,以便最后得到满意的识别结果。
  ?牐?3)辨前设定
  ?牐犜谥葱形淖直媸吨埃憧梢韵茸龊靡恍┍媸肚暗淖急腹ぷ鳎缪≡癖媸蹲旨⒀∪”媸肚颉⑸瓒ò婷娓袷健⒅葱邪婷娣治觥⒅付ㄐ6源士獾龋沟で嘞低吃诒媸妒备焖俣既贰4送猓で嘁蔡峁┳远媸段募墓δ埽邮淙胍灾帘媸兜雀飨盍鞒探阅茏远葱校媚闱崴傻鼗竦孟胍谋媸督峁ㄕ馐堑で郞CR的一大特色,一键搞定)。
  ?牐犗人邓笛≡癖媸蹲旨憧梢匝≡瘛案袷健瓒ū媸蹲旨保付ㄊ屎系谋媸蹲旨魑で嘞低潮媸妒钡囊谰荩煷斯δ芙鲈诘で嗷平鸢?4.0的零售版本中提供?牎?
  ?牐犎裟阋媸墩菸募谥葱斜媸吨安⒉恍枰瓒ū媸肚颉H裟阒幌氡媸恫糠治募蚩上壬瓒ǜ貌糠治媸肚颍阊「们笤僦葱邪婷娣治觥⒈媸兜裙ぷ鳌H裟阋媸妒霰媸肚蚰诘奈淖郑上确直鹕瓒ǜ鞲鲇媸肚颍撕笤僦葱斜媸叮低辰岜媸端猩瓒ǖ谋媸肚颉?
  ?牐牥婷嫔瓒ㄖ饕谟谏瓒ㄓ媸段募氖粜裕ㄎ募暮?/竖排、单/多栏、所使用的语言及表格相关的设定等等。选择“格式→版面设定”命令之后,依照文件的内容选择所需要的设定。
  ?牐犞葱邪婷娣治龅哪康脑谟诮夹斡胛淖滞计蚍掷耄指畛龃媸兜那椋⒕龆ū媸肚榈乃承颍员阆低潮媸丁D憧梢匀孟低匙远葱邪婷娣治觯蜃约荷瓒ㄇ榧氨媸端承颍怀酥猓阋部稍谥葱邪婷娣治鲋螅直鹕瓒ǜ鞲銮榈氖粜圆⒔婷姹4嫫鹄矗毙枰媸断嗤婷娴奈募保憧芍苯拥饔谩?
  ?牐牨热缟?描原稿所得到的原稿图片,我们把辨识字符集设定为简体常用字集。因为在扫描原稿文件时,已经选择了辨识区域,所以在这里辨识区域默认为全部。注意选择好版面设定中的相关参数(^38060105j^),这里我所选择的参数全部为默认值。你也可以根据相关的识别文件信息来进行手动的版面设定。
  ?牐牥婷嫔瓒ㄍ瓿珊螅颐墙酉吕匆霭婷娣治觥7治鼋峁╚38060105k^)所示。从版面分析的结果来看,自动的版面分析把预识别文件按字体分为上下两个部分。到此,相关的辨前设定就完成了。
  ?牐?4)文件识别
  ?牐犜谕瓿墒淙胪计⑸瓒ū媸蹲痔濉⑸瓒ū媸肚蚣吧瓒ū媸端承虻炔街柚螅低潮憧梢愿菽愕纳瓒?开始辨识文件。按一下工具栏上的“辨识”图标,文字的识别工作正式开始了。当然,你也可以通过应用快速辨识模板来进行文字识别,不过首先你要选择“分析/辨识→快速辨识模板设定”来设定一下模板参数(^38060105l^)。这样生成的模板用来高效率地识别大量的格式相似的文档。若你经常辨识某类文件,设定快速辨识模板将可为你省却一一设定的工作,并能快速地呈现辨识后的结果。
  #2?牐?3.结果校正
  ?牐?1)放弃识别
  ?牐牭蓖瓿杀媸豆ぷ骱螅低郴嶙远搿叭诚允敬翱凇被颉拔母逍6源翱凇保媚阈6员媸逗蟮奈谋疚募D憧梢匝≡瘛拔募低成瓒ā保凇跋低成瓒ā倍曰翱蛑兄付ū媸逗笏鱿值幕嫦允灸J剑蛘叩慊鞴ぷ髑疑戏降哪J角谢话磁デ谢坏叫枰哪J剑╚38060105m^)。当然,若你在辨识后想放弃辨识结果并重新设定,请选择“分析/辨识→放弃本页辨识”或“分析/辨识→放弃全部辨识” 将辨识结果消除。
  ?牐?2)文稿校对
  ?牐牼侗鸬脑逦募捎谄浔旧淼那逦群推渌蛩夭豢赡苋空贰K晕颐且ü逍6岳葱U幌率侗鸸讨杏写砦蟮牡胤健?
  ?牐犎裟阋凇叭诚允敬翱凇敝行6晕母澹匆幌卤嗉ぞ呦渖系摹耙晌首咒馈惫ぞ撸母逯械囊晌首只嵋岳兜谆谱值淖盅允尽J褂谩耙晌首咒馈惫ぞ咴诘谝桓鲆晌首稚系阋幌拢⒃诔鱿值摹昂蜓∽帧贝翱谥醒≡裾返淖帧D闼≡竦淖纸崽婊恢付ǖ囊晌首帧H粼凇昂蜓∽执翱凇敝姓也坏侥阋奶娲郑阋部梢允褂靡话愕募淌淙敕ń淖质淙搿H缓蟀聪录躺系摹癝hift”及“F3”键,将光标移到下一个疑问字元。
  ?牐犎裟阋凇拔母灞嗉翱凇敝行6晕母澹梢栽谖募劳贾兄苯拥阊∮6缘那椋蚴窃谖募榱斜碇兄付ㄇ椋枚蔚谋媸督峁鱿钟诠ぷ鞔翱谀冢椅母逯械囊晌首只嵋岳渡盅允尽S檬蟊甑阋幌鹿ぷ鞔翱谀谙低潮媸洞砦蟮淖郑凇拔淖滞计翱凇敝校餐被嵊煤煜呖虺銎涠杂Φ脑衷计?
  ?牐?3)二次辨识
  ?牐犇承┩计赡芪薹ㄊ瓜低匙龀稣返姆指睿⒁蚨斐杀媸渡系拇砦蟆1热缢怠暗摹弊郑行┦焙蛳低郴岜媸冻伞鞍住焙汀吧住绷礁鲎帧U饩托枰闶褂谩安脸拥恪薄ⅰ胺?/合字再辨识”、“分/合行再辨识” 与“分/合区块再辨识”的功能,重新进行辨识。
  ?牐犎コ计系脑拥憧梢蕴岣呦低潮媸兜恼仿省5毕低骋呀胛母逍6源翱诤螅憧梢允褂谩跋鹌げ痢惫ぞ卟脸淖滞计翱谥泻炜蚰诘淖帧?
  ?牐犜霾雇计系穆┌撞糠忠部梢蕴岣呦低潮媸兜恼仿省5毕低骋呀胛母逍6源翱诤螅憧梢允褂谩盎姹省惫ぞ咴霾刮淖滞计翱谥泻炜蚰诘淖帧?
  ?牐牫巳ピ拥愫筒拱坠ぞ咄猓で郞CR还为再识别提供了其它的工具。比如将相邻两个或数个辨识错的字元分开或合并并予以重新辨识。将因两行相连而辨识错的文字分开并予以重新辨识。将被错误分割成两行的文字合并并予以重新辨识。当你发现某区块的版面分析错误,如文字的横竖排列错误或是中英文设定错误时,你可以针对该区块再次辨识。还有可合并被错误分割的区块,再次辨识;可分割被错误合并的区块,再次辨识。
  ?牐犚蛭敬问侗鹗潜冉铣晒Φ模侗鸺蛱搴鹤值恼仿蚀锏搅?100%(^38060105n^),所以也不需要再次识别了。
  ?牐?4)字库校对
  ?牐犘6源士饫锇愠S玫拇驶悖辉诒媸兜墓讨邢低辰滥闼≡竦男6源士庵葱斜媸丁R虼耍谰菪枰瓒ú煌掷嗟拇士猓诒媸恫煌掷嗟奈募保谑∧阍诒媸都靶6怨讨兴ǚ训氖奔洹?
  ?牐犜谑褂米挚庑6灾把≡瘛胺治?/辨识→词库设定”来进行字库的设定(^38060105o^)。
  ?牐犜谏瓒ù士夂螅颐蔷涂梢杂τ么士饫唇懈寮UQ≡瘛胺治?/辨识→词库设定”,指定你要的校对词库,按“确定”即可。在同一个文件的识别中,你可更换不同的词库,重新执行校对,使辨识结果更令人满意。
  ?牐?5)学习新字
  ?牐牭痹谛6晕母迨保粝低尘1娲砟承┪淖郑憧梢允褂谩把?习新字”的功能,将常辨识错的字元输入到学习资料库中,留待以后辨识时使用。你也可依文件的性质,设定各种不同的学习字库。
  ?牐犇憧梢园慈缦虏街枥囱?习新字。选择“分析/辨识→学习新字”命令,屏幕上会出现一个“新字学习”的对话框(^38060105p^)。在对话框的上方为被选取字的图片字(也就是在“文字图片窗口”中被红框选取者),在“输入新字”文本框中输入正确的字,按下“学习”键,将新字输入到学习字库中,并置换工作区内的错误字。
  #2?牐?4.文件输出
  ?牐?1)输出格式
  ?牐犎裟阆氡A粽庑┰诒媸肚熬?描仪或其他方式输入的图片,可将它保存成BMP、TIFF、PCX、JPEG等图片格式,方便以后再辨识利用。
  ?牐牼咛宸椒ㄈ缦拢貉≡瘛拔募4姹疽场4姹疽吃逋计泵睢T凇氨4嬖逋计倍曰翱蛑兄付?路径、文件名及文件格式,此后按“确定”即可(^38060105q^)。
  ?牐牬送猓阋部梢砸圆煌母袷绞涑鍪侗鸾峁5で嘞低程峁┒嘀治募袷剑杀4姹媸逗蟮耐嘉募氨砀瘛D憧梢谰菪枰≡癖4姹疽郴虮4嬲菸募梢员4娉蒚XT、DOC、RTF、XLS、SLK、CSV等文件格式,在写字板、Word、Excel等文字处理器中编辑。此外,你还可以将文件存成HTML格式,通过网络浏览器(如Internet Explorer、Netscape Navigator等)直接打开。
  ?牐牼咛宸椒ㄈ缦拢喝裟阋4姹疽常≡瘛拔募4姹疽场4姹疽潮媸督峁保蝗裟阋4嬲菸募≡瘛拔募4嫖募媸督峁薄F聊簧辖鱿帧氨4姹媸督峁倍曰翱颉V付?路径、输入文件名,并选择你要的存档类型。
  ?牐牷褂幸坏阒档靡惶幔裟憔P枰褂媚骋恢职婷娓袷剑山税婷娓袷奖4娉砂婷嫖募?*.TPL),应用于辨识前的图片。
  ?牐牼咛宸椒ㄈ缦拢貉≡瘛拔募4姘婷妗泵睿聊簧辖鱿直4姘婷娑曰翱颉H裟阋τ媚掣霰4娴陌婷娓袷剑胙≡瘛案袷健蚩婷妗泵睿诙曰翱蛑醒≡褚τ玫陌婷娓袷剑聪隆按蚩募卑醇纯伞?
  ?牐?2)输出编辑
  ?牐犝馐亲詈笠徊剑涯阋丫4婀氖侗鸾峁谖淖直嗉砑写蚩ū热鏦ord97)。对识别结果的格式进行编辑。
  ?牐牷剐枰⒁獾氖牵幸恍┨厥夥攀俏薹ㄕ肥侗鸬摹1热绫敬问侗鸾峁械乃卸俸拧啊ⅰ倍急皇侗鸪伞啊ぁ保赪ord里你可以利用强大的符号输入功能来完善识别结果。最终使识别结果达到你的要求。
  #1?牐犖濉⒌で郞CR小窍门
  #2?牐?1.去硬回车
  ?牐犚郧拔揖T诎咽侗鸾峁魅隬ord中的时候产生一些硬回车,当然我们可以利用Word的查找和替换功能来去掉多余的硬回车。不过能不能在OCR软件中就去掉这些讨厌的回车呢?回答是肯定的,具体做法是:在保存识别结果的时候把硬回车设定为软回车就行了。
  #2?牐?2.“自动”的使用
  ?牐犉舳で郞CR软件之后,你只需点击一下“自动”快捷键,就会调出“自动”界面。我们先选择扫描或者打开文件,进行原稿的输入(^38060105r^)。接下来我们只须一直点击下一步,在适当的时候作一些参数设定,就可以完成识别工作。
  ?牐犜谡饫锘挂赋鲆坏悖淙弧白远惫δ芎芮看螅鞘侗鸬慕峁床蝗缡侄暮谩2还谀阌泻芎玫陌婷婺0宓那疤嵯拢绻褂昧恕白远惫δ埽突峤徊教岣吖ぷ餍?率,从而实现高效办公。
  ?牐牨嗪螅罕酒谧ㄌ獾秸饫锞徒崾耍嘈鸥魑欢設CR的原理及使用都有了一个全面的认识。在这里还想再强调一下的就是:辨识文字是一个复杂的过程,其中有很多因素都会对最终结果造成一定的影响,有不少经验、技巧还需要在实际操作中去发现、掌握,才能做到“滴水不漏,箭无虚发”!