相识,从这里开始──中文OCR软件学习速成
?牐犝饫镏饕步饬龇矫娴哪谌荩?
?牐?1.丹青OCR的安装
?牐?2.丹青OCR的工作界面
?牐?3.丹青OCR工作流程
?牐?4.丹青OCR文字识别实例
?牐?5.丹青OCR小窍门
?牐犗M琳咄ü亩粒醪秸莆誒CR软件的使用方法。
#1?牐犚弧⒌で郞CR的安装
?牐牭で郞CR软件是立新国际开发的新一代光学字符识别软件,最新版本为4.0黄金版。
?牐犜诘谌糠种形颐且丫樯芰说で郞CR的软硬件工作环境。本次实例所用到的是随ACER扫描仪捆绑的丹青OCR4.0黄金版。其运行平台见下表:
?牐犜谏?描之前,我们要对丹青OCR软件进行安装。我们只须一路点击“下一步”,就可完成丹青OCR的安装。安装结束后,在桌面上会出现一个丹青OCR的快捷方式。双击此快捷方式即可启动丹青OCR软件。
#1?牐牰⒌で郞CR的工作界面
?牐犉舳で郞CR软件之后,我们会看到它的工作界面(^38060105a^)。菜单栏分类列出所有可供你使用的命令,如打开、保存、编辑或辨识文件等等。
?牐犜诓说ダ钢率强旖莨ぞ呃浮?旖莨ぞ呃干系耐急昕梢匀媚憧焖俚刂葱懈髦殖S貌说ッ睿幻扛龉ぞ呃赶路蕉加幸桓鱿吕降拿畈说ィ晌闾峁└嗟难≡瘛?
?牐犜诠ぞ呃傅南旅娣治笥伊礁龃翱冢蟊叩拇翱谑撬趼酝即翱诤臀募晨刂魄K趼酝即翱诮汛蚩奈募运趼酝挤绞较允荆晒┠阒苯友∪ D阋部梢岳孟路降奈募晨刂魄陌醇贫聊阆胍囊趁妗U庖舱堑で郞CR软件的多任务功能的表现之一。缩略图窗口和文件页控制区的右边是工作区。你可在工作区中执行图片处理的工作,例如转正倾斜的图片,清除杂点,切除不需辨识的部分,或是做更精确的版面分析,使得辨识结果更令人满意。
?牐犜诠ぷ髑挠疑辖鞘遣榭垂ぞ呃负捅嗉ぞ呦洹2榭垂ぞ呃缚扇媚闼跣』蚍糯笸计南允颈壤⒖裳≡裨逋计J健⑷惩嘉哪J郊拔母灞嗉J健D憧梢岳盟峁┑谋嗉ぞ撸?理辨识过程中各个阶段的文件,例如编辑扫描进来的图片、更改文件的区块设定、校正辨识后的文稿等等。编辑工具箱也会随着辨识阶段的不同为你提供不同的编辑工具。这些工具的具体用途我在后面的实例里将会介绍。
?牐犜诠ぷ髑南路交褂幸桓鲎刺福刺赶允灸壳肮獗晁谖恢玫腦座标和Y座标、光标所在物件的相关信息,以及目前所选择的辨识字集。
#1?牐犎⒌で郞CR工作流程
?牐牷诠庋ё址侗鸸ぷ髟恚野袿CR软件的工作流程大致分成了4大部分,它们分别是原稿处理,辨识文件,文稿校对,结果输出。在4个大部分中又包含了若干个小的分支。OCR软件处理工作流程(^38060105b^)。
#1?牐犓摹CR文字识别实例
#2?牐?1.原稿处理
?牐?1)原稿的选择
?牐犙≡窈米魑皇侗鸲韵蟮脑澹墙形淖质侗鹨约盎竦媒细呤侗鹇实那疤崽跫N颐茄≡裨宓氖焙颍紫纫⒁庠逡秸詈迷迳厦挥形圩铡F浯危颐撬≡竦脑迳系淖痔遄詈檬荗CR软件字库能够识别的字体,这样可以保证较高识别率。最后我们还应该注意扫描仪的清洁问题,不要让扫描仪上的污点影响原稿的质量。
?牐?2)原稿的扫描
?牐牷谠逖≡裼Ω米⒁獾囊恍┮蛩兀已≡窳艘环萦∷⑻逦谋咀魑濉=酉吕次颐且龅氖嵌栽褰猩?描,使之成为图像文件。首先我们可以在OCR软件中调入扫描仪的驱动程序,执行这一步骤的前提是OCR软件必须识别出扫描仪。我们可以通过“文件→扫描仪”设定来查看一下(^38060105c^)。我们可以看到我所选用的丹青OCR已经成功地识别出扫描仪。
?牐犜谌啡狭松?描仪的兼容性后,我们要通过快捷键“扫描”或者通过“文件→扫描文件”或用快捷键F10来调入扫描仪的驱动程序。
?牐犜谏?描原稿之前,我们应该对扫描仪的参数作一些最基本设定。扫描仪类型默认为平板扫描仪,图像类型选择黑白模式,扫描模式选高质量,分辨率选300dpi,缩放选100%(^38060105d^)。一般不用选择滤镜,除非你有特殊要求。参数设置中一定要注意选择好分辨率,这是提高原稿质量以及最后文字识别率的保证。当然这也不是说我们选择的分辨率越大越好,我们可以根据不同质量的原稿,选择不同的分辨率。比如:黑白图像的识别我们一般选择300dpi,彩色图像的识别我们一般选择150dpi就够了。
?牐犐?描参数设定好后,我们先预扫一下,通过预扫结果来选择扫描识别的工作区。选择好工作区后,我们就可以对原稿进行扫描。因为我们是从OCR软件中调用的扫描程序,所以当我们扫描完原稿后,只须关闭扫描程序,扫描结果就会自动送入OCR软件的文件任务区(^38060105e^)。这样我们对于原稿的扫描任务也就结束了。
?牐?3)原稿的处理
?牐牰杂谏?描好的原稿文件,我们可以在识别之前进行一些处理工作,比如说去掉多余的污点,把亮度调高一点,或者调一下阈值。这些工作你可以用一些专业的绘图软件完成,比如Photoshop。如果你嫌这样太麻烦,你也可以在扫描程序中完成这些工作,现在大多扫描仪的扫描程序都带有一些图像处理工具(^38060105f^)。此外,OCR软件中也有相关的工具可以使用,比如橡皮工具和铅笔工具。丹青中所带的橡皮和铅笔工具还有许多不同的选项可供选择。(^38060105g^)
?牐牨热缭谏?描的原稿文件中,有一些多余的线条(一个五角星和手写的10∶10的字样)。我们就可以通过OCR自带的橡皮工具对原稿来进行修正,图7是修正后的原稿。我们可以看到修正后的原稿上的多余线条已经被擦掉。(^38060105h^)
#2?牐?2.辨识文件
?牐?1)原稿输入
?牐犜谏衔闹形以岬剑覱CR软件中调用扫描程序,在原稿扫描完成后,只需关闭扫描程序,扫描的结果就会自动输入到文件任务区。也可以配合键盘上的“Shift”或“Ctrl”键,选择多份文件同时打开。此外,我们也可以通过Photoshop或者其他的专业绘图软件来调用扫描程序,原稿扫描完成后,再把扫描结果存放为OCR软件可以识别的图形文件格式。OCR软件可以通过“文件→打开”来调用这些原稿图片,同样也可以做到使原稿图片输入到文件任务区。这样做的优点是可以在Photoshop中对原稿图片进行一些预处理。
?牐?2)二次校正
?牐犖抑园颜飧霾街杞凶龆涡U且蛭诖?理原稿的时候已经经过了一次校正。与一次校正的区别在于:二次校正所用到的工具全部是由OCR软件本身自带的,校正的质量和精度更高一些。
?牐犝饫锼档亩涡Uㄇ宄拥慵安孤┌住⑶谐δ堋⒎窗坠δ芎颓阈毙Uδ堋G宄拥慵安孤┌资侵溉敉计嫌性拥悖ㄓ绕涫窃谖淖智楦浇胛淖执笮∠嘟脑拥悖?,可利用编辑工具箱上的“橡皮擦”工具将其去除;若图片上有漏白的部分,也可以用“绘笔”工具补上,以提高正确率。而切除功能是指若输入的图片不须全部辨识,你可利用编辑工具箱上的“选择图片区域”工具选取欲保留的区域,再选择“编辑→切除”,将不必要的部分切除。再有就是反白功能,它是指由于丹青系统无法辨识黑底白字的图片,可利用“编辑→反白”的功能,将图片转换成白底黑字之后,再进行辨识。
?牐犖颐亲畛S玫降氖乔阈毙Uδ堋G阈毙U前言逋计阈钡牟糠中U础5恢裁吹で嗝挥刑峁┐斯δ堋2还で嗵峁┑脑逍δ埽部梢源锏酵男Ч5で嗟脑逍ㄋ衬媸闭氲母髦纸嵌鹊男颐峭ü氨嗉贝蚩斯δ埽╚38060105i^)。若图片倾斜角度小于3度,此为正常辨识可接受的范围,你不须调整图片角度。而如果图片倾斜角度为90度,则可利用“编辑→旋转→顺(逆)时针旋转90度”的命令,将图片转正。我们通过倾斜校正可以进一步提高原稿的质量,以便最后得到满意的识别结果。
?牐?3)辨前设定
?牐犜谥葱形淖直媸吨埃憧梢韵茸龊靡恍┍媸肚暗淖急腹ぷ鳎缪≡癖媸蹲旨⒀∪”媸肚颉⑸瓒ò婷娓袷健⒅葱邪婷娣治觥⒅付ㄐ6源士獾龋沟で嘞低吃诒媸妒备焖俣既贰4送猓で嘁蔡峁┳远媸段募墓δ埽邮淙胍灾帘媸兜雀飨盍鞒探阅茏远葱校媚闱崴傻鼗竦孟胍谋媸督峁ㄕ馐堑で郞CR的一大特色,一键搞定)。
?牐犗人邓笛≡癖媸蹲旨憧梢匝≡瘛案袷健瓒ū媸蹲旨保付ㄊ屎系谋媸蹲旨魑で嘞低潮媸妒钡囊谰荩煷斯δ芙鲈诘で嗷平鸢?4.0的零售版本中提供?牎?
?牐犎裟阋媸墩菸募谥葱斜媸吨安⒉恍枰瓒ū媸肚颉H裟阒幌氡媸恫糠治募蚩上壬瓒ǜ貌糠治媸肚颍阊「们笤僦葱邪婷娣治觥⒈媸兜裙ぷ鳌H裟阋媸妒霰媸肚蚰诘奈淖郑上确直鹕瓒ǜ鞲鲇媸肚颍撕笤僦葱斜媸叮低辰岜媸端猩瓒ǖ谋媸肚颉?
?牐牥婷嫔瓒ㄖ饕谟谏瓒ㄓ媸段募氖粜裕ㄎ募暮?/竖排、单/多栏、所使用的语言及表格相关的设定等等。选择“格式→版面设定”命令之后,依照文件的内容选择所需要的设定。
?牐犞葱邪婷娣治龅哪康脑谟诮夹斡胛淖滞计蚍掷耄指畛龃媸兜那椋⒕龆ū媸肚榈乃承颍员阆低潮媸丁D憧梢匀孟低匙远葱邪婷娣治觯蜃约荷瓒ㄇ榧氨媸端承颍怀酥猓阋部稍谥葱邪婷娣治鲋螅直鹕瓒ǜ鞲銮榈氖粜圆⒔婷姹4嫫鹄矗毙枰媸断嗤婷娴奈募保憧芍苯拥饔谩?
?牐牨热缟?描原稿所得到的原稿图片,我们把辨识字符集设定为简体常用字集。因为在扫描原稿文件时,已经选择了辨识区域,所以在这里辨识区域默认为全部。注意选择好版面设定中的相关参数(^38060105j^),这里我所选择的参数全部为默认值。你也可以根据相关的识别文件信息来进行手动的版面设定。
?牐牥婷嫔瓒ㄍ瓿珊螅颐墙酉吕匆霭婷娣治觥7治鼋峁╚38060105k^)所示。从版面分析的结果来看,自动的版面分析把预识别文件按字体分为上下两个部分。到此,相关的辨前设定就完成了。
?牐?4)文件识别
?牐犜谕瓿墒淙胪计⑸瓒ū媸蹲痔濉⑸瓒ū媸肚蚣吧瓒ū媸端承虻炔街柚螅低潮憧梢愿菽愕纳瓒?开始辨识文件。按一下工具栏上的“辨识”图标,文字的识别工作正式开始了。当然,你也可以通过应用快速辨识模板来进行文字识别,不过首先你要选择“分析/辨识→快速辨识模板设定”来设定一下模板参数(^38060105l^)。这样生成的模板用来高效率地识别大量的格式相似的文档。若你经常辨识某类文件,设定快速辨识模板将可为你省却一一设定的工作,并能快速地呈现辨识后的结果。
#2?牐?3.结果校正
?牐?1)放弃识别
?牐牭蓖瓿杀媸豆ぷ骱螅低郴嶙远搿叭诚允敬翱凇被颉拔母逍6源翱凇保媚阈6员媸逗蟮奈谋疚募D憧梢匝≡瘛拔募低成瓒ā保凇跋低成瓒ā倍曰翱蛑兄付ū媸逗笏鱿值幕嫦允灸J剑蛘叩慊鞴ぷ髑疑戏降哪J角谢话磁デ谢坏叫枰哪J剑╚38060105m^)。当然,若你在辨识后想放弃辨识结果并重新设定,请选择“分析/辨识→放弃本页辨识”或“分析/辨识→放弃全部辨识” 将辨识结果消除。
?牐?2)文稿校对
?牐牼侗鸬脑逦募捎谄浔旧淼那逦群推渌蛩夭豢赡苋空贰K晕颐且ü逍6岳葱U幌率侗鸸讨杏写砦蟮牡胤健?
?牐犎裟阋凇叭诚允敬翱凇敝行6晕母澹匆幌卤嗉ぞ呦渖系摹耙晌首咒馈惫ぞ撸母逯械囊晌首只嵋岳兜谆谱值淖盅允尽J褂谩耙晌首咒馈惫ぞ咴诘谝桓鲆晌首稚系阋幌拢⒃诔鱿值摹昂蜓∽帧贝翱谥醒≡裾返淖帧D闼≡竦淖纸崽婊恢付ǖ囊晌首帧H粼凇昂蜓∽执翱凇敝姓也坏侥阋奶娲郑阋部梢允褂靡话愕募淌淙敕ń淖质淙搿H缓蟀聪录躺系摹癝hift”及“F3”键,将光标移到下一个疑问字元。
?牐犎裟阋凇拔母灞嗉翱凇敝行6晕母澹梢栽谖募劳贾兄苯拥阊∮6缘那椋蚴窃谖募榱斜碇兄付ㄇ椋枚蔚谋媸督峁鱿钟诠ぷ鞔翱谀冢椅母逯械囊晌首只嵋岳渡盅允尽S檬蟊甑阋幌鹿ぷ鞔翱谀谙低潮媸洞砦蟮淖郑凇拔淖滞计翱凇敝校餐被嵊煤煜呖虺銎涠杂Φ脑衷计?
?牐?3)二次辨识
?牐犇承┩计赡芪薹ㄊ瓜低匙龀稣返姆指睿⒁蚨斐杀媸渡系拇砦蟆1热缢怠暗摹弊郑行┦焙蛳低郴岜媸冻伞鞍住焙汀吧住绷礁鲎帧U饩托枰闶褂谩安脸拥恪薄ⅰ胺?/合字再辨识”、“分/合行再辨识” 与“分/合区块再辨识”的功能,重新进行辨识。
?牐犎コ计系脑拥憧梢蕴岣呦低潮媸兜恼仿省5毕低骋呀胛母逍6源翱诤螅憧梢允褂谩跋鹌げ痢惫ぞ卟脸淖滞计翱谥泻炜蚰诘淖帧?
?牐犜霾雇计系穆┌撞糠忠部梢蕴岣呦低潮媸兜恼仿省5毕低骋呀胛母逍6源翱诤螅憧梢允褂谩盎姹省惫ぞ咴霾刮淖滞计翱谥泻炜蚰诘淖帧?
?牐牫巳ピ拥愫筒拱坠ぞ咄猓で郞CR还为再识别提供了其它的工具。比如将相邻两个或数个辨识错的字元分开或合并并予以重新辨识。将因两行相连而辨识错的文字分开并予以重新辨识。将被错误分割成两行的文字合并并予以重新辨识。当你发现某区块的版面分析错误,如文字的横竖排列错误或是中英文设定错误时,你可以针对该区块再次辨识。还有可合并被错误分割的区块,再次辨识;可分割被错误合并的区块,再次辨识。
?牐犚蛭敬问侗鹗潜冉铣晒Φ模侗鸺蛱搴鹤值恼仿蚀锏搅?100%(^38060105n^),所以也不需要再次识别了。
?牐?4)字库校对
?牐犘6源士饫锇愠S玫拇驶悖辉诒媸兜墓讨邢低辰滥闼≡竦男6源士庵葱斜媸丁R虼耍谰菪枰瓒ú煌掷嗟拇士猓诒媸恫煌掷嗟奈募保谑∧阍诒媸都靶6怨讨兴ǚ训氖奔洹?
?牐犜谑褂米挚庑6灾把≡瘛胺治?/辨识→词库设定”来进行字库的设定(^38060105o^)。
?牐犜谏瓒ù士夂螅颐蔷涂梢杂τ么士饫唇懈寮UQ≡瘛胺治?/辨识→词库设定”,指定你要的校对词库,按“确定”即可。在同一个文件的识别中,你可更换不同的词库,重新执行校对,使辨识结果更令人满意。
?牐?5)学习新字
?牐牭痹谛6晕母迨保粝低尘1娲砟承┪淖郑憧梢允褂谩把?习新字”的功能,将常辨识错的字元输入到学习资料库中,留待以后辨识时使用。你也可依文件的性质,设定各种不同的学习字库。
?牐犇憧梢园慈缦虏街枥囱?习新字。选择“分析/辨识→学习新字”命令,屏幕上会出现一个“新字学习”的对话框(^38060105p^)。在对话框的上方为被选取字的图片字(也就是在“文字图片窗口”中被红框选取者),在“输入新字”文本框中输入正确的字,按下“学习”键,将新字输入到学习字库中,并置换工作区内的错误字。
#2?牐?4.文件输出
?牐?1)输出格式
?牐犎裟阆氡A粽庑┰诒媸肚熬?描仪或其他方式输入的图片,可将它保存成BMP、TIFF、PCX、JPEG等图片格式,方便以后再辨识利用。
?牐牼咛宸椒ㄈ缦拢貉≡瘛拔募4姹疽场4姹疽吃逋计泵睢T凇氨4嬖逋计倍曰翱蛑兄付?路径、文件名及文件格式,此后按“确定”即可(^38060105q^)。
?牐牬送猓阋部梢砸圆煌母袷绞涑鍪侗鸾峁5で嘞低程峁┒嘀治募袷剑杀4姹媸逗蟮耐嘉募氨砀瘛D憧梢谰菪枰≡癖4姹疽郴虮4嬲菸募梢员4娉蒚XT、DOC、RTF、XLS、SLK、CSV等文件格式,在写字板、Word、Excel等文字处理器中编辑。此外,你还可以将文件存成HTML格式,通过网络浏览器(如Internet Explorer、Netscape Navigator等)直接打开。
?牐牼咛宸椒ㄈ缦拢喝裟阋4姹疽常≡瘛拔募4姹疽场4姹疽潮媸督峁保蝗裟阋4嬲菸募≡瘛拔募4嫖募媸督峁薄F聊簧辖鱿帧氨4姹媸督峁倍曰翱颉V付?路径、输入文件名,并选择你要的存档类型。
?牐牷褂幸坏阒档靡惶幔裟憔P枰褂媚骋恢职婷娓袷剑山税婷娓袷奖4娉砂婷嫖募?*.TPL),应用于辨识前的图片。
?牐牼咛宸椒ㄈ缦拢貉≡瘛拔募4姘婷妗泵睿聊簧辖鱿直4姘婷娑曰翱颉H裟阋τ媚掣霰4娴陌婷娓袷剑胙≡瘛案袷健蚩婷妗泵睿诙曰翱蛑醒≡褚τ玫陌婷娓袷剑聪隆按蚩募卑醇纯伞?
?牐?2)输出编辑
?牐犝馐亲詈笠徊剑涯阋丫4婀氖侗鸾峁谖淖直嗉砑写蚩ū热鏦ord97)。对识别结果的格式进行编辑。
?牐牷剐枰⒁獾氖牵幸恍┨厥夥攀俏薹ㄕ肥侗鸬摹1热绫敬问侗鸾峁械乃卸俸拧啊ⅰ倍急皇侗鸪伞啊ぁ保赪ord里你可以利用强大的符号输入功能来完善识别结果。最终使识别结果达到你的要求。
#1?牐犖濉⒌で郞CR小窍门
#2?牐?1.去硬回车
?牐犚郧拔揖T诎咽侗鸾峁魅隬ord中的时候产生一些硬回车,当然我们可以利用Word的查找和替换功能来去掉多余的硬回车。不过能不能在OCR软件中就去掉这些讨厌的回车呢?回答是肯定的,具体做法是:在保存识别结果的时候把硬回车设定为软回车就行了。
#2?牐?2.“自动”的使用
?牐犉舳で郞CR软件之后,你只需点击一下“自动”快捷键,就会调出“自动”界面。我们先选择扫描或者打开文件,进行原稿的输入(^38060105r^)。接下来我们只须一直点击下一步,在适当的时候作一些参数设定,就可以完成识别工作。
?牐犜谡饫锘挂赋鲆坏悖淙弧白远惫δ芎芮看螅鞘侗鸬慕峁床蝗缡侄暮谩2还谀阌泻芎玫陌婷婺0宓那疤嵯拢绻褂昧恕白远惫δ埽突峤徊教岣吖ぷ餍?率,从而实现高效办公。
?牐牨嗪螅罕酒谧ㄌ獾秸饫锞徒崾耍嘈鸥魑欢設CR的原理及使用都有了一个全面的认识。在这里还想再强调一下的就是:辨识文字是一个复杂的过程,其中有很多因素都会对最终结果造成一定的影响,有不少经验、技巧还需要在实际操作中去发现、掌握,才能做到“滴水不漏,箭无虚发”!