相识，从这里开始──中文OCR软件学习速成

Author: Date: 2001年 38期

?牐犜谇懊娴奈恼轮校乙丫蠹壹虻ソ樯芰艘恍┲髁鞯腛CR软件。我想大家对OCR软件已经有了一个感性的认识。在这一章，我将着重为大家介绍OCR软件的使用方法及使用中注意事项。这里我选取了丹青OCR作具体介绍。至于其他的主流OCR软件，因为其功能和操作都基本相似，所以在这里不再作介绍。
　　?牐犝饫镏饕步饬龇矫娴哪谌荩?
　　?牐?1.丹青OCR的安装
　　?牐?2.丹青OCR的工作界面
　　?牐?3.丹青OCR工作流程
　　?牐?4.丹青OCR文字识别实例
　　?牐?5.丹青OCR小窍门
　　?牐犗Ｍ琳咄ü亩粒醪秸莆誒CR软件的使用方法。
　　#1?牐犚弧⒌で郞CR的安装
　　?牐牭で郞CR软件是立新国际开发的新一代光学字符识别软件，最新版本为4.0黄金版。
　　?牐犜诘谌糠种形颐且丫樯芰说で郞CR的软硬件工作环境。本次实例所用到的是随ACER扫描仪捆绑的丹青OCR4.0黄金版。其运行平台见下表：
　　?牐犜谏?描之前，我们要对丹青OCR软件进行安装。我们只须一路点击“下一步”，就可完成丹青OCR的安装。安装结束后，在桌面上会出现一个丹青OCR的快捷方式。双击此快捷方式即可启动丹青OCR软件。
　　#1?牐牰⒌で郞CR的工作界面
　　?牐犉舳で郞CR软件之后，我们会看到它的工作界面（^38060105a^）。菜单栏分类列出所有可供你使用的命令，如打开、保存、编辑或辨识文件等等。
　　?牐犜诓说ダ钢率强旖莨ぞ呃浮？旖莨ぞ呃干系耐急昕梢匀媚憧焖俚刂葱懈髦殖Ｓ貌说ッ睿幻扛龉ぞ呃赶路蕉加幸桓鱿吕降拿畈说ィ晌闾峁└嗟难≡瘛?
　　?牐犜诠ぞ呃傅南旅娣治笥伊礁龃翱冢蟊叩拇翱谑撬趼酝即翱诤臀募晨刂魄Ｋ趼酝即翱诮汛蚩奈募运趼酝挤绞较允荆晒┠阒苯友∪　Ｄ阋部梢岳孟路降奈募晨刂魄陌醇贫聊阆胍囊趁妗Ｕ庖舱堑で郞CR软件的多任务功能的表现之一。缩略图窗口和文件页控制区的右边是工作区。你可在工作区中执行图片处理的工作，例如转正倾斜的图片，清除杂点，切除不需辨识的部分，或是做更精确的版面分析，使得辨识结果更令人满意。
　　?牐犜诠ぷ髑挠疑辖鞘遣榭垂ぞ呃负捅嗉ぞ呦洹２榭垂ぞ呃缚扇媚闼跣』蚍糯笸计南允颈壤⒖裳≡裨逋计Ｊ健⑷惩嘉哪Ｊ郊拔母灞嗉Ｊ健Ｄ憧梢岳盟峁┑谋嗉ぞ撸?理辨识过程中各个阶段的文件，例如编辑扫描进来的图片、更改文件的区块设定、校正辨识后的文稿等等。编辑工具箱也会随着辨识阶段的不同为你提供不同的编辑工具。这些工具的具体用途我在后面的实例里将会介绍。
　　?牐犜诠ぷ髑南路交褂幸桓鲎刺福刺赶允灸壳肮獗晁谖恢玫腦座标和Y座标、光标所在物件的相关信息，以及目前所选择的辨识字集。
　　#1?牐犎⒌で郞CR工作流程
　　?牐牷诠庋ё址侗鸸ぷ髟恚野袿CR软件的工作流程大致分成了4大部分，它们分别是原稿处理，辨识文件，文稿校对，结果输出。在4个大部分中又包含了若干个小的分支。OCR软件处理工作流程（^38060105b^）。　　
　　#1?牐犓摹CR文字识别实例
　　#2?牐?1.原稿处理
　　?牐?1）原稿的选择
　　?牐犙≡窈米魑皇侗鸲韵蟮脑澹墙形淖质侗鹨约盎竦媒细呤侗鹇实那疤崽跫Ｎ颐茄≡裨宓氖焙颍紫纫⒁庠逡秸詈迷迳厦挥形圩铡Ｆ浯危颐撬≡竦脑迳系淖痔遄詈檬荗CR软件字库能够识别的字体，这样可以保证较高识别率。最后我们还应该注意扫描仪的清洁问题，不要让扫描仪上的污点影响原稿的质量。
　　?牐?2）原稿的扫描
　　?牐牷谠逖≡裼Ω米⒁獾囊恍┮蛩兀已≡窳艘环萦∷⑻逦谋咀魑濉＝酉吕次颐且龅氖嵌栽褰猩?描，使之成为图像文件。首先我们可以在OCR软件中调入扫描仪的驱动程序，执行这一步骤的前提是OCR软件必须识别出扫描仪。我们可以通过“文件→扫描仪”设定来查看一下（^38060105c^）。我们可以看到我所选用的丹青OCR已经成功地识别出扫描仪。
　　?牐犜谌啡狭松?描仪的兼容性后，我们要通过快捷键“扫描”或者通过“文件→扫描文件”或用快捷键F10来调入扫描仪的驱动程序。
　　?牐犜谏?描原稿之前，我们应该对扫描仪的参数作一些最基本设定。扫描仪类型默认为平板扫描仪，图像类型选择黑白模式，扫描模式选高质量，分辨率选300dpi，缩放选100%（^38060105d^）。一般不用选择滤镜，除非你有特殊要求。参数设置中一定要注意选择好分辨率，这是提高原稿质量以及最后文字识别率的保证。当然这也不是说我们选择的分辨率越大越好，我们可以根据不同质量的原稿，选择不同的分辨率。比如：黑白图像的识别我们一般选择300dpi，彩色图像的识别我们一般选择150dpi就够了。
　　?牐犐?描参数设定好后，我们先预扫一下，通过预扫结果来选择扫描识别的工作区。选择好工作区后，我们就可以对原稿进行扫描。因为我们是从OCR软件中调用的扫描程序，所以当我们扫描完原稿后，只须关闭扫描程序，扫描结果就会自动送入OCR软件的文件任务区（^38060105e^）。这样我们对于原稿的扫描任务也就结束了。
　　?牐?3）原稿的处理
　　?牐牰杂谏?描好的原稿文件，我们可以在识别之前进行一些处理工作，比如说去掉多余的污点，把亮度调高一点，或者调一下阈值。这些工作你可以用一些专业的绘图软件完成，比如Photoshop。如果你嫌这样太麻烦，你也可以在扫描程序中完成这些工作，现在大多扫描仪的扫描程序都带有一些图像处理工具（^38060105f^）。此外，OCR软件中也有相关的工具可以使用，比如橡皮工具和铅笔工具。丹青中所带的橡皮和铅笔工具还有许多不同的选项可供选择。（^38060105g^）
　　?牐牨热缭谏?描的原稿文件中，有一些多余的线条（一个五角星和手写的10∶10的字样）。我们就可以通过OCR自带的橡皮工具对原稿来进行修正，图7是修正后的原稿。我们可以看到修正后的原稿上的多余线条已经被擦掉。（^38060105h^）
　　#2?牐?2.辨识文件
　　?牐?1）原稿输入
　　?牐犜谏衔闹形以岬剑覱CR软件中调用扫描程序，在原稿扫描完成后，只需关闭扫描程序，扫描的结果就会自动输入到文件任务区。也可以配合键盘上的“Shift”或“Ctrl”键，选择多份文件同时打开。此外，我们也可以通过Photoshop或者其他的专业绘图软件来调用扫描程序，原稿扫描完成后，再把扫描结果存放为OCR软件可以识别的图形文件格式。OCR软件可以通过“文件→打开”来调用这些原稿图片，同样也可以做到使原稿图片输入到文件任务区。这样做的优点是可以在Photoshop中对原稿图片进行一些预处理。
　　?牐?2）二次校正
　　?牐犖抑园颜飧霾街杞凶龆涡Ｕ且蛭诖?理原稿的时候已经经过了一次校正。与一次校正的区别在于：二次校正所用到的工具全部是由OCR软件本身自带的，校正的质量和精度更高一些。
　　?牐犝饫锼档亩涡Ｕㄇ宄拥慵安孤┌住⑶谐δ堋⒎窗坠δ芎颓阈毙Ｕδ堋Ｇ宄拥慵安孤┌资侵溉敉计嫌性拥悖ㄓ绕涫窃谖淖智楦浇胛淖执笮∠嘟脑拥悖?，可利用编辑工具箱上的“橡皮擦”工具将其去除；若图片上有漏白的部分，也可以用“绘笔”工具补上，以提高正确率。而切除功能是指若输入的图片不须全部辨识，你可利用编辑工具箱上的“选择图片区域”工具选取欲保留的区域，再选择“编辑→切除”，将不必要的部分切除。再有就是反白功能，它是指由于丹青系统无法辨识黑底白字的图片，可利用“编辑→反白”的功能，将图片转换成白底黑字之后，再进行辨识。
　　?牐犖颐亲畛Ｓ玫降氖乔阈毙Ｕδ堋Ｇ阈毙Ｕ前言逋计阈钡牟糠中Ｕ础５恢裁吹で嗝挥刑峁┐斯δ堋２还で嗵峁┑脑逍δ埽部梢源锏酵男Ч５で嗟脑逍ㄋ衬媸闭氲母髦纸嵌鹊男颐峭ü氨嗉贝蚩斯δ埽╚38060105i^）。若图片倾斜角度小于3度，此为正常辨识可接受的范围，你不须调整图片角度。而如果图片倾斜角度为90度，则可利用“编辑→旋转→顺（逆）时针旋转90度”的命令，将图片转正。我们通过倾斜校正可以进一步提高原稿的质量，以便最后得到满意的识别结果。
　　?牐?3）辨前设定
　　?牐犜谥葱形淖直媸吨埃憧梢韵茸龊靡恍┍媸肚暗淖急腹ぷ鳎缪≡癖媸蹲旨⒀∪”媸肚颉⑸瓒ò婷娓袷健⒅葱邪婷娣治觥⒅付ㄐ６源士獾龋沟で嘞低吃诒媸妒备焖俣既贰４送猓で嘁蔡峁┳远媸段募墓δ埽邮淙胍灾帘媸兜雀飨盍鞒探阅茏远葱校媚闱崴傻鼗竦孟胍谋媸督峁ㄕ馐堑で郞CR的一大特色，一键搞定）。
　　?牐犗人邓笛≡癖媸蹲旨憧梢匝≡瘛案袷健瓒ū媸蹲旨保付ㄊ屎系谋媸蹲旨魑で嘞低潮媸妒钡囊谰荩煷斯δ芙鲈诘で嗷平鸢?4.0的零售版本中提供?牎?
　　?牐犎裟阋媸墩菸募谥葱斜媸吨安⒉恍枰瓒ū媸肚颉Ｈ裟阒幌氡媸恫糠治募蚩上壬瓒ǜ貌糠治媸肚颍阊「们笤僦葱邪婷娣治觥⒈媸兜裙ぷ鳌Ｈ裟阋媸妒霰媸肚蚰诘奈淖郑上确直鹕瓒ǜ鞲鲇媸肚颍撕笤僦葱斜媸叮低辰岜媸端猩瓒ǖ谋媸肚颉?
　　?牐牥婷嫔瓒ㄖ饕谟谏瓒ㄓ媸段募氖粜裕ㄎ募暮?/竖排、单/多栏、所使用的语言及表格相关的设定等等。选择“格式→版面设定”命令之后，依照文件的内容选择所需要的设定。
　　?牐犞葱邪婷娣治龅哪康脑谟诮夹斡胛淖滞计蚍掷耄指畛龃媸兜那椋⒕龆ū媸肚榈乃承颍员阆低潮媸丁Ｄ憧梢匀孟低匙远葱邪婷娣治觯蜃约荷瓒ㄇ榧氨媸端承颍怀酥猓阋部稍谥葱邪婷娣治鲋螅直鹕瓒ǜ鞲銮榈氖粜圆⒔婷姹４嫫鹄矗毙枰媸断嗤婷娴奈募保憧芍苯拥饔谩?
　　?牐牨热缟?描原稿所得到的原稿图片，我们把辨识字符集设定为简体常用字集。因为在扫描原稿文件时，已经选择了辨识区域，所以在这里辨识区域默认为全部。注意选择好版面设定中的相关参数（^38060105j^），这里我所选择的参数全部为默认值。你也可以根据相关的识别文件信息来进行手动的版面设定。
　　?牐牥婷嫔瓒ㄍ瓿珊螅颐墙酉吕匆霭婷娣治觥７治鼋峁╚38060105k^）所示。从版面分析的结果来看，自动的版面分析把预识别文件按字体分为上下两个部分。到此，相关的辨前设定就完成了。
　　?牐?4）文件识别
　　?牐犜谕瓿墒淙胪计⑸瓒ū媸蹲痔濉⑸瓒ū媸肚蚣吧瓒ū媸端承虻炔街柚螅低潮憧梢愿菽愕纳瓒?开始辨识文件。按一下工具栏上的“辨识”图标，文字的识别工作正式开始了。当然，你也可以通过应用快速辨识模板来进行文字识别，不过首先你要选择“分析/辨识→快速辨识模板设定”来设定一下模板参数（^38060105l^）。这样生成的模板用来高效率地识别大量的格式相似的文档。若你经常辨识某类文件，设定快速辨识模板将可为你省却一一设定的工作，并能快速地呈现辨识后的结果。
　　#2?牐?3.结果校正
　　?牐?1）放弃识别
　　?牐牭蓖瓿杀媸豆ぷ骱螅低郴嶙远搿叭诚允敬翱凇被颉拔母逍６源翱凇保媚阈６员媸逗蟮奈谋疚募Ｄ憧梢匝≡瘛拔募低成瓒ā保凇跋低成瓒ā倍曰翱蛑兄付ū媸逗笏鱿值幕嫦允灸Ｊ剑蛘叩慊鞴ぷ髑疑戏降哪Ｊ角谢话磁デ谢坏叫枰哪Ｊ剑╚38060105m^）。当然，若你在辨识后想放弃辨识结果并重新设定，请选择“分析/辨识→放弃本页辨识”或“分析/辨识→放弃全部辨识” 将辨识结果消除。
　　?牐?2）文稿校对
　　?牐牼侗鸬脑逦募捎谄浔旧淼那逦群推渌蛩夭豢赡苋空贰Ｋ晕颐且ü逍６岳葱Ｕ幌率侗鸸讨杏写砦蟮牡胤健?
　　?牐犎裟阋凇叭诚允敬翱凇敝行６晕母澹匆幌卤嗉ぞ呦渖系摹耙晌首咒馈惫ぞ撸母逯械囊晌首只嵋岳兜谆谱值淖盅允尽Ｊ褂谩耙晌首咒馈惫ぞ咴诘谝桓鲆晌首稚系阋幌拢⒃诔鱿值摹昂蜓∽帧贝翱谥醒≡裾返淖帧Ｄ闼≡竦淖纸崽婊恢付ǖ囊晌首帧Ｈ粼凇昂蜓∽执翱凇敝姓也坏侥阋奶娲郑阋部梢允褂靡话愕募淌淙敕ń淖质淙搿Ｈ缓蟀聪录躺系摹癝hift”及“F3”键，将光标移到下一个疑问字元。
　　?牐犎裟阋凇拔母灞嗉翱凇敝行６晕母澹梢栽谖募劳贾兄苯拥阊∮６缘那椋蚴窃谖募榱斜碇兄付ㄇ椋枚蔚谋媸督峁鱿钟诠ぷ鞔翱谀冢椅母逯械囊晌首只嵋岳渡盅允尽Ｓ檬蟊甑阋幌鹿ぷ鞔翱谀谙低潮媸洞砦蟮淖郑凇拔淖滞计翱凇敝校餐被嵊煤煜呖虺銎涠杂Φ脑衷计?
　　?牐?3）二次辨识
　　?牐犇承┩计赡芪薹ㄊ瓜低匙龀稣返姆指睿⒁蚨斐杀媸渡系拇砦蟆１热缢怠暗摹弊郑行┦焙蛳低郴岜媸冻伞鞍住焙汀吧住绷礁鲎帧Ｕ饩托枰闶褂谩安脸拥恪薄ⅰ胺?/合字再辨识”、“分/合行再辨识” 与“分/合区块再辨识”的功能，重新进行辨识。
　　?牐犎コ计系脑拥憧梢蕴岣呦低潮媸兜恼仿省５毕低骋呀胛母逍６源翱诤螅憧梢允褂谩跋鹌げ痢惫ぞ卟脸淖滞计翱谥泻炜蚰诘淖帧?
　　?牐犜霾雇计系穆┌撞糠忠部梢蕴岣呦低潮媸兜恼仿省５毕低骋呀胛母逍６源翱诤螅憧梢允褂谩盎姹省惫ぞ咴霾刮淖滞计翱谥泻炜蚰诘淖帧?
　　?牐牫巳ピ拥愫筒拱坠ぞ咄猓で郞CR还为再识别提供了其它的工具。比如将相邻两个或数个辨识错的字元分开或合并并予以重新辨识。将因两行相连而辨识错的文字分开并予以重新辨识。将被错误分割成两行的文字合并并予以重新辨识。当你发现某区块的版面分析错误，如文字的横竖排列错误或是中英文设定错误时，你可以针对该区块再次辨识。还有可合并被错误分割的区块，再次辨识；可分割被错误合并的区块，再次辨识。
　　?牐犚蛭敬问侗鹗潜冉铣晒Φ模侗鸺蛱搴鹤值恼仿蚀锏搅?100%（^38060105n^），所以也不需要再次识别了。
　　?牐?4）字库校对
　　?牐犘６源士饫锇愠Ｓ玫拇驶悖辉诒媸兜墓讨邢低辰滥闼≡竦男６源士庵葱斜媸丁Ｒ虼耍谰菪枰瓒ú煌掷嗟拇士猓诒媸恫煌掷嗟奈募保谑∧阍诒媸都靶６怨讨兴ǚ训氖奔洹?
　　?牐犜谑褂米挚庑６灾把≡瘛胺治?/辨识→词库设定”来进行字库的设定（^38060105o^）。
　　?牐犜谏瓒ù士夂螅颐蔷涂梢杂τ么士饫唇懈寮ＵＱ≡瘛胺治?/辨识→词库设定”，指定你要的校对词库，按“确定”即可。在同一个文件的识别中，你可更换不同的词库，重新执行校对，使辨识结果更令人满意。
　　?牐?5）学习新字
　　?牐牭痹谛６晕母迨保粝低尘１娲砟承┪淖郑憧梢允褂谩把?习新字”的功能，将常辨识错的字元输入到学习资料库中，留待以后辨识时使用。你也可依文件的性质，设定各种不同的学习字库。
　　?牐犇憧梢园慈缦虏街枥囱?习新字。选择“分析/辨识→学习新字”命令，屏幕上会出现一个“新字学习”的对话框（^38060105p^）。在对话框的上方为被选取字的图片字（也就是在“文字图片窗口”中被红框选取者），在“输入新字”文本框中输入正确的字，按下“学习”键，将新字输入到学习字库中，并置换工作区内的错误字。
　　#2?牐?4.文件输出
　　?牐?1）输出格式
　　?牐犎裟阆氡Ａ粽庑┰诒媸肚熬?描仪或其他方式输入的图片，可将它保存成BMP、TIFF、PCX、JPEG等图片格式，方便以后再辨识利用。
　　?牐牼咛宸椒ㄈ缦拢貉≡瘛拔募４姹疽场４姹疽吃逋计泵睢Ｔ凇氨４嬖逋计倍曰翱蛑兄付?路径、文件名及文件格式，此后按“确定”即可（^38060105q^）。
　　?牐牬送猓阋部梢砸圆煌母袷绞涑鍪侗鸾峁５で嘞低程峁┒嘀治募袷剑杀４姹媸逗蟮耐嘉募氨砀瘛Ｄ憧梢谰菪枰≡癖４姹疽郴虮４嬲菸募梢员４娉蒚XT、DOC、RTF、XLS、SLK、CSV等文件格式，在写字板、Word、Excel等文字处理器中编辑。此外，你还可以将文件存成HTML格式，通过网络浏览器（如Internet Explorer、Netscape Navigator等）直接打开。
　　?牐牼咛宸椒ㄈ缦拢喝裟阋４姹疽常≡瘛拔募４姹疽场４姹疽潮媸督峁保蝗裟阋４嬲菸募≡瘛拔募４嫖募媸督峁薄Ｆ聊簧辖鱿帧氨４姹媸督峁倍曰翱颉Ｖ付?路径、输入文件名，并选择你要的存档类型。
　　?牐牷褂幸坏阒档靡惶幔裟憔Ｐ枰褂媚骋恢职婷娓袷剑山税婷娓袷奖４娉砂婷嫖募?*.TPL），应用于辨识前的图片。
　　?牐牼咛宸椒ㄈ缦拢貉≡瘛拔募４姘婷妗泵睿聊簧辖鱿直４姘婷娑曰翱颉Ｈ裟阋τ媚掣霰４娴陌婷娓袷剑胙≡瘛案袷健蚩婷妗泵睿诙曰翱蛑醒≡褚τ玫陌婷娓袷剑聪隆按蚩募卑醇纯伞?
　　?牐?2）输出编辑
　　?牐犝馐亲詈笠徊剑涯阋丫４婀氖侗鸾峁谖淖直嗉砑写蚩ū热鏦ord97）。对识别结果的格式进行编辑。
　　?牐牷剐枰⒁獾氖牵幸恍┨厥夥攀俏薹ㄕ肥侗鸬摹１热绫敬问侗鸾峁械乃卸俸拧啊ⅰ倍急皇侗鸪伞啊ぁ保赪ord里你可以利用强大的符号输入功能来完善识别结果。最终使识别结果达到你的要求。
　　#1?牐犖濉⒌で郞CR小窍门
　　#2?牐?1.去硬回车
　　?牐犚郧拔揖Ｔ诎咽侗鸾峁魅隬ord中的时候产生一些硬回车，当然我们可以利用Word的查找和替换功能来去掉多余的硬回车。不过能不能在OCR软件中就去掉这些讨厌的回车呢？回答是肯定的，具体做法是：在保存识别结果的时候把硬回车设定为软回车就行了。
　　#2?牐?2.“自动”的使用
　　?牐犉舳で郞CR软件之后，你只需点击一下“自动”快捷键，就会调出“自动”界面。我们先选择扫描或者打开文件，进行原稿的输入（^38060105r^）。接下来我们只须一直点击下一步，在适当的时候作一些参数设定，就可以完成识别工作。
　　?牐犜谡饫锘挂赋鲆坏悖淙弧白远惫δ芎芮看螅鞘侗鸬慕峁床蝗缡侄暮谩２还谀阌泻芎玫陌婷婺０宓那疤嵯拢绻褂昧恕白远惫δ埽突峤徊教岣吖ぷ餍?率，从而实现高效办公。
　　?牐牨嗪螅罕酒谧ㄌ獾秸饫锞徒崾耍嘈鸥魑欢設CR的原理及使用都有了一个全面的认识。在这里还想再强调一下的就是：辨识文字是一个复杂的过程，其中有很多因素都会对最终结果造成一定的影响，有不少经验、技巧还需要在实际操作中去发现、掌握，才能做到“滴水不漏，箭无虚发”！