文稿输入让键盘走开

Author: 郑优军 甄浩 Date: 2001年 38期

?牐犜诮形淖质淙牍ぷ魇保绕涫鞘淙胍延械奈母遄柿鲜保芊袢眉扑慊远淙胧侗鹞淖帜兀空庋诮夥帕舜罅康娜肆?和节省了时间之后,工作效率岂不是大大提高了?光学字符识别技术(Optical Character Recognition),简称OCR,做的就是这个工作。而根据文字资料存在的媒体介质不同,及取得这些资料的方式不同,就衍生出各式各样、各种不同的应用。市面上泛称的OCR产品,有利用手写板输入文字的识别软件,有利用扫描仪输入文件的识别软件,严格说起来,二者都属于图形识别,但从文字的意义来看,后者才是真正OCR软件,若要真正区别两者的不同,前者是利用手写板输入文字的识别软件,称为线上文字识别软件(On-Line Character Recognition,OLCR),而后者是利用扫描仪输入文件的识别软件,称为离线文字识别软件(Off-Line Character Recognition)。这里主要介绍的是后者。
  #1?牐燨CR的原理
  ?牐燨CR是针对印刷体字符,通过扫描仪(或数码相机)等光学输入设备将文档资料转换成为原始资料黑白点阵的图像文件,利用各种模式识别算法分析文字形态特征,判断出文字的标准编码,并按通用格式存储为计算机的文本文件。由此可看出,OCR实际上是让计算机认字,实现文字自动输入,是一种高效、省力的文字输入方法。正是由于它录入速度快、准确性高,操作简便,并能大幅度提高工作效率,适应信息时代快节奏的要求,因而具有广泛的发展前景。
  ?牐犃硗釵CR可以说是一种不确定的技术研究,正确率100%就像是一个无穷趋近函数,知道其趋近值,却只能靠近而无法达到。这主要是因为其牵扯的因素太多了,书写者的习惯或文件印刷品质、扫描仪的扫描品质、识别的方法、学习及测试的样本等,多少都会影响其正确率。
  #1?牐犞形腛CR
  ?牐犞形氖鞘澜缟献钣琶赖奈淖郑捎傻ヒ徊渴壮梢蛔郑蛴啥喔霾渴状由稀⑾隆⒆蟆⒂腋鞣降淖楹希槌梢桓鲎郑僖坏愠晌硪桓鲎郑嘁换殖闪硪桓鲎郑⑶易质芏唷A硗庠谟凭玫睦烦ず又校刍墒肿痔澹缈濉⑺翁濉⑽罕恳恢肿痔逯杏钟行矶嗟谋湫危驳摹⒅锌盏摹⒋值摹⑾傅摹⒒褂幸帐跣蔚模烧钦庑┟烂畹淖楹希锤鹤諳CR带来了很大的麻烦。
  ?牐犚残碛腥嘶崛衔形淖侄唷⒈驶丛樱蛇⑷〉男畔⒍啵虼耸侗鸺际跤Ω帽扔⑽摹⑹秩菀住T诖斯们也宦鄞斯鄣阏酚敕瘢谟邢薜奶跫拢ɑ饔胧侗鹚俣取⒅葱惺侗鸬目占浼按⒋婵占涞鹊龋?,中文识别比英文、数字的识别,所需处理的问题及技术,确实多了许多。
  ?牐犞形腛CR过程如图(^38060101a^)所示,下面我们介绍一下印刷汉字OCR的八个过程:
  #2?牐?1.扫描输入文本图像   
  ?牐燨CR处理的标的物须透过光学仪器,如扫描仪、传真机或任何摄影器材,将图像转入计算机。科技的进步,扫描仪等的输入装置已制作得愈来愈精致,轻薄短小、品质也高,对OCR有相当大的帮助,扫描仪的分辨率使图像更清晰、扫除速度更快,增进OCR处理的效率。
  #2?牐?2.图像的预处理
  ?牐犜ご?理包括图像正规化、去掉原始图像中的噪音(干扰)、扫描文字行的倾斜校正等。
  #2?牐?3.图像版面的分析和理解
  ?牐牥婷娣治鍪嵌晕谋就枷竦淖芴宸治觯殖鑫谋径温浼芭虐嫠承颍约巴枷瘛⒈砀竦那颉6杂谖谋厩蚪惺侗鸫?理,对于表格区域进行专用的表格分析及识别处理,对于图像区域进行压缩或简单存储。
  #2?牐?4.图像的行切分和字切分
  ?牐犘星蟹质墙蠓耐枷裣惹懈钗校俅油枷裥兄蟹掷氤龅ジ鲎址墓獭V档靡惶岬氖侨绾谓懒⑽淖执游淖中谐槿〕觯恐形淖痔乇鸬牡胤皆谒胁渴椎墓勰睿虼耍恢皇巧舷碌暮铣伞⒆笥液铣傻淖忠蔡乇鸲啵矣锌赡苁橇讲糠郑ㄈ纭袄薄ⅰ懊鳌薄?,也有三部分的(如“捌”、“晰”……),当这些字与英文或数字同时存在且紧靠在一起时,判断如何连接或切出,是相当困难的。
  #2?牐?5.文字特征选择和提取
  ?牐犔卣魈崛∈钦龌方谥凶钪匾囊换罚ヒ允侗鹇识裕卣鞒槿】伤凳荗CR的核心。它是从单个字符图像上提取统计特征或结构特征的过程,用什么特征、怎么抽取,直接影响识别的好坏,包括为此而做的细化、归一化等步骤。特征可可以分为两类:一为统计的特征,如文字区域内的黑/白点数比,当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就足以应付了。而另一类特征为结构的特征,如文字影像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对。提取特征的稳定性及有效性,直接决定了识别的效率。
  #2?牐?6比对数据库
  ?牐牭笔淙胛淖炙阃晏卣骱螅还苁怯猛臣苹蚪峁沟奶卣鳎夹胗幸槐榷允菘饣蛱卣魇菘饫唇斜榷裕菘獾哪谌萦Π杏侗鸬淖旨淖郑萦胧淙胛淖忠谎奶卣鞒槿》椒ㄋ玫奶卣魅鹤椤?
  #2?牐?7.比对识别
  ?牐犖淖质侗鸺创右延械奶卣骺庵姓业接氪蹲址嗨贫茸罡叩淖址嗟墓獭U馐强沙浞址⒒邮г怂憷砺鄣囊桓瞿?椋莶煌奶卣魈匦裕∮貌煌氖Ь嗬牒嫌忻谋榷苑椒ㄓ校号肥娇占浔榷苑ā⑺沙诒榷苑ǎ≧elaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov  Model)等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。
  #2?牐?8.识别结果的编辑修改后处理
  ?牐犚簿褪侨斯ばU抢么室濉⒋势怠⒂锓ü嬖蚧蛴锪峡獾扔镅韵妊橹抖允侗鸾峁行U墓蹋荗CR最后的关卡,在此之前,使用者可能只是拿只鼠标,跟着软件设计的节奏操作,去更正或者找寻OCR可能出错的地方。一个好的OCR软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字等功能都是OCR软件所必需具备的。
  #1?牐犞形氖侗鸬奶厥庑?
  ?牐犞形氖侗鹗潜冉峡蒲Ш腿现蒲г谌斯ぶ悄芊矫娴挠τ茫婕澳J绞侗稹⑼枷翊?理、数字信号处理、自然语言理解、人工智能、模糊数学、信息论、计算机、中文信息处理等学科,是一门综合性技术,其关键技术是识别特征库。汉字是非字母化、非拼音化的文字,是世界上公认的字种最多、字型最复杂的文字,建立这种大字符集的分类特征库是十分困难的。
  ?牐犚话悴捎枚嗉斗掷啵谰荽罅坎煌痔宓难牛嗵卣鳌⑷轿欢ヅ淝笙嗨萍俳卸嗵卣鳌⒍喾椒ū冉稀⒀?习、分析、综合而集成特征库,以保证分类率高、适应性强、稳定性好,细分类的重点在于对相似集求异匹配、加权处理、结构判别,定量、定性分析以及前后连接词的关系,最后判别。它既有宏观比较的全局粗分类特征,又有微观比较求异的细分类特征,还有内外比较特定域的局部特征以及作为代码级后处理的联词、词组库等。
  #1?牐犞形腛CR软件
  ?牐牶鹤值哪J奖泶镄问胶拖嘤Φ淖值湫纬煞椒ㄓ卸嘀郑恐中问接挚梢匝≡癫煌奶卣鳎恐痔卣饔钟胁煌某槿》椒ǎ饩褪沟门斜鸱椒ê妥荚蛞约八玫氖Чぞ卟煌纬闪酥掷喾倍唷⑿问礁饕斓暮鹤质侗鸱椒āW艿睦此担煌奶卣鞒槿『头掷嗥鞯纳杓品椒ň龆?了识别系统采用不同的处理方法,通常可以分为结构模式识别方法、统计模式识别方法、统计与结构相结合的识别方法以及人工神经网络方法等。
  ?牐犖私徊教岣呦低车淖芴迨侗鹇剩?描图像、图像的预处理以及识别后处理等方面的技术也都得到了深入的研究,并取得了长足的进展,有效地提高了印刷汉字识别系统的总体性能。清华大学、汉王科技等在此方面的研究成果都比较突出。