主流中文OCR软件

Author: Date: 2001年 38期

?牐犓孀虐旃远际醯姆⒄购腿嗣嵌园旃?率要求的不断提高。使用手工录入方式处理文件的办公模式显得越来越不合时宜。基于此原因,人们急需一种更高效的办公模式来代替原有的模式,光学字符识别(OCR)技术也就在这样的背景下应运而生。近年来,随着光学识别技术的不断更新和完善,OCR软件正以其简单易用性和高效的处理文件模式逐渐成为Office一族的新宠。在此背景下,各大OCR生产厂家也加快了OCR产品的更新换代速度,一时间市面上出现了一大批优秀的中文OCR识别软件。可谓百家争鸣、百花齐放。
  ?牐牨疚慕樯艿氖腔贠CR技术的市场主流光学识别(中文)软件。鉴于各种OCR软件在市场上的占有率以及普及率,本文主要选择了丹青、紫光、汉王、蒙恬和尚书五个主要OCR品牌来具体介绍,其产品及厂家信息见表1(^38060104a^)。旨在为读者选择适合自己的OCR软件提供参考。
  #1?牐犚弧⒅髁髦形腛CR软件介绍
  #2?牐牶和?
  ?牐牐?1) 公司简介
  ?牐牨本┖和蹩萍脊咀?1985年起就开始从事OCR技术的研究工作,研究内容涉及到中文、英文、日文、韩文的印刷体识别,中文的手写体识别,手写数字识别,表格识别与还原,版面分析与还原,中文OCR系统。
  ?牐牐?2) 新产品特点(汉王OCR新世纪版)
  ?牐牶和鮋CR新世纪版是专业文字录入的中文OCR版本,是汉王专业OCR与汉王手写汉字识别系统的集成,特点如下:
  ?牐牎裎母逍问蕉嘌嚎墒侗鹗中次母濉⒂∷⑽母濉⒈砀竦榷嘀中问降奈母濉?
  ?牐牎翊笞址嚎墒侗鹨弧⒍豆旰鹤帧⒎碧遄帧⒂⑽摹⑹值壬习僦址牛恢С炙翁濉⒎滤巍⒖濉⒑谔濉⒃蔡濉⑽罕⒘ナ椤⑿锌壬习僦肿痔濉?
  ?牐牎穸嗍侗鹨妫翰捎萌鍪侗鸷诵奶岣呤侗鹇剩峁┛焖僮既返拇坑⑽氖侗鸸δ堋?
  ?牐牎癜婷娣治觯褐С肿远婷娣治觯远治鐾枷袂度胛谋尽⒑崤攀拧⒒炫盼谋尽⒈砀裎谋荆蛔远治淖帧⒈砀瘛⑼枷竦睦改渴粜浴?
  ?牐牎癜婷婊乖褐С纸侗鸾峁乖捎肷?描文稿的版面布局一致的新文本,支持 RTF、PDF、 HTML 等文档格式。
  ?牐牎窀呤侗鹇剩河∷⑽母? 98%以上,纯英文 99.9%。
  ?牐犞杏⑽幕炫? 98%,较工整的手写文稿95%以上。
  ?牐牎袷侗鹚俣? (PⅡ 266机型):印刷体汉字 120字/秒。
  ?牐牻瞎ふ氖中次母? 150字/秒(PⅡ266 机型)。
  ?牐牎穹奖阈薷母霰鸫砦螅何谋颈嗉喜坑泻蜓∽直嗉?/鼠标切换按钮,方便你用汉王笔修改个别识别错误。
  ?牐牐?3) 产品卖点
  ?牐牪噬侗鸸δ堋⒏呔鹊谋砀袷侗鸸δ堋⑼夹胃袷绞侗鸸δ堋?
  #2?牐犆商?
  ?牐牐?1) 公司简介
  ?牐犆商窨萍挤⒄褂邢薰境闪⒂?1991年,是一家专门从事文字的识别研究和产品的对外合作、开发、生产和销售的有限公司。1993年到1994年,蒙恬公司先后与日本CASIO、韩国三星等软件组织及美国的Motorola等公司签约,授权这些公司使用蒙恬的PDA辨识核心。2000年初和广东省科委技术转移中心合作,在北京中关村及广州软件园设立蒙恬R&D研究开发中心,开发和销售全新的蒙恬输入产品。
  ?牐牐?2) 新产品特点(认识王V3.1)
  ?牐犆商袢鲜锻跏且惶自赪indows环境发展的中文光学辨识系统(OCR),特点如下:
  ?牐牎袷中醋直媸叮嚎缮?描辨认手写的中文字。
  ?牐牎穹奔蛱迦旨淖直媸叮嚎删繁媸睹魈濉⒑谔濉⒎滤巍⒖椤⒃蔡宓榷嘀钟∷⒅形姆碧遄郑?13053字),简体字(6763字),香港字(3048字)及英数字符号。
  ?牐牎穹奔蚝弦唬嚎上呱锨谢环碧灏妗⒓蛱灏婕跋愀郯姹媸逗诵摹?
  ?牐牎裆⒛?理:对于扫描品质不良的文件,即使文字部分断线或散墨不清,亦可正确辨识。
  ?牐牎穸嗳挝窦芄梗翰捎?32位多线程(multi-thread)多任务架构,文件分析、辨识及结果编辑,可同时进行,不必等待。        
      ●人工智能学习功能:可以提升尔后同一字的辨识率。
  ?牐牎袂昂笙喙卮市U喝媚憧梢愿菸恼虑昂蟮挠镆饫醋鲂U?
  ?牐牎衩酰嚎缮?描辨识中英文名片将名片分类管理,还可输出至Outlook或Excel中。
  ?牐牬送猓鲜锻趸咕哂杏跋裥拚⒂跋袷淙搿⒈砀裰叵帧⑻妆淼榷嘀止δ堋?
  ?牐牐?3) 产品卖点
  ?牐犜宓男拚δ堋⒈媸吨悄苎?习。
  #2?牐牭で?
  ?牐牐?1) 公司简介
  ?牐犃⑿鹿势笠导攀巧轿蛔ㄒ涤跋袢砑娜ㄍ弧6嗄昀矗⑿鹿室恢弊ㄗ⒖⒂泄赜跋穸嗝教濉?办公室文件辨识系统以及网络影音传输等领域。以全方位产品以及优质的服务,跨入国际市场,并与国际电脑硬件厂商如Adobe、EPSON、JVC、Kodak、NEC、等知名大厂建立了长期的合作关系。在2000年10月份跻身国内1000家大企业。
  ?牐牐?2) 新产品特点(丹青4.0黄金版)
  ?牐牭で嘀杏⑽奈募媸断低? 能快速地将大量文件数据转换成可编辑的文本文件。加速办公室的自动化,帮助一般的公司解决大量中英文印刷文件输入(如剪报 、商业信息、技术文件……)的负担,让使用者能以较低的成本(不需专业的打字员即可操作)在短时间内(每分钟9000字),建立属于自己的情报系统。同时,也可帮助一般使用者快速建立自己的数据库。
  ?牐牭で嘀杏⑽奈募媸断低? 能辨识的范围包括各式彩色、黑白、表格及非表格文件;能辨识的内容包括 繁体中文、简体中文、英文及阿拉伯数字。辨识后的文本文件所占的内存空间远较未辨识前的影像档案小。在经过校对后即可储存成TXT、RTF、DOC、XLS、SLK、CSV等各种文件格式,并且可以在一般的文字处理软件(如写字板、MS Word、Excel等) 中被开启和编辑。除此之外还可直接传送成电子邮件,或将文件以HTML 格式,通过网络浏览器(如Internet Explorer、Netscape Navigator等)直接打开。
  ?牐犠远媸豆δ堋⒃闹叵直嗉肪场⒍嗵灞媸丁⒉噬诎妆媸丁⒆远嘉姆治觥⒀?习新字功能、自动校对功能。
  ?牐牐?3) 产品卖点
  ?牐犠远媸豆δ堋⒈嗉ㄒ底挚庾远6怨δ堋?
  #2?牐犐惺?
  ?牐牐?1) 公司简介
  ?牐犐惺镺CR文字识别系统由北京汉王科技公司授权上海中晶电脑公司独家使用,软件版权属于北京汉王科技公司。其中尚书六号(最新版)仅支持由上海中晶电脑有限公司生产的支持TWAIN标准的扫描仪。尚书六号是用于专业文字录入的中文OCR版本,识别核心与汉王OCR新世纪版相同。
  ?牐牐?2) 新产品特点(尚书六号)
  ?牐犑侗鹱旨哟蟆⑹侗鹱痔逯掷嘣龆唷⒅杏⑽幕炫诺氖侗鹇蚀蟠筇岣摺⑻峁┎噬⒒叶壬?描功能,方便用户使用、整体识别率大大提高、提供识别结果的图文并存的彩色版面恢复,支持RTF、HTML的输出。
  ?牐牐?3) 产品卖点
  ?牐牪噬侗稹⒏嗟氖涑霰4娓袷健⒅С直砀衲J降氖侗鸷突指础?
  #2?牐犠瞎?
  ?牐牐?1) 公司简介
  ?牐牨本┣寤耐ㄐ畔⒓际跤邢薰臼窃谠铱莆闹С窒拢乒阌τ们寤笱У缱庸こ滔档目蒲谐晒?863高科技计划”信息领域多字体印刷汉字自动识别技术,于1992年成立的集科研、生产、销售一体化的高新技术企业。新千年到来之际以清华紫光股份有限公司、清华大学企业集团及国家科委高技术发展中心为股东,重组成立——北京清华紫光文通信息技术有限公司,公司总注册资本金2000万元人民币。在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开卖的。随着扫描仪分辨率的提升,紫光的软件也随之升级,目前最新的版本是TH-OCR2000。TH是TsingHua的缩写,TH-OCR代表清华文通公司开发的OCR软件。
  ?牐牐?2) 新产品特点(TH-OCR2000)
  ?牐燭H-OCR2000以清华TH-OCR为基础,更专为每天需要录入大量数据的单位量身制作。特点如下:
  ?牐牎? 高效:具有对超大字符集(达万余字)、超多种字体(近百种)的汉字识别能力;具有对彩色及复杂中文报纸等进行版面分析、版面理解和准确复原的能力,生产效率是传统手工方式的三倍以上。
  ?牐牎? 高质:不需打印校样,一次录入就能达到出版质量,将电子文档的错误率严格控制在万分之一以下。
  ?牐牎? 低成本:建一个10人左右的紫光数据录入工厂,相当于40人左右的传统数据工厂,可节省大量人员费用及管理费用,大大降低了单位数据的生产成本。
  ?牐牐?3) 产品卖点
  ?牐牪煌∷⑵返牧己弥С帧⒍捞氐脑逍6圆榇硪妗?
  #2?牐犠瞎?
  ?牐牐?1) 公司简介
  ?牐牨本┣寤耐ㄐ畔⒓际跤邢薰臼窃谠铱莆闹С窒拢乒阌τ们寤笱У缱庸こ滔档目蒲谐晒?863高科技计划”信息领域多字体印刷汉字自动识别技术,于1992年成立的集科研、生产、销售一体化的高新技术企业。新千年到来之际以清华紫光股份有限公司、清华大学企业集团及国家科委高技术发展中心为股东,重组成立——北京清华紫光文通信息技术有限公司,公司总注册资本金2000万元人民币。在1996年清华紫光开始搭配中文识别软件之前,市场上的扫描仪和OCR软件一直是分开卖的。随着扫描仪分辨率的提升,紫光的软件也随之升级,目前最新的版本是TH-OCR2000。TH是TsingHua的缩写,TH-OCR代表清华文通公司开发的OCR软件。
  ?牐牐?2) 新产品特点(TH-OCR2000)
  ?牐燭H-OCR2000以清华TH-OCR为基础,更专为每天需要录入大量数据的单位量身制作。特点如下:
  ?牐牎? 高效:具有对超大字符集(达万余字)、超多种字体(近百种)的汉字识别能力;具有对彩色及复杂中文报纸等进行版面分析、版面理解和准确复原的能力,生产效率是传统手工方式的三倍以上。
  ?牐牎? 高质:不需打印校样,一次录入就能达到出版质量,将电子文档的错误率严格控制在万分之一以下。
  ?牐牎? 低成本:建一个10人左右的紫光数据录入工厂,相当于40人左右的传统数据工厂,可节省大量人员费用及管理费用,大大降低了单位数据的生产成本。
  ?牐牐?3) 产品卖点
  ?牐牪煌∷⑵返牧己弥С帧⒍捞氐脑逍6圆榇硪妗?
  #1?牐牰⒅髁髦形腛CR软件横向比较
  ?牐犓档街髁鱋CR软件,我们眼前会出现一个个耳熟能详的名字。在它们各自的识别功能上,可谓各有千秋。首先我们不得不提一下清华紫光TH-OCR。由于它得到了清华大学以及国家863计划的技术支持。所以其功能十分强大,市场占有率据说也是最多的。而汉王和尚书由于都是使用的汉王公司的识别核心,所以在功能上基本是一样的,而尚书六号是市场上对表格识别比较好的软件之一。丹青以立新国际企业集团强大的研发优势和友好的操作方式,也赢得了一定的用户。蒙恬的软件整合功能是OCR软件中比较出色的。
  ?牐牳髦种髁鱋CR软件在具体的识别功能上,虽然存在差异,但从局部功能来看,是有一定相通性的。比如横竖版的自动识别、文件自动或者手动分析、简体多体识别、表格识别、多文件识别扫描、文字后期处理(分割、合并)、版式还原等功能,是OCR软件中都有的,所表现出来的只有功能处理质量方面的差异。下面列出了各种主流OCR软件最新版本的一些技术细节信息(表2)(^38060104b^),供大家参考,所有数据来自厂家资料,笔者进行了核实。
  #1?牐犎⒅形腛CR的市场状况
  ?牐犛捎谌胧赖挠跋欤?描仪销售的传统格局被打破,各大扫描仪生产厂商纷纷改变了自己的经营策略,配套的或者说是捆绑销售的OCR识别软件成为扫描仪市场上的一大卖点。捆绑销售使这些往日昂贵的OCR软件进入了寻常百姓家,在这里列出了现在市场上主流扫描仪捆绑销售OCR软件的状况(表3)(^38060104c^),供大家选购扫描仪以及捆绑销售的OCR软件之用。
  ?牐犘枰⒁獾氖牵撼鲎怨纠娴目悸牵Π笙鄣腛CR软件均把软件的内核进行加密,使软件只能与特定的扫描仪配套使用。例如:在紫光与尚书中不能直接调用ACER扫描仪的扫描程序,能直接调用ACER的只有丹青。对此我们也并非无计可施,只需先用扫描仪把文字扫成公共识别图片格式(如TIF格式)并保存,再用OCR软件导入图片识别就可以了。