识别软件,舍我其谁──3种常见汉字OCR软件比较
整机外设
对于大多数消费者而言,购买扫描仪最主要的目的就是用来进行汉字扫描,虽然在购买扫描仪的时候厂商一般都会附赠一款OCR软件(OCR,Optical Character Recognition,光学字符识别)但是有些附赠软件的识别水平实在让人不敢恭维。电脑市场上也有很多OCR软件,到底哪款才是最适合消费者的呢?
小知识:OCR软件的原理是将书写在纸媒质上的字符或标记根据各像素点不同的反光强度,用扫描或摄影方式转化成图像信息,再利用OCR软件辨识并转化成文字以便于用户的编辑。它的工作过程分为影像输入、影像预处理、文字特征抽取、比较识别、字词后处理、人工校正和结果输出七个阶段。
一、OCR软件的技术指标
1.字符库、字符总数
OCR软件的比对识别工作就是将通过特征抽取后得到的字符信息与软件本身附带的比对数据库中字符信息比较从而确定字符,因此字符数据库的大小将直接关系着OCR能够正确辨识的文字的数量。不过如果字符库过于庞大,反而会因为比对工作的增加而加重计算机的负担、降低识别速度。理论上来说一级汉字库完全可以满足汉字识别的要求。
2.识别的字号以及字体
汉字印刷体通常包括多种字号和多种字体,现在的OCR软件对大字号字的识别较好,而对于小字号字,OCR软件通常是通过插值放大成大字号字来进行辨识,这样就降低了识别的正确率,因此消费者需要关注的是对小字号字的辨识能力。而在字体方面,现在市场上主流OCR软件都能辨识百余种Windows常用字体,基本能够满足消费者的使用要求。
3.识别速度
识别速度是指OCR软件单位时间内所能够识别的字符数目。现在市场上一般的OCR软件都能达到一个相当不错的速度,一般一页数百字的输入文稿辨识仅数秒,而对于相对难于识别的手写体,所需要的时间就稍长一些。
4.正确识别率
识别率是指识别结果相对于原始文稿正确识别的比例,是OCR软件最重要的指标。笔者使用的几种OCR软件中,对于纯文字印刷体图像,它们基本上都可以达到100%的识别率,而当图像存在着图形、汉字以及外文字母混排的时候,系统的识别率就会降低,而当输入图像为手写体字体时,多数OCR软件的识别率就下降得相当厉害。
二、主流OCR软件推荐
现在市面上存在着多种汉字OCR软件,有的是随扫描仪附赠的,有的是市场零售的。其中比较知名的产品有:尚书OCR、丹青OCR、紫光文通OCR等几种。笔者由于工作关系,经常能接触到各种OCR软件,现在笔者就根据自己的使用感受给大家讲讲这几款软件的优缺点。
1.尚书6号汉字表格识别系统
由于是OEM的随机附赠软件,所以汉王科技并没有在这款尚书六号的软件界面上下多大功夫,界面相对简陋。
在功能方面,尚书六号相比其他的几款OCR软件没有什么让人激动的性能优势,仅支持较普通的用户自己设定识别区域、顺序以及选用的字符集以及简单的图像预处理功能。输出的结果也仅仅支持Word所能处理的RTF格式、用于Excel的CSV格式和用于IE的HTML格式,不像其他几款可以支持多种软件格式的输出。
但是这款尚书六号在OCR引擎方面还是让我们看到了汉王的技术实力。简体字集支持国标二级汉字库,即6763个汉字,繁体字集繁体BIG5的一级汉字约10000字。能够识别1号至6号印刷字体。并且这款尚书六号是目前市面上唯一支持宋、仿宋、黑、楷、圆体、隶书、隶变、魏碑、行楷、综艺等印刷字体混排识别的中文OCR软件。在识别率和识别速度方面都有着不错的表现,不过笔者感觉不是很满意的是对手写体输入的识别能力一般。
推荐值:★★★
2.丹青中英日文文件辨识系统白金版V4.5
由于是零售的商业产品,这款丹青OCR软件是笔者所使用过的软件中界面最美观的产品。这款丹青OCR功能也比较强大,单从支持的输出格式上来看,这款丹青OCR支持txt、doc、rtf、xls、csv、slk以及html等多种格式,能够极大方便用户的使用,在图像预处理方面这款OCR功能也比较出众。
在实际使用中,这款丹青OCR对质量比较差的文稿支持不是特别好,当碰到图文混排并且文字比较模糊的图片,识别率不能令人满意。而对于优质文稿,这款OCR软件有着近乎完美的表现,它能在自动模式下将分栏的文稿辨识后仍整齐地分栏输出,这是一大特色。对手写体的辨识丹青OCR表现算是四种软件中最好的,基本上能够正确地拆分辨识各个单字,并且配合人工校正还可以达到不错的识别率。
丹青OCR的手工校正所提供的形近字选择是3款OCR软件中最多的,为20个,较多的选择使用户在人工校正的时候更加得心应手。
推荐值:★★★★
3.紫光文通OCR2002
紫光文通OCR软件的界面很友善,这就使得用户能够很快上手,而且紫光OCR软件的图像预处理和字符集修改等方面的功能丝毫不弱于丹青OCR,是功能相当强大的产品。
在性能方面,这款文通OCR有着和上面几款同样的特点,对高质量文稿识别较好,对低质量文稿以及手写体支持不佳,其中对于手写体这款软件拆分识别能力实在有限,不适合于经常要输入手写体文稿的用户。
在人工校对方面这文通OCR也有着十分人性化的功能,在校对的时候原稿自动在辨识文字的上一行显示,这样可以极大地提高校对的速度和正确率,方便用户的使用。
推荐值:★★★☆


