小知识OCR的历史

Author: Date: 2001年 38期

?牐燨CR的概念诞生于1929年,由德国的科学家Tausheck首先提出,并且申请了专利。几年后,美国科学家Handel也提出了对文字进行识别的想法,但这种梦想直到计算机诞生后才变成为现实。第一个OCR软件是在1957年开发的ERA(Electric Reading Automation)。它的识别速度是每秒120个英文字母。在此以后,世界范围内广泛地进行着OCR技术的研究和开发工作。从OCR技术的发展历程来看,可分为三个阶段:
  ?牐牭谝唤锥危?60年代初期,NCR公司、Farrington公司、IBM公司分别研制出了自己的OCR软件。最早的OCR产品应该是IBM公司的IBM1418。它只能识别印刷体的数字、英文字母及部分符号,并且必须是指定的字体。60年代末,日立公司和富士通公司也分别研制出各自的OCR产品。
  ?牐牭诙锥危?60年代中期到70年代初期。IBM公司于1965年便在“纽约世界博览会”上展出了其OCR产品——IBM1287。第一个实现手写体邮政编码识别的信函自动分拣系统是由日本东芝公司研制的,两年后NEC公司也推出了同样的系统。到1974年,信函的分拣率达到92%~93%,并且广泛地应用在现实生活中,发挥着较好的作用,也因此至今邮政编码一直是各国所倡导的地址书写方式。
  ?牐牭谌锥危赫庖淮鶲CR产品主要解决的技术问题,就是对于质量较差的文档及大字符集的识别,例如汉字的识别。最先投入汉字识别研究的日本东芝公司,于1983年发布了其识别印刷体日文汉字的OCR系统——OCR-V595,其识别速度为每秒70~100个汉字,最高识别率达到99.5%。其后东芝公司又开始了手写体日文汉字识别的研究工作,经过不断改进,针对手写印刷体日文汉字的识别现在已经达到了实际应用水平。
  ?牐犖夜贠CR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究;70年代末开始进行汉字识别的研究;到1986年汉字识别的研究进入一个实质性阶段,取得了较大的成果,不少研究单位相继推出了中文OCR产品。时至今日,市场上已经有了众多的汉字OCR软件,这些产品对印刷体汉字的识别率最高达到99%以上,并且可以对多种字体、不同字号混合排版进行识别。