用数码相机实现OCR

软件世界

  一天笔者在做主页时,看着那一大堆的稿子,感觉手工录入很头疼,突然之间也不知道哪里来的灵感,看到桌面上的那个数码相机好长时间没用了,能否用这个数码相机当扫描仪用呢?答案是肯定的,下面就开始动手吧。

  一、这里需要准备硬件和软件

  1.数码相机一部。

  2.软件是从朋友那里借来的尚书六号表格文字识别系统(以下简称:尚书六号)。其实尚书五号、清华OCR等软件也可以,但是笔者还是觉得尚书六号好用。以下就以尚书六号为例介绍。再一个就是扫描小精灵了,因为如果没有扫描小精灵尚书六号可能就无法直接读取你数码相机里的数据,而扫描小精灵的另一用处是它能提高数码相机和扫描仪的识别率,经过这几天的实际使用之后,感觉这个软件还不错。万事具备,Let's Go。

  二、实战扫描

  软件安装不用说了。先装哪个都可以。运行两个软件,打开扫描小精灵会弹出一个窗口,提示你注册,但是并非是要向你收“保护费”,软件作者只是想了解你使用软件的情况,无须注册,点放弃(图1)。进入后我们就可以开始扫描了(图2),在正常的使用情况下,你无须设置数码相机就能很好地使用了。

  几个关键的地方:

  第一,一定要把数码相机固定住,不要放在手上对着文本拍照,这样扫描(暂且称为扫描)出来的效果会大打折扣的,因为毕竟手是会颤抖的。

  第二,亮度要好,但是亮度不能太集中,这样扫描出来的图片也不好,也就是说光度要均匀。

  第三,把数码相机面朝下,扫描的图像面朝上,最好再在图像的上面加块透明玻璃,这样有利于扫描对象的平整,最后调整好图像与数码相机的距离。

  点菜单的文件开始扫描,或者点扫描图标也可以,软件还会弹出前面提到的那个注册窗口,无须理会它,点击放弃。如果这时相机里是空的,在笔者的电脑里会弹出一个窗口(即上传图片的窗口),这里有三个选择,一个是静止图片,一个是活动视频(图3)。选择活动视频,因为这样在扫描时能随时调整图像的位置和清晰度,如果数码相机是脱机拍摄出来再上传的就不是很直观了,要看你实际中的拍摄技巧有多高了,这些都只有在实际使用中去体会,没有什么技巧的。

  点击活动视频后,在控制台里会出现抓拍的按钮,看好了机会就下手吧。

  这里需要提一下,软件本身会自动把彩色的图像转换成黑白的TIF文档,另外软件会把图像存放在默认的软件安装目录下的Work目录里,一会儿可以用尚书六号把这个图片提出来使用,当然,默认的目录在软件里可以进行手动设置。

  接下来,我们就可以打开尚书六号工作了,运行软件,尚书六号这个软件本身也无须设置,一切使用默认值就好,这对电脑初学者来说是再好不过的事了。

  这里也有一点要先提示一下,如果你没有扫描小精灵这个软件,你也可以直接扫描,但是尚书六号这个软件本身并不支持其他扫描仪。如果你硬要直接使用尚书六号扫描也可以,但你必须从网上下载一个补丁。

  运行尚书六号,出现如图4所示的界面。

  直接点击文件图标,会弹出如图5所示的窗口,这时你就可以打开刚才扫描小精灵扫描后所保存的目录,打开一个图片(图6),是不是感觉图片太小看不清?那就点左边的放大镜试试,大多了吧?但是如果图片中搀杂有别的图像或者不是文字的部分,这时就可以使用“设定识别区域”这个命令来解决,以便能更好地让软件识别。此外,文字段落图片中文字大小等也可以使用“设定识别区域”命令来解决。

  接下来就可以进行识别了。识别后的结果如图7所示,这个过程的速度非常快,总共不到3秒钟。笔者觉得识别率挺高的,然后再对无法识别和识别错误的字进行一下修改。可别忘了存盘。Ok,大功告成,是不是很简单?有数码相机的朋友赶快试试吧。