截图文字,轻松识别
外设领域
相信购买了扫描仪的朋友,都能得到随机赠送的OCR扫描识别软件,利用该软件你能借助扫描仪将各种原始文稿中的汉字,比较准确地识别出来。不过用这些随机赠送的OCR扫描识别软件,只能识别那些打印或印刷出来的文字,而用它们来识别从屏幕中截取下来的图片中的文字时,文本识别的准确率很低,特别是在字体很小的情况下,文字识别准确率就更低了。要想准确识别来自屏幕截图中的文字,可以使用Mini OCR,它能比较准确地识别屏幕显示出来的汉字。
该软件完全免费,你可以到http://ycsti.sti.js.cn/old/down/miniocr.zip处下载获得,然后用WinZip之类的工具,将它解压到一个临时目录,再双击该临时目录中的MiniOcr.exe文件,就能打开如图1所示的文字识别界面了。用该软件识别来自屏幕截图中的文字时,通常只需要进行打开截图文件、对图像中的文字段落自动切分、对图像中的文字识别以及保存识别内容等四个步骤。

导入待识别文件
在使用Mini OCR工具识别文字时,首先需要单击主界面中的“打开图像文件”按钮,在弹出的文件选择对话框中,将从屏幕上截取下来的文字图像选中,一般来说Mini OCR可以识别bmp格式的图像,对jpg格式、gif格式的图像,也能进行识别。要是你从屏幕中截取获得的图像是其他格式,此时你不妨借助类似ACDSee的图像格式转换工具,来将其他格式的屏幕截图文件转换成bmp、gif、jpg等格式。
进行段落划分
在将目标图像导入到Mini OCR程序界面中后,还需要对图像中的文字进行自动的段落划分,也就是说把图像中的文字自动划分成一块一块的文字段落,从而把文字以外的图像区域去除,仅将文字内容区域保留下来。一旦执行过段落切分操作后,被切分的段落文字将会按照出现的先后顺序,被Mini OCR程序依次识别。如果你的截图中包含有图文混排现象,那么使用段落切分功能,可以有效排除图形干扰,确保文字识别的速度和准确率都比较高。在对图像文字进行段落切分时,只要单击程序界面中的“段落切分”按钮就可以了。当然,即使你没有执行这一步骤,Mini OCR程序在默认状态下也会自动对当前的截图文件进行段落划分操作。
进行文字识别
完成了段落划分操作之后,现在就能对图像中的各个段落文字进行依次识别了。只要单击主界面中的“文字识别”按钮,Mini OCR程序就能对各个段落中的文字进行识别了,每识别完一个段落区域,该程序就会将对应区域的文字显示在主界面子窗口中,如图2所示。从该界面的识别结果来看,Mini OCR程序的识别准确率果然惊人,几乎达到90%左右。如果截图中的文字是中英文混合排版的话,Mini OCR程序往往会先识别其中的中文汉字,然后识别英文字母。不过从多次识别的试验来看,该程序对英文字母以及标点符号的识别准确率往往不是很高,但对各种字号的宋体中文汉字,包括特别小的字号内容,都有不错的识别准确率。

扫描结果的保存
完成识别操作之后,你可以将识别出来的纯文本内容保存起来,以便日后编辑调用。在保存识别结果时,只要单击Mini OCR程序界面中的“保存结果”按钮,程序将自动弹出文件保存对话框,在这里设置好文件保存的名称和路径(默认状态下,程序将以原先的截图文件名作为结果文件的文件名,路径也和原先的图像文件相同),再单击“保存”按钮就可以了。当然,你也可以直接选中识别后的纯文字内容,并对它进行任意的复制、剪切或粘贴。
怎么样,使用Mini OCR程序识别各种截图文字,是不是很方便呀?令人感到遗憾的是,Mini OCR程序对各种打印出来的汉字识别准确率不是很高,而且识别英文字母的效果也不好,因此在识别通过扫描仪生成的图像文字时,笔者建议各位最好还是使用扫描仪随机赠送的OCR软件!