表格文字也可“扫”出来

IT商界

  笔者单位有台“老”扫描仪(清华紫光扫描仪6A-Uniscan),用了3年多,使用效果一直很好。扫描文字和图像非常不错,配套软件TH-OCRMF 7.50的文字识别能力也很强。可是扫描能编辑的表格文字一直困扰着许多人,如果遇到表格较大(指单行单列)还可以将扫描区域缩小再识别,但大多数情况下表格又小又多,若采用缩小扫描区域太耗时了,若采用菜单提供选项操作则几乎识别不出几个字来,显示的不是乱码就是空白。改用其他文字识别软件也行不通。最近由于笔者扫描表格较多,终于琢磨出一套非常简单且行之有效的办法。

  扫描好表格后将图片文件保存好(最好保存为TIF文件),再运行Windows自带的画图程序,打开该图片文件,选取填充器,选择和底色一样的颜色,对着表格框线点击(如果点不中可在“缩放”里选大尺寸),看到了吗?──表格不见了,剩下的都是文字。

  然后选“另存为”,再选单色文件(此步至关重要),保存为BMP文件。

  最后在TH-OCRMF 7.50打开该BMP文件,点击识别,一切OK。