用好TH-OCR导出功能

Author: 张庆东 Date: 2000年 第42期

  《电脑报》今年第40期“OA专刊”刊有刘卫京先生“如何用扫描仪OCR”一文。文中刘先生曾提到用Word的替换功能,去掉识别后的文章中的硬回车符的方法,其实TH-COR系统本身就有去硬回车符的功能。笔者用的是:清华TH-COR Bundle 2000。
  OCR识别后的文章,在原扫描稿的每个自然行末尾都加了个硬回车符,以便能将识别后的结果以原来的版面出现。但这样一来,每个自然行在扫描识别后的文本中就形成了一个自然段,使我们对扫描后的文章进行浏览、排版时,带来了很大的不便。如何去掉这些讨厌的硬回车符呢?笔者刚开始用TH-OCR时也着实费了不少周折,后来才发现TH-OCR软件本身就有这种功能。
  将识别后的文本校对完毕后,选择“文件”菜单中的“导出”命令,弹出一个“另存为”对话框,单击“保存类型”下拉菜单,选择“Formated Text Files(*.txt)”即“文本文件格式”,这时,对话框的右下角出现一“段内回车字符”选择区,系统默认为“无”,单击保存,识别后的文本就被滤去硬回车了。这样,再用Word或WPS等软件对这些文件进行浏览、编辑、排版时,就不会有硬回车造成的不便了。
  这一功能不仅对扫描识别文本有用,而且对网页文本同样适用。我们在浏览网页时,常常碰到自己喜爱的文章,然后“复制”保存到文件中。但这样复制下来的文本,同样存在着行间回车符的问题,我们可以将复制的内容粘贴到TH-OCR中,然后再用“导出”功能滤去回车符。大家不妨试一试。
  TH-OCR软件“文件”菜单中保存文件的三种方法:
  1.“保存”命令:用此命令保存的只是临时文件,在你退出应用程序时,暂时文件要被删除,所以还要以新名存储临时文件,如果“以新名存储临时文件”前的复选框你没有选中的话,“一场辛苦一场空”是免不了的了。
  2.“另存为”命令:系统默认此命令保存的文件格式为TXT文件,但以这种方法保存的文件,段内有回车字符,给我们进一步编辑、修改此文本或对此文本排版带来了不便。
  3.“导出”命令:导出的文件类型有三种,第一种是rtf文件,第二种是htm文件,第三种是txt文件。识别结果被以rtf格式导出后,在Word软件中,就可以打开该文件。这时只要在Word的“视图”命令中选择“页面”,则识别结果将以原来的版面出现,原来版面中的图形亦同时保留在识别结果文本中原来的位置上,恢复原来的版面。选中htm文件格式后,可以在浏览器中查看识别结果。在“导出”对话框下方,有一个“启动程序进行浏览”的复选框,如果选中的话,在导出完成后将自动调用各种格式相应的浏览软件对导出结果进行查看。若以txt格式保存,则我们可以对文本中每一段之内的行间回车字符进行控制。
  如果我们不希望保留原来的版面格式,而且还要对扫描输入的文本进行再编辑的话,最好使用导出命令。