让PDF文件“任我改”

软件世界

  现在看电子书已经成为一种潮流,很多网站提供的电子书都是PDF格式。如果你需要编辑PDF文件,手边又没有相关的编辑软件,你也不必烦恼,只要你的电脑中安装了Office 的组件Microsoft Office Document Imaging,那么你完全可以使用它来进行PDF文件的编辑和修改。这期的“Office高级样板间”就带大家一起来看看如何利用Imaging实现对PDF文件的识别与修改。

  适用版本:OfficeXP/2003

  微软官方介绍

  Microsoft Office Document Imaging是微软在Office XP开始引入的一个扫描及图像处理组件。这个组件包含两大功能──扫描及图像处理。利用 Microsoft Office Document Imaging,可以扫描纸张文件,并将它转换成 Tagged 图像文件格式 (TIFF) 或 Microsoft Document Imaging 格式 (MDI):也可将文字图像 (如扫描的文件) 转换成实际的文字字符。亦称为文字辨识。)复制到 Microsoft Word 文件或其他 Office 应用程序。

  一般应用

  该组件主要配合扫描仪,帮助用户扫描文档。包括扫描单页文档和多页文档、执行光学字符识别(OCR),将扫描的文本和图像复制并导出到Word中。

  扩展应用

  在安装Microsoft Office Document Imaging组件后,WindowsXP系统会自动安装一个名为“Microsoft Office Document Imaging Writer”的打印机。Imaging组件可以通过这个虚拟打印机,将PDF文件所保存的信息识别,从而达到将它直接转换输出到Word等文字编辑工具中的目的。

  1.安装Imaging组件

  依次打开“程序→Microsoft Office→Microsoft Office 工具”,在弹出的菜单中查看一下,是否安装了Microsoft Office Document Imaging组件,如果没有你可以使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件(图1)。

  2.设置虚拟打印

  使用Adobe Reader打开需要进行转换的PDF文件,接下来依次选择“文件→打印”菜单,在弹出的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。如图2。

  3.输出到Word

  在桌面上单击“开始”按钮,依次选择“程序→Microsoft Office→Microsoft Office 工具”,运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”(图3)。

  确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。识别完成后,系统会自动调出Word,这时你就可以看到,刚才还不能编辑的文字,乖乖的出现在Word编辑窗口中(图4)。

  还有一点需要提醒大家的是,目前所有PDF格式的转换工具(包括本文介绍的软件),在进行转换后都需要重新排版和校对。

  小知识:Adobe PDF是Adobe便携式文档格式(Portable Document format)的简称。PDF以“文本+图像”的格式,保留原文件包括字符、字体、版式和色彩在内的全部信息,非常适宜网上传输。