快速转移网站和论坛数据
站长空间
编者按:有位读者问虫虫,说自己的论坛到期了,想换一个更好的空间,同时更换新的论坛程序,不过,这个工作量实在太大了,又没有对应的数据转换工具,有没有好办法解决这个问题呢?其实,有了采集软件,搬家只是小菜一碟。
轻松转移网站数据
“火车头采集器”是一款方便实用的内容采集软件,支持采集远程文章以及图片,Flash动画下载、文件采集等功能,还可以自己制作发表网站的程序模块参数、自定义发表的内容等。下面我们就以该软件的3.1正式版为例进行说明。(下载地址:http://www.newhua.com/soft/47031.htm)
配置运行环境
由于软件是基于.NET程序架构,所以使用前必须安装Microsoft .NET Framework 2.0组件,否则程序将无法正常运行。另外,如果是Windows XP系统,还要首先打上Service Pack 2补丁才能安装该组件。(组件下载地址:http://www.cpcw.com/web/f/f142.html)
建立采集站点
组件安装完成后下载软件压缩包,打开文件夹中的LocoySpiderV3.exe文件,当程序界面出现后说明系统环境配置成功,接着就可以开始进行数据的转移了。
在任务列表面板中点击右键,新建一个采集站点,接着在弹出的站点新建窗口中输入站点的名称网址等信息。如果需要转移的原站点模板都相同,则可先在这里进行内容规则的添加,这样做的好处是所有在该站点下的采集任务都会自动生成规则,节约时间。
添加数据规则
切换到软件的“整站内容规则”页面(图1),这是采集中最重要的一步。如果稍有设置不当就可能出现错误。一般的文章转移需要填写包括标题、内容、时间在内的基本信息。要成功获得这些信息,必须严格按照以下步骤进行操作。
开需要采集的内容页面,在浏览器中选择“查看—源代码”,将弹出一个文本文件,这就是该网页的HTML代码(图2),在代码中寻找标题字段,如标题开始标记是



接着按照同样的方式进行文章内容、作者、来源、时间等标记的查找和添加,一般我们需要对多个文章页面进行查看核对,以避免出现标签错误的情况。
如果需要同时采集网页中的其它信息,可以点击“添加标签”按钮,进行采集对象的添加,软件不仅支持通过采集得到数据,还可以设置固定格式的数据。
提示:初次添加数据规则时可能大家会觉得操作困难,但只要多试几次并仔细研读软件说明文档。理解原理后就可以很容易地进行数据规则的编制了。
建立采集任务
在刚才添加的站点名称上点击右键,选择“从该站点新建任务”选项,将出现采集网址菜单。
软件提供了三种网址采集模式,如果目标网站有对应的文章列表页,则可以使用“1级链接”方式,它的原理是通过内容列表页面自动检测出内容页面,从而进行网页内容的采集。如果目标网址文件名称有一定的规律,也可以直接添加需要采集的内容页网址。例如文章列表为http://网址/list_1.html的文件命名方式,而全部列表有50页,就需要在软件中使用“批量多页”方式添加地址,软件的通配符为(*),那么我们就应该填写http://网址/list_(*).html(图4),然后点击“添加”按钮即可。

由于网页存在着不同的编码,我们还要对采集对象的文件编码进行设置。方法是查看网页的源文件,然后找到类似“<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />”的代码 ,其中的gb2312就是网页的编码,一般情况下在软件中设置默认选项即可。
采集任务添加完成后可以先进行测试,点击软件右下方的“开始测试网址采集”按钮进入测试页面,软件将根据刚才填写的网址规则进行采集,待地址搜索完成后,可以选择任一文章进行测试,如果软件能正常显示所采集页面的内容,说明采集规则设置成功;如果不能显示内容,则需要重新进行规则的设置。
提示:设置采集任务时一定要细心,任何一点的标签错误都可能导致采集的失败。
文章内容发布
完成以上步骤后,还需要设置采集内容的发布方式,软件目前提供了多种内容发布方式。既可以直接发布到网站程序中,也可以保存为本地文件。如果想直接发布到网站程序中,则需要有对应的程序发布模块,软件自带了若干程序模块,包括了大多数流行的文章系统。如果没有我们需要的模块,可以到软件官方论坛进行查找(http://bbs.locoy.com)。
下面我们就可以进行内容的采集操作了。在软件主面板中选择需要采集的网站名称,点击面板上方的开始按钮,软件将自动进行内容的采集。如果需要采集的内容很多,则需要等待较长时间。等到所有的文章采集完成后,软件将显示结果。
论坛文章一网打尽
火车头还出了一款名为“论坛大挪移”的软件,但需要购买,所以这里我们以另一款“三人行论坛搬家王”为例介绍。该软件提供了对应的论坛程序版本(下载地址:http://www.huoyue.com.cn/thread-4715-1-1.html),其中有支持包括八种主流的论坛在内的程序,下面我们就使用针对Discuz!论坛的软件进行转移的说明。
设置采集参数
首先根据论坛使用的编码选择相对应的程序,直接点击对应的exe文件图标打开,软件简单的界面非常容易上手。
接下来单击程序上方的“采集设置”按钮,将出现来源网站的设置页面,只须根据图片提示填写相应的参数即可。参数设置完成后同样需要进行采集测试,点击“测试”按钮,软件将自动读取帖子列表以及帖子内容,如果测试成功,就可以进行下一步的操作了。
帖子批量采集
保存刚刚设置的采集参数后,回到软件主面板。而后点击“开始采集”按钮,将会弹出一个论坛帖子采集页面,根据文字提示设置右边的具体参数后,我们就可以进行帖子以及回复的批量采集了。该软件的采集速度非常快,不需要太长时间就可以转移一个中小型论坛的所有帖子。
快速发布帖子
帖子采集完成后我们可以先修改再发布。方法是进入文章管理面板,在显示的帖子列表及内容里进行修改。所有的帖子修改完成后点击“保存”按钮即可。
接下来先设置需要发布的论坛参数,首先在软件右侧选择对应的功能按钮,而后按照提示进行新论坛的参数填写,完成后保存返回。
最后点击程序中的“批量搬家”按钮,填写相应的帖子发布参数,最后点击“开始批量发帖”,稍等片刻,论坛帖子就转移完毕。
提示:文章的采集和发布速度和网络传输情况等有很大的关系,如果出现软件假死的情况,不必急着关闭,等待采集全部完成后将自动恢复。