用Spy—CD构建网站全文搜索引擎
网络与通信
全文搜索引擎?用ASP、JSP还是PHP呢?其实菜鸟也不用手脚发抖的,在局域网站上实现全文搜索,只需要点几下鼠标就可以了。当然,前提是你下载并安装了我们的主角Spy-CD。Spy-CD的下载地址http://www.phdcc.com/download/spycd40k.exe,最新的4.02版下载文件大小为3079KB。
Spy-CD是英国PHD电脑顾问有限公司推出的一款共享软件,有30天的试用期。从软件的名字可以看出,它是用来为CD创建搜索引擎的,不过同样适用于局域网站。其工作原理是通过扫描网站生成一个搜索引擎数据库文件,在一个搜索页面中调用Java小程序读取数据库,并生成搜索结果。由于采用了Java Applet技术,因此无须特别配置网站,甚至离开服务器环境同样可以运行搜索引擎。现在,让我们开始Spy-CD全文搜索引擎之旅吧!
从“开始→程序”菜单运行“Spy-CD→Spy-CD-Wizard”,出现Spy-CD向导的运行界面((图1))。千万不要被那些洋文吓住了,我们实际上不用理会它们。点击菜单“File→New”,出现“扫描现有页面(Scan Existing Pages)”面板((图2))。选择“目录(Directory)”,按“浏览(Browse)”按钮找到我们的网站根目录,“子目录层次(Sub-directory level)”选“全部(All)”。点击“下一步”,到达“扫描文件类型(Scan File Types)”面板((图3))。网站嘛,当然要选“HTML files”了,除了默认的*.htm、*.html外,我们可以根据网站实际自行添加*.asp、*.php等网页类型,使它们包含在搜索引擎的扫描范围内。点击“下一步”,进入“保存为(Save as)”面板((图4))。点击“为全部Spy-CD文件创建子目录(Make subdirectory for all Spy-CD files)”按钮,勾选其他两个选择框,将数据库文件和运行搜索引擎必需文件都放置在网站的spycd子目录下,方便管理。点击“下一步”,进入“全文搜索扫描选项”,采用默认设置。直接点击“完成”,程序开始扫描网站,完成后生成扫描报告,点击“OK”,程序将连续报告搜索页面完成、文件拷贝完成。




好了,一个功能强大的全文搜索引擎已经完成了!测试一下,打开网站spycd子目录下的搜索页面search.htm,这可是一个中文;界面的搜索引擎哦。随便输入一个词,加上双引号,点击“搜索”按钮,结果出现为的界面((图5))。可惜标题是乱码,但对功能没有影响,点击超链接,就会到达目标页面,你要找的关键词都被加亮显示。现在可以把搜索页链接到网站主页上了。如果对搜索页面不满意,还可自行修饰。另外,更新网站后,别忘了及时更新搜索引擎数据库,方法是在Spy-CD中打开.his数据库文件,运行“File/Rebuild this search database”重建该数据库文件。

什么,你觉得建立一个全文搜索引擎太简单了?建议你读读Help文档,里面有许多高级技巧。如果你有什么心得或问题,欢迎到写信给zhoudongfei@163.net一起探讨。