中文搜索引擎ABC

Author: 曾庆祝 Date: 2000年 第17期

#1  一、搜索引擎的主要工作过程
  1.派出“网页搜索程序”在网上搜索所有信息,并将它们带回搜索引擎——用绰号为“蜘蛛(spider)”或“机器人(robots)”的专用网页搜索软件搜索网络中公开的每一个站点并记录其网址,从而创建出一个详尽的网络目录。
  各搜索引擎工作的最初步骤大致都是如此。
  2.将信息进行分类整理,建立搜索引擎数据库:在进行信息分类整理的阶段,不同的系统会在搜索结果的数量和质量上产生明显的不同——有的系统是用“网页搜索软件”搜索每一个站点,记录下该站点每一页的所有文本内容;有的系统则首先分析数据库中的地址,先判别哪些站点最受欢迎,然后再用软件记录这些站点的信息。记录的信息包括从HTML标题到整个站点所有文本内容以及经过算法处理后的摘要。当然,最重要的是数据库的内容必须经常更新、重建,以保持同步。
  3.通过Web服务器端软件,为用户提供浏览器界面下的信息查询——每个搜索引擎都提供了一个良好的界面,并具有帮助功能。用户只要把要查找的关键字或短语输入查询栏中,并按“Search”按钮,搜索引擎就会根据用户输入的提问,在索引中查找相应的词语,进行必要的逻辑运算后给出查询的结果。用户只需通过搜索引擎提供的链接,马上就可以访问到相关信息。有些搜索引擎还将搜索的范围进行了分类,用户可以在指定的类别中进行查找,这样可以提高查询效率,节省搜寻时间。
#1  二、搜索引擎的目录分类
  如果你想知道在互联网上有哪些关于音乐的站点,那么搜索引擎的分类目录是不可或缺的工具。一份好的分类目录,就像一个指南针一样,可以让我们方便地找到自己需要的目标;差的分类目录,则常常使我们往来奔波,而所获甚微。一个搜索引擎的分类标准主要有以下几个方面:
  1.分类方式
  多数分类目录都是依据各网站的内容属性来分类的,如人文科学、自然科学、教育、新闻媒体、娱乐等等;也有的目录按照地区等其他原则分类;还有的网站提供多种分类方式供用户选择。
  而依据网站内容分类的目录,还有一个分类法的问题,不同的分类法设置的类目各不相同。有的分类目录,使用的是中华人民共和国颁布的《标准化工作导则》中的《信息分类编码的基本原则和方法》分类,这是一个正规、官方的分类法,比较严肃;有的依据国际通行的黄页分类法,偏重于商业体系;有的则比较轻松,更贴近于日常生活,精彩纷呈,各有千秋。
  2.多级类目
  优秀的分类目录服务网站,在目录的大类下边,还设有二级类目,三级类目,甚至四级、五级等。类目层次越多,则限制越明确,越便于查询到具体明确的主题。较差的网站,则仅有一级二级类目。
  3.交叉显示
  在目录中的一些子类目,以及一些站点,有时可以属于不同的类别。比如:“计算机零售”作为一个子类目,既应该出现在“商业公司”的大类下,又应该出现在“计算机”大类下;某一网上娱乐杂志,既应该出现于“文化娱乐”类下,又应该出现于“报刊杂志”类下。这种双重、多重显示,我们称之为交叉显示。许多分类目录网站,不提供交叉显示的功能。
  4.内容提要
  分类目录在列出站名之后,应该有简明扼要的该站内容提要,以便读者一目了然。一般搜索引擎的网站提要,都是各网站注册时自己提供的。好的搜索引擎,对要来注册的提要逐一检查核实,增删修改,这往往需要很大的工作量;有些搜索引擎为减轻工作量而使用自动注册,或不进行核实,这样的内容提要就会不准确或言过其实。理想的内容提要应该由搜索引擎网站编写并提供较权威的评价。可这样的搜索引擎实在是很少。
#1  三、常用中文搜索引擎
  1.雅虎中国——http://cn.yahoo.com/
  它是为全球中文读者最新开发的网站,收录了Internet上数以万计的中文网站,不论你要找的网站用的是国标码简体字、大五码繁体字还是图形中文,只要是中文网站,在这里基本上都可以找到。除了主题式分类目录外,还提供了网页搜索。只要清楚所要寻找的网站的主题,就可在检索栏位内键入你想要找的关键字串,并按“Search”键开始查找,或者按照Yahoo!的分类目录一级一级向下查找。
  2.搜狐——http://www.sohoo.com.cn
  它提供分类目录网站检索,搜集范围以中国为主,收录较丰富,还加入了部分英文网站,分类较科学,类目细密;但网站提要或简或无。提供新闻等其他服务。
  3.北京新浪——http://www.sina.com.cn
  它提供分类目录、网站检索以及全文检索,搜集范围遍及全球中文网站,收录非常丰富;分类规范,层次合理;全文检索为AltaVista、IPO提供支持;但复杂条件查询较弱;可提供热门关键词查询等新方式。
  4.网易——http://www.yeah.net
  它提供分类目录、网站检索及FTP检索,范围为中国为主,收录较丰富,目录较严密;提供新闻等其他服务,网易主站另有“网站导航”栏目,分类列举推荐网站。
  5.“我是野虎”——http://www.5415.com
  “我是野虎”(5415)的目标在于协助中国以及新加坡和美国的中文网友,以简体、繁体中文直接搜寻中文信息和内容。提供有“检索主目录”、“中文浏览指南”、“网址登录”等服务。它的搜索方式有:简单关键字搜索、分类搜索和区域性搜索,其中区域性搜索可以限定所要搜索的网站/网页所在的国家和地区,以进一步提高检索效率。
  6.飞华——http://search.gznet.com
  它提供分类目录,网站检索及全文检索,范围以中国为主,分类合理,但层次少。检索时先查网站,找到则列出站址,并提供全文检索选项。找不到则转向全文检索。
  7.天网——http://pccms.pku.edu.cn:8000/gbindex.htm
  它是北京大学计算机系开发的,提供全文检索新闻组以及FTP检索,搜索范围以中国为主,目前已收录100余万网页和12万新闻组文章,更新较快,功能规范,反馈内容完整——包括网页标题、日期、长度和代码;支持电子邮件查询,对于能分出词的查询串的查准率较高;使用Robots软件自动发现和收集WWW信息,分析、建立索引和查询时使用了中文分词技术。
  8.常青藤——http://www.tonghua.com.cn
  它提供分类目录以及网站检索,搜索范围以中国为主,提供的资料丰富;分类科学,类目设置较好,网站提要完整翔实。
  9.263搜索——http://www.search.263.net
  它属首都在线所有,提供分类目录和网站检索,资料较丰富,复杂条件查询功能强——可限制时间、语言(简、繁)、查询网站或提要等,并可直达所查到的网站;另提供新闻及检索等服务。
  10.悠游北京——http://www.goyoyo.com.cn
  它提供分类目录、网站检索以及全文检索搜索,范围为全球中文网站,搜索引擎与悠游北美相近,分类目录不同;另提供个人书签、新闻搜索等服务。
  11.搜索客——http://www.cseek.com
  它是ChinaByte所有,提供分类目录和全文检索功能,范围为全球,收录近60万网页,夹有英文网页;可选按页面或站点排序反馈。它是利用Spider软件快速、准确地自动抓取新增站点,并及时更新已抓取过的站点,因此,保证了检索技术的稳定性和检索信息的广泛性。
  12.好多——http:/www.sinotop.com
  它提供分类目录、网站检索以及全文检索,范围以中国为主,收录网站3万个(含部分英文站)、网页10万页;分类细致,网页反馈信息完整规范。提供新闻搜索等服务。
  13.中国导航——http://www.chinavigator.com.cn
  它提供分类目录,以中国为主、收录较丰富;分类细密,提要完整;设“中华名站”专栏,介绍各类优秀网站。
  14.若比邻——http://www.robot.com.cn
  它提供分类目录和网站检索,范围以中国为主,分类适当,提要较杂。由三大导航系统组成:中国上网单位导航、站点导航、网页导航。中国上网单位是用来专为Internet用户查询某类单位企业是否在Internet上及上网单位的相应信息。用户键入要查询单位的关键词,它返回满足查询要求的一系列单位的域名及具体信息,如单位地址、单位网页等等。
  15.壹网——http://www.yes100.com
  它又名Yes100,提供分类目录,以中国为主,提供了数量不太大但较为实用的网站目录,有简单的提要。另提供广州地方信息。
  16.1608搜网——http://www.1608.com
  它提供分类目录和网站检索,以中国为主,提要全面,包括注册日期、点击次数。
  17.hi 2000——http://www.hi2000.com.cn
  它提供分类目录和网站检索,以中国为主,全称hi 2000世纪搜索,分类合理,但多数网站无提要;提供贸易等方面服务。
#1  四、搜索引擎使用技巧
  要完成一个有效搜索,首先应当确定要搜索的是什么。一旦确定了搜索的需求,使用哪一个搜索服务完全依赖于这种需求。当你在某个搜索引擎中查询一个关键词,而返回了几千个网址或网页时,那是非常糟的事情;另外,有时输入一个关键词,却没有返回我们需要的全部内容——因为一个关键词往往无法描述我们的全部需求。不同的搜索引擎,提供的复杂条件查询的功能和实现的方法各有不同,网站中一般都有“帮助”和“说明”解释各自的功能和方法。以下介绍一些常见的使用技巧:
  1.模糊查询和精确查询
  模糊查询又称为智能查询。当我们输入一个关键词时,搜索引擎不但反馈包括了关键词的网址,同时也发来与关键词意义相近的内容。比如,我们查找“查询”一词时,模糊查询会反馈来包含了“查询”、“查找”、“查一查”、“搜索”等内容的网址。所反馈的网址的排列,一般是完全符合关键词在最前边,其次是相近的。一般的搜索引擎都有这一功能,只是模糊的程序不同。模糊查询没有特殊的方法,在文字框中输入关键词即可。
  模糊查询往往反馈来大量不需要的信息,如果想精确地只查某一个关键词,则可以使用精确查询功能。精确查询一般是在文字框中输入关键词时,加一对双引号。
  2.用逻辑条件限制
  这一功能允许我们一次输入多个关键词,而且,各关键词之间的关系可以是“和”、“或”、“非”(and、or、not)。各搜索引擎实现这种查询的方式不尽相同,可以通过各引擎的帮助页找到各自不同的方法。
  3.限制查询范围
  范围限制的能力越强,则越能准确地找到需要的信息。搜索引擎提供的范围限制类型大体有分类范围、地域范围、时间范围、网站类型范围以及其他特殊范围。一些搜索引擎,提供了许多特殊范围的限定,如域名后缀(com、gov、org等)、文件类型(文本、图形、声音等)。这些范围限制、实现的方法各不相同:有些是通过在关键词前加特殊的字符,有些是通过下拉式菜单。
  当然,不是每一个搜索引擎都同时具备这些功能,有的具备这些,有的具备那些。
  4.明确查询目的。
  不同目的的查询应使用不同的查询策略,这主要取决于你是想得到一个问题的多方面信息还是简单的答案。
  搜索引擎的统计表明,很多用户只输入一个词来进行查询,这会带来很多不需要的匹配。要进行有效的搜索,最好输入感兴趣的主题的尽可能多而且精确的词或词组,提供的词组越精确,检索结果就越好。
  5.尽可能缩小搜索范围。
  许多搜索网点允许只在Web中搜索,或只在新闻组中搜索,或只在某个特定地理区域搜索。
  6.掌握常用搜索引擎的特性。
  不同的搜索引擎有其各自的特点,因此,在使用搜索引擎时,充分利用他们各自的优点,可以得到最佳及最快捷的查询结果。
  7.少用空格。
  在输入汉字作关键词的时候,不要在汉字后追加不必要的空格,因为空格将被认作特殊操作符,其作用与AND一样。比如,你输入了这样的关键词“电脑”,那么它不会被当作一个完整词“电脑”去查询,由于中间有空格,会被认为是需要查出所有同时包含“电”“脑”两个字的文档,这个范围就要比“电脑”作关键词的查询结果大多了,更重要的是它偏离了本来的含义。