英文网络信息检索工具

Author: 刘作奎 Date: 2001年 40期

?牐牨收吒莩て诘墓ぷ骶椋芙岢鲆恍┯⑽耐缧畔⒓焖鞴ぞ撸鲜墩庑┕ぞ撸欣谀阍谧羁斓氖奔淅锘袢∽钣屑壑档拇罅啃畔ⅰ1收哂姓攵孕缘亟庑┬畔⒓焖鞴ぞ叻治掷嘈停歉饔懈鞯挠猛尽G攵琳吲笥讯梁笱≡袷褂谩?
  #1?牐犚弧⒓焖餍屯缧畔⒓焖鞴ぞ?
  ?牐犜谡饫镂颐且蛲缬没?提供一些世界上有名的网络搜索引擎。这些专业搜索引擎要比国内中文网站的搜索引擎起步早,更加完善。起初上网,我主要是利用新浪、搜狐、263等的搜索引擎,但随着对搜索引擎理解的深入,便发现我们自己的搜索引擎还有许多的问题。比如说新浪网,其搜索引擎不够精确,有时也不完全按照用户的设定条件来完成搜索任务,形成了许多资源垃圾,为查阅增添了许多麻烦。国内其它搜索引擎也存在着这样的问题,这说明我们的网上引擎服务正处在发展阶段,还不够完善。
  ?牐犚恍┩夤乃阉饕娣窆究醋剂酥泄缡谐≌庵秩毕荩笆钡卮蛉胫泄氖谐 D壳埃父鲋墓仕阉饕婀径加兄形募焖魉蜒肮δ埽饧蟮胤奖懔宋颐腔袢≈匾柿稀U庑┯忻乃阉饕婀痉裰柿亢谩⒎裢晟啤⒕菲ヅ涓撸蟠筇岣吡宋南滋崛〉男?率。更为重要的是,我们要获得国际上的资源,就更离不开它们了。前些日子,我和一位美国史学专家探讨如何搜索到有用的中外资料时,他毫不犹豫地向我提供了Google搜索引擎。我打开一看,这真是一个方便、快捷而又个人化的搜索引擎。它的搜索功能和结果列表筛选是国内网站无法比拟的。因此,我建议大家在以后进行搜索时,应该使中外的搜索引擎兼顾使用,这样才能达到预想的效果。下面我就向大家介绍一下世界有名的几大搜索引擎公司。
  #2?牐牎馝xcite
  ?牐爃ttp://www.excite.com
  ?牐犛诺悖焊鋈嘶焖魇荅xcite的一个重要特点。Excite组织专家精选Web站点和撰写站点评价,依此建立站点评价目录。Excite就是利用这个目录来提供分类浏览功能,给出各类中的站点指南。Excite在主页中还提供了若干专题检索功能,例如检索Yellow Pages(电话簿)、People Finder(人物)、Map&Direction(地图)、E-mail Look-up(电子邮件)等。
  #2?牐牎馠otBot
  ?牐爃ttp://www.hotbot.com
  ?牐犛诺悖篐otBot提供的专题检索非常丰富,包括对新闻组、黄页、白页、电子邮件地址、域名等的检索。
  #2?牐牎馡nfoseek
  ?牐爃ttp://www.infoseek.com
  ?牐犛诺悖菏凳毙郧浚滤俣瓤欤匾男挛藕拖⒚?15分钟左右就会更新一次。
  #2?牐牎馤ycos
  ?牐爃ttp://www.lycos.com
  ?牐犛诺悖阂运饕菘獗暌耐呈坷纯矗琇ycos只是一个中型搜索引擎。但Lycos并不局限于搜索引擎功能,而是力图建立一个引导用户进入其它站点的门户,甚至进而建立一种为访问者提供所有基本服务的网络枢纽和基地。为此,Lycos在最近几年相继收购了Tripod、WiseWire、HotBot、GuestWorld、WhoWhere、Wired Digital、Angelfire等网络服务站点,形成了一个提供全面网络服务的体系。
  #2?牐牎馧orthern Light
  ?牐爃ttp://www.northernlight.com
  ?牐犛诺悖篘orthern Light有强大的文献获取功能和服务,为我们的各类科研人员的研究提供了极大的方便,只是在我们获取这些有用的资料时,需要我们付给一定的费用。
  #2?牐牎馩penText
  ?牐爃ttp://pinstripe.opentext.com
  ?牐犛诺悖篛penText是一个历史较长、不断变化且具有特色的网络公司。OpenText是一家业务众多的公司,搜索引擎只是它经营的业务之一。最早的OpenText搜索引擎与多数搜索引擎一样,试图广泛采集标引网页来覆盖所有的区域,但现在OpenText只采集与商业相关的网页,为商业用户提供更加专门化、更加深入细致的检索服务及其它信息服务。
  #2?牐牎馱ebcrawler
  ?牐爃ttp://www.webcrawler.com
  ?牐犛诺悖篧ebcrawler号称是第一搜索引擎,也是第一个提供全文检索的搜索引擎。1994年4月它开始提供网上检索服务。1995年3月,它被美国在线收购,成为一个商业化的服务站点。1996年11月,它被Excite公司收购,成为Excite网络的一部分。
  ?牐犉渌虻サ乃阉饕妫?
  #2?牐牎馪lanetSearch
  ?牐爃ttp://www.planetsearch.com
  ?牐燩lanetSearch是一个相对比较简单的搜索引擎,但在结果的显示和处理上有它独到的地方。
  #2?牐牎馦agellan
  ?牐爃ttp://magellan.excite.com
  ?牐燤agellan是Excite网络的一部分。Magellan除了有关键词检索功能外,还提供概念检索,即可以检索与输入检索词词形不同,但意义相同的其它词汇。
  #2?牐牎馟oogle
  ?牐爃ttp://www.google.com
  ?牐燝oogle也是一个相对比较简单的搜索引擎,但结果处理也有独到之处。Google经过几年的发展,现在已经成为登录用户较多、服务比较完备、比较简洁实用的一个搜索引擎,我现在就一直用它。
  #1?牐牰?浏览型网络信息检索工具
  ?牐犖裁匆脘佬屯缂焖鞴ぞ吣兀壳懊娼樯艿募钢滞ü阉骼椿袢⌒畔⑹且恢旨焖髂J剑蔷褂盟阉饕胬捶⑾趾捅暌募⒉杉骼郬eb网页的所有内容,忽视主题内容的选择。这些检索工具没有为庞大的网页集提供预先协调的机构,例如一个分类系统。它们难以提供评判的标准,也不提供关于选择和收集的明白解说。缺少这些都会影响所创建的索引的结构的和检索的优化,而且数据库规模逐渐开始接近整个万维网的大小。因此我建议读者使用多个检索工具增加检索结果的覆盖率。我也建议读者使用不同的检索工具类型,特别是那些解说清晰、获取快捷的工具。以下我将介绍另一种类型的检索工具,它们均依靠人工收集和整理采集到的Web站点和网页。
  #2?牐牎馿BLAST
  ?牐爃ttp://www.ebig.com
  ?牐犛诺悖篹BLAST翻译为不列颠百科全书链接与检索工具,是一个WWW导航服务系统,目前已对众多的站点进行了分类、排序。由于采用人工挑选的方法,eBLAST中站点的权威性和可信度都相当高。
  #2?牐牎馟alaxy
  ?牐爃ttp://www.galaxy.com
  ?牐犛诺悖篏alaxy是由CyberGuard公司提供的全球信息服务指南。1994年1月开始在网上运行,它允许任何人提交因特网站点资源,还允许任何一个人为一个信息资源、产品或服务提供简单的说明信息。用户提交的站点需要经过专业人士分析提炼,因此,一个站点被专业人员访问分析并被放置在Galaxy数据库中需要花费很长时间。
  #2?牐牎馳ahoo!
  ?牐爃ttp://www.yahoo.com
  ?牐犛诺悖阂蛭氏殖鼋厝徊煌募焖鹘涌诤头掷嗨饕绞剑琘ahoo!常常用作与AltaVista一类搜索工具相区别的最佳例子。尽管Yahoo!也提供了一个检索其数据库的输入框,但它最显著的特点在于浏览,以及连接着数据库中每一记录的超文本分类体系。同其它检索工具一样,Yahoo!并不存储实际网页,再将其呈送给用户。而是为每一个网页或站点建立一条记录,该记录包括对该网页或站点的简单描述、标题和用超链接的方式显示实际网页所在服务器的URL。这样用户通过关键词检索实际检索的是Yahoo!的分类目录,并不检索任何实际的Web网页文本。Yahoo!确信分类标题足以弥补这一缺点——因为它可以快速地引导用户找到合适的文件。
  #1?牐犎⒓闲屯缧畔⒓焖鞴ぞ?
  ?牐犓孀湃嗣羌焖饕蟮牟欢咸岣撸酝绲募焖髂芰μ岢隽诵碌囊蟆H嗣窍胍谝桓鐾骋挥没Ы涌冢诙喔黾焖鞴ぞ咧醒≡窈屠煤鲜实模ㄉ踔潦峭崩萌舾筛觯┘焖鞴ぞ呃唇型缧畔⒉檠虼怂峭芄换竦媒细叩牟槿剩诠惴翰檠本哂薪洗蟮挠攀啤U庋募焖鞴ぞ摺闲屯缧畔⒓焖鞴ぞ咭簿陀υ硕恕?
  ?牐犛没?向集合型检索工具发出检索请求,它将该请求整理为相应的检索指令发往多个单独型检索工具。它们各自执行检索指令后将检索结果传送给集合型检索工具,集合型检索工具再将检索结果经过整理后传送给用户。在这个过程中,各单独型检索工具保持其原来的局部资料模式和自己的检索指令。
  ?牐牸闲图焖鞴ぞ叱丝捎檬止ぱ≡袼阉饕嫱猓衫靡欢ǖ奶跫远≡癯稍奔焖鞴ぞ摺#?1)“选择最好”模式:集合型检索工具可以采取以下方式选择“最好”的检索工具,例如它可跟踪一定时期各类检索式对成员检索工具的命中记录数量统计分布,根据该分布来确定相对一个主题的“最好”检索工具。或者,集合型检索工具可对成员检索工具的索引数据库进行某种方式的分类统计,建立类目与资源数量的对应关系,并据此确立“最好”检索工具。(2)“选择最快”模式:集合型检索工具系统可能采取下列两种方式来选择“最快”的检索工具:①随机产生方式:集合型检索工具以并行方式将检索指令传送给若干检索工具,选择返回速度最快的三个检索工具的结果组织成全部的结果。②先验式:检索工具开发者在大量测试资料的基础上,制定相应的控制目录,明确标明某一类信息与某些检索工具检索速度的对照关系。用户提交检索式后,集合型检索工具首先确认它隶属的类别范畴,然后对照控制目录选择最快的前几个检索工具。下面介绍几个主要的这类检索工具。
  #2?牐牎馜ogpile
  ?牐爃ttp://www.dogpile.com
  ?牐犛诺悖篋ogpile共收集了26个搜索引擎,分别组织到若干并行检索类别中,各类别及其所包含的检索工具如下:
  ?牐牏賅eb检索:Yahoo!、Thunderstone、Lycos A2Z、Goto、Mining Co.、Excite Guide、PlanetSearch、What U Seek、Magellan、Lycos、Webcrawler、InfoSeek、Excite、AltaVista。②新闻组检索(Usenet):Reference、Dejanews、AltaVista、Dejanews’old Database。③FTP检索:FTP Search。④新闻检索。⑤股市检索。⑥黄页检索。⑦白页检索。⑧地图检索。⑨天气检索。
  #2?牐牎馦etacrawler
  ?牐爃ttp://www.go2net.com/search.html
  ?牐犛诺悖篗etacrawler能对Lycos、InfoSeek、Webcrawler、Excite、AltaVista、Thunderstone、Mining Co.、Looksmart、Yahoo!八个检索工具进行并行检索,并能分门别类地对许多专门检索工具进行并行检索。它在接受到检索要求后,将该检索要求转换为每个成员搜索引擎的专门指令形式,并分发给各个搜索引擎,然后监视和接收它们的检索结果。当所有结果都收到或超过规定的时间,它就将所有的结果收集起来,去掉重复,按相关性排序后显示给用户。
  #2?牐牎馪rofusion
  ?牐爃ttp://www.profusion.com
  ?牐犛诺悖焊盟阉饕婀δ芮看螅憧梢酝ü≡窨蚶唇缍?检索要求。检索方式(Search mode)选择框包括“简单”(simple)、“所有词汇”(All(AND))、“任意词”(Any(OR))、“布尔检索”(Boolean)和“短语”(Phrase);检索对象(Search in)包括Web和Usenet;结果方式(Summary option)选择框则规定结果包含摘要(With Summary)或不包含摘要(Without Summary)。在检索时,你可选择欲使用的搜索引擎。Profusion提供四种选择:选所有(All)、选最好的三个(Best 3)、选最快的三个(Fastest 3)、自己选择(Manually)。当你选择“最好的三个”或“最快的三个”时,Profusion将分析你输入的检索内容,然后决定哪三个搜索引擎最适合你。
  #2?牐牎馭avvySearch
  ?牐爃ttp://www.savvysearch.com/search
  ?牐犛诺悖篠avvySearch按检索对象分为三大类别,即检索类(Search),对网络资源进行普遍的检索;专题类(Specialty),对各个专题的网络资源分别进行检索;商店类(Shop),对不同商品的网络信息分别进行检索。
  ?牐牎凹焖骼唷笔荢avvySearch的基本功能,其中又按资源类型分为指南和目录(guides/directories)、新闻(news)、搜索引擎(search engines)、自由软件图书馆(shareware libraries)、新闻组(Usenet)。
  ?牐犜诩焖鞑煌嘈偷淖试词保琒avvySearch利用了不同的检索工具,例如:
  ?牐犓阉饕胬啵篖ycos、Excite、HotBot、Webcrawler、Google、Galaxy、AltaVista、Thunderstone、NationalDirectory、InfoSeek、Direct Hit!。
  ?牐犞改虾湍柯祭啵篩ahoo!、Top5%、SurfPoint、Snap、Magellan、Goto、eBlast、Mining Co.、Looksmart、Clearinghouse、PlanetSearch、Open Director、RealNames。
  ?牐犘挛爬啵篒nfoseek News、News.com、Newsbot、NewsTracker、Yahoo!News。
  ?牐犘挛抛槔啵篈ltaVistaNews、DejaNews、Reference.com。