搜索引擎界的革命:Google

Author: 赵斌 Date: 2001年 1期

    茫茫网海,获取有用的相关信息犹如大海捞针!网络使用者强烈需要一种优异的搜索服务,将网上繁杂的内容整理成为唾手可得的信息。互联网商业化至今,搜索引擎始终成为网上被使用最多的服务项目,然而,随着网上内容的爆炸式增长和内容形式花样的不断翻新,搜索引擎越来越不能满足挑剔的网民们的各种信息需求。因为缺乏强有力的搜索工具,在网络上找寻某一相关内容的网站,其难度好似在一个没有卡片目录、没有分类标准、藏书方法完全随机的图书馆内寻找某一本书,甚至要更难一些。
      在这种强烈的用户要求下,一个优秀的、高效的网上搜索工具诞生了,这就是由Larry Page和Sergey Brin设计,1998年9月开始测试的Google搜索引擎,今年它已经正式开始商业运营,目前已在全球范围内拥有了一个正在快速增长的忠实用户群,其中一半以上是国际用户。由于Google致力于提供全球最优秀的搜索引擎服务,通过其强大的、迅速和方便的搜索引擎,Google每天为全球上百万的用户提供准确详实、符合他们需要的信息。技术创新已经为Google带来了多项荣誉,如美国《时代》杂志评选的“1999年度十大网络技术”之一、《个人电脑》杂志授予的“最佳技术奖”、The Net授予的“最佳搜索引擎奖”等。
      Google的好处:
      (1)Google采用新一代的先进技术,依据网络自身结构,根据互联网本身的链接结构对相关网站用自动方法进行分类,清理混沌信息,缜密组织资源,使网络井然有序。Google以其独树一帜的网页级别(PageRankTM)技术,打破了传统网络分类概念。该技术是基于网页的自然结构,即任何网页均可迅速直接地链接到另一网页,而无须任何媒介。在某种意义上,这种链接结构自动地推动了互联网的民主化,消除了等级,从而使信息与观念在站点与站点之间畅通无阻。以前的许多网站的搜索引擎功能,其实并不是真正意义上的搜索引擎,而是基于网站目录的搜索或是某一特定网站里有限内容的搜索。这种简单的信息目录,最后甚至蜕变成变相的商业广告。
      (2)Google将多国语言的搜索引擎整合到同一个界面,而不是象Yahoo那样,要搜索不同语言版本的网站,必须先进入相应语言的网站。而且在这个界面下,你可以定制语言以及到何种网站中去搜索,一般情况下,Google可以自动根据用户所使用的浏览器设置相应的语言界面。目前,Google的用户已经可以使用包括简体中文简体、中文繁体、丹麦文、荷兰文、英文、芬兰文、法文、德文、意大利文、日文、韩文、挪威文、葡萄牙文、西班牙文、瑞典文等15个国家和地区的语言文字进行搜索。
      (3)许多人在网络上搜索资料时,一般都没有拟定搜索策略的动机,也不愿意尝试了解复杂系统的使用方式与规则。他们常常只会以单一关键字作查询,不知道如何使用逻辑运算符;甚至有人根本连搜索引擎与分类目录的差别都搞不清楚。因此针对同一项主题,许多人总是做出重复而且无用的查询。如果查询结果与查询项目不匹配,再重要的网页也毫无意义。Google虽然也是必须由用户输入关键字,但是它不仅会去搜索包含关键字的网页,同时还会考虑网页间彼此的连结关系,并把一篇网页被连结数目的多寡视为相关性的一项指标。因此通过Google所查到的搜索结果,通常都会比其它搜索引擎来得更加准确。如果你面对一个全新的主题,而且不知道有哪些代表网站时,可以尝试让Google帮你查查哪些是排在最前面的网络资源。因为相较于由少数人筛选的分类目录,集合众人意见的Google搜索引擎往往会有更高的精准度。
      (4)如果在查询时,用户同时提供了多个关键字,Google将只提供包含所有关键字的网页,其正文或指向它的链接包含用户所输入的所有关键字,而无须再受其他无关结果的烦扰。而且,Google遵从关键字的相对位置,它不仅搜索出包含所有关键字的结果,并且对网页关键字的接近度进行了分析,按照关键字的接近度区分搜索结果的优先次序,筛选与关键字较为接近的结果,这样可为用户节省时间,而无须在无关的结果中徘徊。在显示的结果中,不同于那些老生常谈的网站简介,Google只摘录包含用户查询字串的内容。为了便于查阅,用户的查询字串被醒目的高亮显示,而不必为下载和阅读冗长的网页简介而劳神费力。
      (5)中文网站的搜索在互联网上一直是一个令人头痛的问题,中文搜索引擎的相关性也无法与英文比美。中文与英文最大的不同之处在于中文搜索引擎中没有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配,一些先进的算法,如超链分析等都是出自英文,但所有著名的搜索引擎也大都不支持中文或是对中文的支持极弱。在过去几年中,国内对基于互联网的搜索引擎也作过一些研发的尝试,例如北大的天网,清华的网络指南针等,但检索效率始终不能令人满意,而且中英文混合检索词也是不被支持的。当用户输入“MP3”时,有些网站会认为他在查找英文网页,进而自动将结果送到一个英文搜索引擎上;更多的网页搜索服务不能对“甲A”、“F-1一级方程式”等中英混合查询作出恰当的反应。传统的搜索引擎也不能支持多种编码,如“朱镕基”的“镕”字不在GB2312的字符集中,但是却在GBK编码中可以找到,许多搜索引擎由于不支持GBK,因而无法找到有关“朱镕基”的网页。而这些问题,在Google上搜索都变得迎刃而解了,Google的中文搜索引擎也是目前收集亚洲网站最多的搜索引擎。而且,用户输入的任何中文关键字,Google都尽最大可能地帮你找到,她不仅可以找出简体中文网站,而且还会找出相应的繁体中文网站,甚至日文网站。
      (6)另外,Google还提供了一些全新的功能,比如“手气不错”和“网页快照”功能。有时候,用户所要查询的目的可能是进入一个特定的网站,比如,用户要查询某一个公司的产品,但他可能只知道这个产品的名称,而并不知道网站的地址,这样,他可以输入他所知道的产品名称和尽可能多的关键字来试试“手气不错”,一般Google总会直接带他进入最佳网站。由于数据库的更新需要一定的时间,Google中检索的网页可能已经过时或者不存在了,或者网页服务器暂时中断而找不到服务器了,则Google的“网页快照”中暂存的网页也可解用户的燃眉之急。而且,从贮存网页快照中找寻资料要比常规链接快得多,尽管所获取的信息可能不是最新的,但至少很多情况下可免受兴致勃勃地进入某一网页时“404 Not Found Error”之苦。
      (7)最后,需要说明的是,用户并不需要自己到Google上登记,只要网站在互联网上能够找到,Gogle一登记,网站在互联网上能够找到,Goole总是会忠实地为大家服务,并把这个网站加入到其数据库中。
      当然,Goole也并不是十全十美,其它搜索引擎所遇到的一类关键问题在Google上还是依然存在。比如,由于数据量的庞大,搜索引擎数据更新最快要不天,Google目前也无法突破这个瓶颈;不能查找动态生成的网页,当然目前世界上没有一家搜索引擎支持动态网页,因为大多数负责搜索网页的蜘蛛软件都不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来,虽然Google在这方面有一些突破,但离真正的实用还有很长一段路要走。虽然如此,Google的全新搜索已经满足我们大多数网民的日常查询需求了。当然,大家一定知道,本文所介绍的搜索引擎就在www.google.com。