维基搜索 人与机器的智慧较量?
特别策划
如果说维基百科(Wikipedia)是一场知识库建设的革命,那么由其创始人吉米·威尔斯在1 月7 日宣布上线的维基搜索(Wikiasari)将是一场搜索引擎的革命。和维基百科一样,维基搜索将通过把人类智慧引入搜索领域,发挥群众力量来为搜索技术带来重大革新。
传统搜索存在固有技术缺陷
以谷歌和百度等为代表的传统搜索引擎已经逐渐遇到了发展过程中难以逾越的瓶颈,因为它们的搜索底层的算法有着天然的缺陷。
传统搜索引擎的基础技术,无论是谷歌的“PageRank”,还是百度的“锚链”,其根本思想就是:通过在网络上抓取大量的网页进行快照分析,得出某些关键字链接到某些网页的概率。这种概率,反映了人们对某个关键字指向某些网页的兴趣的高低,从而决定了这些网页在搜索结果中的排序位置。举例来说,如果有大量的含有“电脑报”字样的链接是指向网页“www.cpcw.com”的,那么在人们搜索“电脑报”这个关键词的时候,“www.cpcw.com”这个搜索结果的排名就会非常靠前。
这种思想基本上是正确的,这也是为什么传统搜索引擎会一时间大获成功。谷歌的Page Rank 数据表每更新一次,就要分析约80 亿张网页及其相互关系。如此海量的信息分析的需求,也带来了很多分析算法的实现与优化技术的革新。但是,由于这种思想有一个重要的假设前提,就是人们会在完全理想的情况下进行页面的制作,这与事实大相径庭。
为了追求搜索结果排名靠前,人们想出了种种方法来欺瞒搜索引擎,比如人为制作大量的内含特定关键字导向某个所谓的“优化目标网页”,以使它的排名异常地提前。
一个著名的案例就是几年前,在谷歌上搜索 miserable failure(惨败)时,排名第一的网页居然成为美国总统乔治·布什的白宫页面,这显然是一伙美国恶搞青年所为。
虽然后来谷歌纠正了这个特定的错误,但是此次恶搞的成功实施却提醒了人们有关传统搜索引擎的固有缺陷,从而很多“搜索引擎优化公司”纷纷诞生,它们的专业就是把关键字的概率尽可能调整到期望提前排名的网页上去。这样,我们现在在传统搜索引擎上搜索关键字的时候,尤其是一些商品的名字时,就很难说会得到一个比较客观公正的“民意结果”。大多数的时候,这个结果已经是被“优化”过的“商业结果”了,这无疑会大大降低搜索结果的质量。
维基搜索:发动社区人的力量
除了上面说的传统搜索引擎的固有缺陷以外,传统搜索引擎还有着不能识别搜索关键词的语义、对于像中文和日文这样的连续文字缺乏精准的分词技术等。总而言之,有两大问题:一个是机器就是机器,机器对于人类的语言的理解毕竟有限;另一个是搜索结果究竟是怎么来的,搜索的人不知道,即使这个搜索的思路完全错了,人们也不能主动地纠正它。

维基搜索恰恰是为解决这两大问题而设计的,它的每次搜索都是一次搜索质量提升的机会。首先,它为每条搜索结果都评定一个分数,点击这个分数,它就使用一种称为“nutch”的技术(一种评价搜索结果的技术)来详细地告诉你这个分数是怎么来的。目前,这个算法对于开发者而言,理解起来难度不算太高。而一个最重要的改变是,开发者第一次能够窥视到搜索引擎的内部机制,并通过开放式的编程接口来优化这个算法。这对于集结开发者的智慧到搜索引擎,是至关重要的。
一个更加关键的变化是针对普通用户进行的,任何人都可以对搜索结果进行“评头论足”。对于每个关键字,人们都能够建立一个“迷你页”,这个页面是专门用来讨论这个关键字的信息的。
可以说这是继承了维基传统最核心的部分:比如对关键字“Bill Gates”,它的“迷你页”里就有可能建立起一个有关比尔·盖茨生平和最新活动的完整的、持续更新的词条。而这个词条由于任何人都可以编辑,它将是一个相对客观的内容,而且会对搜索结果产生很重大的影响。难怪吉米·威尔斯会说:“任何个别的团体、组织和个体都不可避免地带有强烈的倾向性,而唯有公众是公平的,我们现在要把这种公平引入到搜索引擎中去。”
维基百科的公正性维持主要是靠自觉,它在搜索引擎的“迷你页”编辑器上苦口婆心地劝说道:“万勿制造垃圾,否则你写下的网站将被长期列入黑名单,那会让你伤心良久。我们不愿意看到你伤心,所以,请勿制造垃圾。”
随着时间的演化,去伪存真的工作就会被社区做到一个相当彻底的程度,那个时候搜索结果的优化也就完成了。这个工作当中,机器参与的工作变成了被动的,而人才是真正对关键字的搜索结果直接控制的力量。显然,人对语言的理解能力要大大强于机器,所以,维基搜索引擎可以说是被人类智慧武装起来的。随着时间的推移,它会变得越来越“聪明”。
起步维艰,前途光明
尽管维基搜索有着革新的思想,但在起步的阶段它会遇到很大的困难。一个最重要的问题就是人力和计算机相比,计算的速度非常低,这会直接造成起步阶段的质量几乎为零的难题。而一个什么都搜不到的搜索引擎,普通用户是否有耐心持续关注呢?
再者,即使社区的力量被充分地调动起来,它能够处理的网页与谷歌等传统搜索引擎拥有的大型计算机集群相比,也仍然存在数量级的差距。据悉, 维基搜索的索引最初将仅包含5000 万到1 亿个网页,这和谷歌拥有可供分析的网页索引数是无法相提并论的。 吉米·威尔斯自己也坦言,短期内打败谷歌不是他的目标。
但是,维基百科的成功还是给了人们不小的信心。即使初始网页的数量上并不多,可是它的搜索质量如果足够好,对于搜索质量有要求的人还是会把维基搜索作为自己的选择之一。最重要的是,这种创新的模式可能会给人们带来高度个性化的搜索结果,这是传统搜索引擎难以做到的。
并且,维基搜索不仅仅是网页的搜索,还包括一个照片和人物搜索,如果参与的社区人数达到一定数量,它就有可能以 Facebook 的模式成功。也就是说,和在互联网上盲目地搜索照片和人物相比,显然维基搜索中的人物更加真实和具体,这完全有可能成为一大搜索的特色,从而在这方面超越传统搜索引擎。
当然,维基搜索如果过了一段时间,拥有了足够强大的社区参与的搜索结果优化的优势之后,它在一定人群中受欢迎的程度超过谷歌也并非没有可能。总而言之,维基搜索是否能够打败谷歌,这并不重要,但是它一定会有自己的特色,并有着自己的光明前途。
延伸阅读:搜索相关技术发展
1945年(核心技术:数字化 超文本)
范尼弗·布什在《大西洋月刊》上发表了第一篇有关超文本的文章,呼吁科学家“联合起来建立一个人类智慧的集合体”,其主要的动机是当时在浩如烟海的文献中找到合乎需要的部分费时太多。
1956年(核心技术:索引 文本分析)
杰拉德·萨尔顿带领哈佛和康奈尔大学的联合小组开发了第一个信息检索系统。他发表了《索引技术》一书,被视为现代索引技术的开山之作。
1963年(核心技术:标记语言 属性)
泰德·尼尔森首次尝试实现了超文本技术,并建立了文本属性的实验性项目“Xanadu”,他在《文本机器》一书中阐述了大量有关属性标记化对搜索的影响的具体技术。
1993年(核心技术:模式匹配 网页机器人 专用引擎)
大量初级形态的搜索服务出现,模式匹配技术日臻成熟,海量网页抓取技术(简称“网页机器人”)出现。Excite等搜索引擎问世,还有很多专门用于文献检索的搜索引擎如Librarians’ Internet Index大为流行。
1998年(核心技术:相关度分析 概率搜索 海量索引 分类目录)
Google成立,相关度分析技术出现,它代表着传统搜索引擎技术的快速发展时期的到来。一批有自己核心技术的搜索引擎都是在这个时期成立的,如百度、Infoseek、AltaVista等。
2007年(核心技术:人工优化 社区化)
维基搜索成立,社区力量介入搜索技术,为搜索技术的发展带来真正的人类智慧和新的活力。