我自悠游——Goyoyo开发者秦按博士访谈

Author: 林军、王怡舟 Date: 1999年 第13期 25版

    如果不是经悠游西南地区总经理金钦介绍,很难相信眼前这位一身休闲打扮,脸上洋溢着微笑的北方汉子就是悠游公司的副总经理、知名中文搜索引擎Goyoyo(www.goyoyo.com.cn)的开发者——秦桉博士。
    初春的一个下午,重庆花卉园,全民公司一间办公室里,阳光灿烂,我们采访了秦桉博士,与他一起聊起了因特网和他的搜索引擎。
#1    因特网上能不能淘到金?
    因特网被认为是下个世纪最大的淘金场,但是就像当年美国西部一样,再大的淘金场也不可能遍地是黄金,还得取之有道。
    那么,在秦桉博士看来,在因特网成功淘金的方式有哪几种呢?
    秦桉博士的答案是:三种。
    第一种是走门户的路子,比如雅虎、比如AOL。现在美国访问量最高的几个网站都是门户站点。门户站点最大的收入来自广告,理由很简单,既然门户是网友上网第一要去的站点,那么访问率可想而知,广告商也愿意为高访问率的“地皮”付费。
    第二种是走技术的路子,靠给大的厂商做服务赢得大家的尊重。在秦桉博士看来,Inktomi和Openfind就是这样的公司。Inktomi公司是一家专业的搜索引擎技术公司,去年6月上市,第一天原始股价格便上扬一倍。这一幕令人联想起雅虎在1996年4月12日上市的第一天,就收获了该公司的第一个1亿美元的情景。至于Openfind则是被雅虎选中为它的中文搜索引擎而名声大噪。
    秦按博士认为在因特网上赚钱的第三种方式是走电子商务的路子,这方面最典型的例子是亚马逊(Amzaon)网上书店。亚马逊网上书店没有一家店面,也没有一个实际的售货员,但现在的市值已经超过任何一家传统的书店。每当网上用户想买书籍时,人们就会想到Amazon.com。亚马逊网上书店可能要考虑改名,因为它现在不仅仅是卖书,而且卖音乐CD,卖药,想成为网上最大的购物天堂。
    那么,Goyoyo又属于哪一类呢?
    秦博士笑着说,我们哪一类都算,但好像哪一类都算不上。Goyoyo有一个很不错的搜索引擎,也有很丰富的内容,而且Goyoyo已经拥有北京、上海、重庆、香港、台北、旧金山等六个分站,但Goyoyo并没有刻意成为中国网络门户站点。Goyoyo最得意的一件事是去年10月被美国互联网巨擎AOL和NETSCAPE选为唯一的中文搜索引擎,这体现了Goyoyo雄厚的技术实力;另据介绍,微软也有意选用Goyoyo作为其门户站点MSN的中文搜索引擎。Goyoyo同时在与众多行业用户进行电子商务方面的合作,Goyoyo已经与中国物资信息中心合作推出中国经贸网,进一步丰富在商务方面的信息。总的来说,秦博士给Goyoyo下的判断是技术味浓一点。(^132501b^)
#1    Goyoyo之谜
    记得我们网站网管chouyu在开发电脑报网站全文搜索引擎时问过我一个问题,搜索引擎属于哪一门学科?我无以作答。
    在秦博士看来,搜索引擎属于计算机人工智能方向,是计算机语言学的一个重要应用方向。1994年,秦桉来到香港中文大学,攻读计算机语言学的博士学位。计算机语言学是人工智能的一个分支,就是研究如何利用计算机代理人来处理和分析语言的学科,其中一个众所周知的方向是机器翻译。
    不过,秦桉并没有选择机器翻译作为自己的研究方向,而是阴差阳错地在中文搜索引擎开发方面取得了突破。
    语言的最大特性是规则复杂,几乎每条规则都能找到反例。因此要想让计算机代替人进行语言处理,难度是可想而知的。而且中文与英文相比更为复杂,特别是中文的字词对语言环境的依赖性很高,语境不同,相同的一个字(词)的意思可能大相径庭。秦桉博士给我们举了个例子:“打”字。据说在中文中,“打”有28种意思。像“打”字可以解释成敲打(打鼓),买(打酱油),量词(一打),处理(打理),理发(打打头,上海方言)等意思。因此如何根据语言环境来判断一个字(词)的准确含义至关重要,这里就涉及到一个分词的问题。机器翻译的做法是每个词每个词地翻,这样做的难度可想而知,其应用面也很窄。
    在研究中,秦桉当时也用各种英文的搜索引擎查找资料,但使用中发现没有一种搜索引擎适合自己检索中文资料用,为什么不开发一种适合中国人用的中文搜索引擎呢?何况还可以选择把他作为自己课题的突破口。
    要开发中文搜索引擎,首先要做的是建立起一个完备的中文搜索索引库,第二步是开发出一个强大的搜索引擎。建立中文索引库的原因是能为程序自由收集匹配新的主页做基础,也是为了增加命中率。秦桉在香港中文大学的前两年主要是进行中文索引库的建立,然后花一年时间来进行搜索引擎的开发。当时秦桉的想法是让系统开销尽可能地小,否则课题完不成,反而会被学校赶出去。秦博士笑着对我们说:“你们都知道AltaVista吧,它采取的是精确匹配法,你输入任何一个词,都可能搜到一大串词。但这样做对机器要求太高。你知道AltaVista为什么能做到吗?因为AltaVista是DEC的产品,其诞生的初衷是为了表现DEC服务器强大的处理功能。我可不是为了卖机器,我是要既能少占资源,保证速度,又能有很好的效果。”
    在谈到搜索的重要性时,秦博士给我们举了一个例子:“《第三军医大学学报》,你说怎么查这个词?可以从军事这个类别进去查,可以从医学这个类别进去查,也可以从大学这个类别进去查,还可以从学报这个类别进去查。但分类的人不一定能想到这么多。你从你自己认为正确的分类进去,也许无法查到这个词,掉过头来再查,还是没有。这种情况不一定是系统没收这个词,而很可能是你没找对目录,这就要求救于程序了。因此我们也能明白为什么搜索不可少。”(^132501a^)
    也许是因为在北京和香港都呆过的原因,秦博士在开发Goyoyo充分考虑到繁、简体的转换,如果你感兴趣的内容是繁体字写的,即使你的机器里没有安装繁体字的软件,你也可点入浏览,因为系统会自动将繁体字转换为简体字。另外,Goyoyo还提供英文查询中文的网站的功能,对中文不太好的外国朋友很实用。
    “我开发出来这个搜索引擎的目的是让尽可能多的中文用户能在因特网上遨游。”
    秦博士的这句话也许能诠释Goyoyo搜索引擎的成功之道。