搜索引擎的来龙去脉

网络与通信

近几天,搜索引擎受到大家的普遍关注,但对搜索引擎的理解,大家更多的是从自己经常的使用来理解。其实,搜索引擎内部才是关键的所在!

真正意义上的搜索引擎

搜索是互联网上最重要的网络应用之一。搜索引擎能够在浩如烟海的互联网信息中找到用户所需的信息,因而深受网友的喜爱。随着中文网站和网页数目的飞速增长,网友对优秀中文搜索引擎的需求更加迫切。
“搜索引擎”的原义是指基于自动索引的全文搜索引擎,跟人工编辑的网站分类目录区别明显。但国内用户常把这两者混为一谈。
人工编辑网站分类目录的代表,有雅虎、搜狐、新浪、网易。由编辑人员对自己发现或者用户提交的新网站进行浏览,然后按照其内容进行分类并给予简单描述。当用户输入关键词查询时,分类目录只对数据库中保存的这20万~40万网站名、URL和简介进行搜索,找出含有输入关键词的网站名称、URL或简介。
显然,这种搜索系统在网站总数不是很多的时候可以满足用户需要,但当网络进入快速发展期,新网站层出不穷,信息量开始爆炸性增长的时候,采用人工编辑的网站目录搜索系统就无法让用户满意了。
真正意义上的搜索引擎通常指的是收集了因特网上几千万到几亿个网页并对网页中的每一个词进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被提交出来。在经过复杂的计算进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎是怎样工作的?

全文搜索引擎的数据库,是由程序以全自动方式建立的。全文搜索引擎的原理,可以分为4步:收集、索引、搜索、排序。
1.收集──利用能够从互联网上自动收集网页的蜘蛛(spider)程序自动访问互联网,并沿着网页中的URL爬到任何网页,并收集爬过的所有网页。
2.索引──由分析系统对收集回来的网页进行分析,提取相关网页信息(包括页面内容包含的关键词、编码类型、大小、被其他网页链接次数等),然后由索引系统对分析好的网页的抽象数据建立索引数据库,并通过检索数据库保存与用户检索相关的数据信息。
3.搜索──当用户输入关键词提交一次搜索请求后,由搜索系统从检索数据库中搜索出所有符合含有该关键词的网页。
4.排序──对搜索到的大量网页结果,根据一定的相关度算法计算,然后按照与查询关键词的相关性进行排序,相关性越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
全文搜索引擎一般要定期(几周到几月)重新访问所有网页,更新数据库,以反映出网页内容的更新情况,去除死链接。网页的具体内容和变化情况将会反映到用户查询的结果中。
整个搜索引擎系统的开发涉及到信息检索、人工智能、数据挖掘、自然语言处理等方方面面的理论和技术,以至于很多技术人员都认为搜索引擎开发是网络编程的制高点。正因为独立技术开发难度大,所以,几个门户网站的全文搜索引擎,其实也都是由专业的搜索引擎公司提供技术支持的。
搜索引擎技术首先于1994年在美国出现,并从1995年开始进入大规模的商业化开发阶段,到1999年以后,英文搜索技术走向一个较为成熟的阶段。但在中文搜索方面,由于中西方语言文化的差异以及对中文搜索市场的重视程度很低,它们所推出的中文搜索引擎始终未能像英文搜索那样让人满意。中国用户需要的是快速、准确、全面、稳定并符合自己使用习惯的中文搜索引擎。

中文全文搜索引擎

中文搜索引擎是我们不可缺少的网络工具。目前,中国国内主要有四个全文搜索引擎。

1.百度搜索引擎 http://www.baidu.com

百度搜索引擎推出于2001年底,是目前最好的中文搜索引擎之一。它收录了超过1亿个中文网页,并提供网页快照、网页预览等功能。除了网页搜索外,百度还提供新闻搜索、Flash搜索、信息快递(分类信息)搜索。
百度搜索引擎解决了过去的某些搜索引擎不适合中文使用习惯、信息相关性不如英文搜索引擎,中文内容偏少的问题。支持GBK、GB2312、BIG5等各种主流中文编码,支持自动识别和自动转换全角和半角字符等英文系统中没有的东西,符合中国人使用习惯。

2.中文雅虎 http://cn.yahoo.com

雅虎在全球共有24个网站,12种语言版本,其中中文雅虎于1999年9月正式开通,它是雅虎在全球的第20个网站。中文雅虎为用户提供了强大的搜索功能,通过其14类简单易用、手工分类的简体中文网站目录及强大的搜索引擎,用户可以轻松搜索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面的信息。

3.搜狐分类搜索 http://dir.sohu.com

搜狐分类搜索采用完善的中文分词技术,具有良好的模糊检索、高级“自学习”和拟人思维及联想功能;40多万个网站、5万多个不同的主题类目,层层相连的树型结构网页,每日新增网站信息达1000条;可以按行业的类目查询和按主题的关键词查询,是中文用户首选的网上查询工具。

4.天网搜索引擎http://e.pku.edu.cn

天网是北大计算机系实验室的产品,非常适合搜索教育网内的资料。天网还提供FTP搜索,有比较丰富的多媒体文件可以搜索下载。