挺进图像搜索时代
特别策划
在信息爆炸的今天,“谁”能将那些杂乱的信息梳理成大众可以查询的数据,那么“他”就能成为这个时代的王者!
Google显然是第一个坐上王者宝座的,在文字关键词搜索领域,它几乎无人能敌,拥有绝对的权威与霸主地位。如今,我们正以惊人的速度在网络中传输着各种图片信息、视频信息,在令人眼花缭乱的图片中,又有谁能帮我们搜寻到最精准的答案,成为搜图时代的新霸主呢?
图像搜索 Flicker的新尝试
伴随着Web2.0的崛起,伴随着图库网站和YouTube视频网站的“野蛮成长”,能够将这些文字搜索引擎无能为力的信息梳理好,将会创造出无比巨大的财富与价值,而图像搜索技术显然是这场搜索变革中的关键因素。
在传统搜索引擎中,搜索引擎通过与图片相关的网页检索出关键字,然后通过这些关键字辨别图片是否与查询信息相符。但是,关键字是随机提取的,虽然通过优化算法已经大大减少了无关图像的出现几率,但它仍然不能够满足人们的需求,因为需求有时是模糊的,假如我需要一个以红色为基调的装饰图片,该怎么找寻?在Google中输入红色,你将很难寻找到满意的结果——但Retrievr能够帮助你解决这个难题!
Retrievr图像搜索引擎的缔造者Flickr是Web2.0时代最优秀的网络图库网站,如今已经成为行业的标杆。庞大的用户群为Flickr积累了庞大的原创图片资源,这些独有的一手资源也成了Retrievr搜索引擎最好的资源库和试验场。
Retrievr搜索引擎区别于传统图片搜索引擎之处就在于其新颖的图片搜索方式。用户登录Retrievr网站后,不需要输入任何名称来寻找你需要的图片,只需要在网站左边提供的一张“白板”上画出你想要的图片图形,Retrievr即可根据画出的图形形状和颜色在Flickr庞大的图库中寻找到与你希望看到的形状、色调甚至于感觉类似的图片——这多么神奇啊!
不过先不要惊讶,除了这种搜索方式外,Retrievr还提供了一个新颖的图片对比搜索功能。想寻找刘亦菲的大幅图片?你只需要有一张她的小图,然后通过Retrievr图片对比搜索页面提交到网站中,那么Retrievr就会很快将与这张照片相似的所有照片列举出来,或许其中就有你一直希望得到的那张清晰的照片。
这个功能最为神奇的地方在于,你如果将刘亦菲的面部照片上传到Retrievr引擎中,那么它会在短时间内帮你找到一大堆有关她的照片。虽然不是百分之百的精准,但是这个魔法般的功能已经足够让那些钟爱搜集图片的用户为之疯狂了。
正是通过率先开发出这个图形搜索引擎,在小小的图片王国中Flickr成了Google王朝潜在的竞争对手,也成为了图像搜索领域中一支不可忽视的力量。

纷纷挺进图像搜索市场
Retrievr图像搜索引擎的推出,掀起了一场搜图时代的明争暗斗,从传统搜索引擎霸主Google到资金雄厚的微软王朝,甚至一些名不见经传的小网站也纷纷加入了这场争斗。不同的公司着力于不同的技术与思路,开发出了各不相同的图像搜索方式。
微软的Live.com没有将精力放在与Retrievr引擎短兵相接的图像对比技术中,在现阶段。它巧妙地回避了已经处于弱势的技术,转而采取了更加巧妙和简单的图形算法分类检索给用户提供多样的选择。在新的Live图片搜索引擎中,微软增加了三个新的图片搜索方式,用户可以通过简单的命令,将人物图片的面部、肖像信息作为搜索范围,还可以通过图像是否为黑白图像作为检索的条件,对于要求相对简单的用户,这已经能够满足他们绝大多数的需求,并提高了查询图片的精准率。
看好这种相似图片搜索功能的并不只有财大气粗的微软,一家名为Picitup的网站在近期也开始对自己的图片搜索引擎进行公测。与微软类似,Picitup的引擎也是先通过关键字进行分类检索,然后用户可以通过选择面部、产品、颜色等细分选项将检索到的结果按照自己的要求分门别类,以此提高搜索结果的精准度。此外,通过第一次检索到的图片结果,用户还可以任意点击结果中的图片,让Picitup为你再一次列出与该图片近似的图像。这显然比Live的检索功能又强大了许多。
时代给每个企业腾飞的机会都是有限的,以技术起家的Google显然比任何人都要更深刻地理解技术的推动力。面对搜图时代的来临,Google并没有沉默,但是它也并没有像Retrievr在2006年就开始了第一次面向大众的测试。在今年的国际万维网大会上,Google终于揭开了神秘的面纱,向公众展示了自己下一代的图片搜索系统,新引擎中融合了图像识别软件方法和将相似图像排位的技术,所采用的技术方向与Retrievr有很多相似之处。
这个被命名为VisualRank的算法据说可以更精确地找到图片搜索结果,而且能够分类相似的图片,避免显示重复结果。新技术将识别图片中的主体作为最主要的搜索因素,比如当用户搜索iPod时,Google将检索出图片库中最类似于iPod档案照片的图片,而非文件名中含有iPod的图片。
但是,在与Retrievr短兵相接中,Google似乎并没有显现出自己独到与特别的技术优势。它所采用的技术手段与Retrievr相似,甚至它也没有走出自己的领地,将图片检索的范围控制在了自己旗下的Picasa网络相册中,并没有出现像大多数用户想象的那样,可以任意对比互联网中存在的每一张图像。对于这个让人失望的结果,Google工程师给出的解释是,搜索引擎索引互联网中的所有图像,并对它们进行算法处理是永远无法实现的也是极为不现实的。
技术决定谁将拥有金矿
Retrievr图像搜索引擎所使用的技术源头可以追溯到1992年计算机领域对CBIR的研究,即基于内容的图像多媒体检索技术。这项技术是为了解决报刊等媒体集团大量图片检索的难题而衍生出的。它主要希望利用图像的颜色特征作为索引的关键因素,对图像进行检索。
通过这项技术研发的搜索引擎会根据用户提供的图像进行算法分析,在提取图像中主要颜色特征的基础上,进一步提取相应的主色空间分布信息,也就是将主要颜色的形状特征作为图像库的索引。简单说,这项技术利用的就是我们常常接触的图像缩略图,进行缩略图对比,查找相似的图像。如今效率和精准度已经大大提高的Retrievr图像搜索引擎正是由这一技术发展而来的,不过这个刚刚走出实验室的新技术仍然有许多需要改进之处。
技术是被人们的欲望推动的,Google的崛起让搜索经济成为了IT行业最有潜力的“金矿”,在风险资本的眼中,一切能够挑战Google的新技术都会成为下一个潜在的金矿,图像搜索技术显然就具备这样的条件。
未来谁掌握了最优秀的搜图方法,谁就将成为YouTube之类的图像与视频检索的幕后掌控者,如同现在Google在文字搜索领域所处的霸主地位一样。显然Google提前嗅到了这种商机,在公布图像搜索系统的同时,Google宣布不排除未来在搜索出的图像中添加自己的广告——这果然是一座金矿!
尽管Google如此自信,但鹿死谁手的较量仍没有结束,或许查尔斯· 达尔文在《物种起源》中那段关于“丛林法则”的经典论述,正成为这场搜图时代的一条公理:“存活下来的物种,不是那些最强壮的种群,也不是那些智力最高的种群,而是那些对变化作出最积极反应的物种。”