微软亚洲研究院里的“魔术师”
访谈
专访2010年全球杰出青年创新者孙剑博士
具有百年历史的美国权威技术期刊麻省理工学院《技术评论》日前公布了2010年度35名“全球35岁以下杰出青年创新者”获奖者名单。来自微软亚洲研究院主管研究员的孙剑博士以其在交互式计算视觉领域所做出的巨大贡献在300多名竞争者中脱颖而出,为我国本土培养的计算机研究人才群体再添新的荣耀。
近日,记者走进了微软亚洲研究院,去了解耀眼光环下的孙剑背后的故事,才一踏进研究院的大门,就听见同事们热情地称他为“魔术师”。
魔术师称号的由来
一张田园风光的照片上,马儿在房前草地上悠闲地低头吃草,孙剑拖动鼠标在马身体上画了两道,意思是让围栏连接完整,回车,马从画面上消失,照片变成房屋、草地、围栏组成的画面,看不出照片中原本有马的痕迹。
另找一张照片,迷人的沙滩上,一对恋人在水边漫步,沿着水浪线画一下,点一下人物,得到的结果是无人的海滩,原来接触人物腿脚的水边缘,没有因人物去掉出现黑洞,水波纹自然流畅。
这是孙剑被称为“魔术师”的最早成果,那是2004年孙剑进入微软亚洲研究院第二年的研究心得,几年后,现在的Photoshop可以实现这样的功能。
修补图像让图片中物体消失后原来的背景保持完整性,孙剑说非常难,不是数学模型就可以完全解决,涉及人的心理认识,想象被物体遮挡住的背景会是怎样,在交互式的方法下,用户在画面中给出一点提示,画一条线,计算机得到提示,就能把原有结构恢复出来。
比这个修复图像简单一点的是“挖图”,报纸、杂志经常用到。在图像编辑中,高效的交互式静态图像前景、背景分割十分重要。利用孙剑研发的工具,用户可以轻松地以最小的工作量选中感兴趣的物体或者区域,并用于物体的拷贝粘贴和局部颜色/色调调整等。
去掉背景只留想要的物体,同样是画两笔,提示计算机想要的物体范围,电脑就能自动找到边界,不需要用户沿着物体边缘仔细勾勒一圈。
此外,孙剑被称为魔术师还因为他做了一个关于图片和视频去雾的项目。“我做去雾研究,是因为在北京奥运会前,看一些奥运的宣传片,发现不少视频和图片有雾,看不真切原来的建筑和景致,就琢磨如何去雾,还原原有的面貌。”孙剑的工作最让人羡慕的就是兴趣和爱好总能转化成研究成果。
用人眼来分辨照片和视频中是否有雾很容易,但是让计算机识别是否有雾,难点在于需要区别有雾与白色背景的情况。
孙剑发现,分别计算红色、蓝色、绿色的黑通道,在三个通道中,用最黑的点代替原有的色素点,最终得到的结果是:没有雾的鲜艳照片最后变得一片黑什么也看不到,有雾的照片和通道成像则不会那样黑,由此判断出照片是否有雾。下一步的工作,则是通过系列计算还原没有雾的情形,得到去雾效果。
孙剑的“黑通道鲜艳技术”不仅可以将照片和视频中的雾去掉,还可以对图片通过去雾计算出场景的深度,由此写出的论文在2009全球计算机模式识别年会上获得唯一的最佳论文奖。

孙剑的项目示意图
魔术师的下一站精彩:天空搜索
在电脑搜索框里输入“cloudy sky”,瞬间一批阴天的照片就排列在电脑屏幕上,输入“blue-sky”,各种蓝天的照片呈现出来,继续输入“full sky”,可以界别蓝天是怎样的蓝天,“full sky”是纯净的蓝天,图片中没有别的物体,整幅画面被蓝天充满,如果输入“object in sky”,得到的照片中可能是有鸟在天空飞翔,或者是飞机在云中……如果是在太阳天的这一层面,可以进一步找定位太阳位置的照片。
“这是我们在50万张天空图片上标注了属性后得到的研究进展,在第一步搜索结果中可以准确完成第二步搜索。”孙剑博士在微软亚洲研究院办公室向记者展示了他的最新研究项目——天空搜索。其方法是训练一个分类器,在一个三角形的顶端分别代表阴天、太阳天和蓝天,用鼠标移动光点在三条边任意位置,或者是三角形内,都可以轻松找到准确描述或者模糊状态下的天空照片。目前应用的图片搜索只停留在一级的搜索上,进一步精确搜索还做不到,孙剑博士希望从天空搜索中找到方法开发所有的图片类型,扩展搜索功能。
同为人工智能的应用研究,语音识别比视觉计算更深入,在于语音识别处理的是一维信息,视觉图像是二维的,增加了复杂度,同时,视觉标注是多语义的、歧义的,让计算机作出基于心理活动的一些判断,非常困难。对海量的照片进行搜集与分析也是视觉计算的一个难点,所以,孙剑从有50万张图片库的天空搜索入手,希望扩展到所有图片集,并做好了长期奋斗的准备。
让计算机像人一样去理解世界

电脑报记者 朱文利
电脑报:请给我们的读者介绍一下你从事的研究,它在实际生活中的应用。
孙剑:计算机视觉是一个新的研究领域,它研究如何让计算机有效地感知、处理及理解视觉信息,包括图像和视频,它的最终目标是让计算机效仿人的双眼来理解世界,然后再做到一步一步与人接近,甚至超越人类。这是一个令人激动的新兴研究领域。
计算机视觉计算研究,处理的对象主要是通过摄像头拍摄的照片和视频,业内原先认为很容易,经过20多年的发展,才发现让计算机看懂那些图和视频有多困难。特别是随着互联网的发展,照片和视频在互联网上共享交流的大量涌现,如果靠人工去加工分析这些数据信息是非常不现实的,用计算机来处理的需求就越发强烈,然而也感觉越发困难。
我读研究生的时候曾经做过一个项目,一家啤酒厂商要求用计算机读取啤酒瓶上的生产日期以此判断是否过期,就是认清瓶盖上几个数字,结果正确率达到90%就很了不起了。
因为人的知识很难用数学模型表示,规则太多,需要给计算机建立一个学习的环境,现在流行的方法就是通过统计数据再让计算机判断学习。基础工作就是需要大量数据,并标注数据,在个人电脑上管理你的照片,在网络上实现图像的搜索都是具体的应用。
我的研究里,用户与计算机的关系中,用户起到一个教师的作用。通过一套基本的识别方式,一个好用的交互手段,教会计算机完成工作。
电脑报:在你的简介里,提到对图片立体匹配感兴趣,在这方面你有怎样的收获?
孙剑:立体匹配就是现在说的3D电视。刚毕业那两年,对3D图像感兴趣,2005年完成研究写出的论文当时是世界上关于3D最好的算法,后来从事这项研究写出的论文一半是基于我的算法的扩展。
电脑报:在大学里所学的知识与实际研究中所用的肯定有很大差距,你如何看待目前的计算机专业教育?
孙剑:刚出校门时我认为大学时学的东西没用处,在研究院的环境里,很多东西需要你自己学习掌握。但是经过这几年的研究工作,越来越觉得大学的教育还是有用的,基本理论掌握了,有好的基础才能发挥自己的潜能。我现在不认为大学的教育过时,这是多少年沉淀下来的精髓。
研究员的压力来自同事
对话人:微软亚洲研究院常务副院长 郭百宁
电脑报记者 朱文利
电脑报:孙剑所研究的项目创新体现在哪里?视觉计算如何改变未来?
郭百宁:计算机视觉计算研究很神奇,而且很有魔力。比如图像分割是视觉计算中一个基本问题也是两大难题之一,总是出现分割错误,孙剑的研究让用户与计算机交互,只需要用户简单画两笔,实际上是给计算机一个引导规则,真正实现了让计算机自动完成图像分割的目的。
孙剑的图像分割修复,简直像在玩魔术,挖取照片中一个物体,瞬间就能按照原来背景修复完成生成新的图片,让人的眼睛根本看不出图片被动过手脚。原来用Photoshop修改很麻烦,孙剑彻底改变了做事的方式,这项技术已经应用到微软的产品里。
交互式视觉计算的流行缘于摄像头的大量普及,怎样挖掘其中的信息就是研究人员要做的工作,应用上比如涉及公共安全和家庭住所的安全,在视频监控的环境中,能让计算机自动识别某些场景下异常的变化并自动报警;也可以在住所利用人脸识别来实现自动开门。
电脑报:作为孙剑的领导,您如何看待孙剑获奖?在微软亚洲研究院,如何评估像孙剑这样的研究员的工作?
郭百宁:孙剑能被选为“全球35岁以下杰出青年创新者”不是偶然,还在学生时代他就表现出不一样的基本素质。他是西安交大郑南宁校长和时任微软亚洲研究院院长沈向洋联合培养的博士。孙剑学生时期就在微软亚洲研究院实习,博士毕业留在研究院。从2003年到现在7年时间,孙剑已成为交互视觉计算研究这一领域的领军人物。他的论文成为从事这类研究必读的文章和引用的范文,更难得的是,孙剑的研究成果变成了产品在实际应用。
要说评估研究员的工作,是很“虚”的,不会有具体的目标,因为做研究失败的可能性非常大。研究院只是给他们宽松的环境和激励他们确定一个高的目标——做世界一流的研究。体现一流研究的结果就是在世界一流的学术会议上的论文发表,这是同行的评价。孙剑在这些学术大会上已有系列文章发表。应该说,研究员的压力更多来自同事、同行,而不是来自领导。
电脑报:像孙剑这样的研究员,在平时的科研工作中遇到困难如何解决呢?
郭百宁:研究人员开始一项研究,遇到困难是一件很开心的事,遇到困难说明这个研究方向有做头了,没困难就体现不出高手的价值。
遇到难题的时候,需要研究人员施展“吸星大法”,与同事交流,如微软亚洲研究院流行的脑力激荡,从同事那里获得一些灵感;看同行的论文;给同事发邮件,请教一些问题,最后还是靠自己的感悟解决问题。
在研究院,有些人善于推公式,有些人思维跳跃、直观,有些人则表现得非常严谨,他们看问题的方法和角度不一样,每次脑力激荡,基本上就是一个全民批判会,不过大家有什么想法都愿意拿出来讨论,在大家的谈论中找出破绽,发现正确的方向。■