揭开“沃森”神秘面纱
头条
与之前的“深蓝”相比,“沃森”系统可是复杂得多。“沃森”是如何思考和答题的?超级计算机,未来能否最终替代人类从事大量技术工作?本报记者第一时间连线IBM中国研究院人机大战项目组负责人潘越,为你揭开“沃森”神秘的面纱。

“沃森”在3秒内完成抢答
电脑报:“沃森”大胜人类,作为“沃森”的研发人员,可以谈谈这几天比赛时你的心情吗?比赛过程中,你在哪里、做些什么?
潘越:总决赛之前已经经历过几次练习赛,大概知道“沃森”的实力,对“沃森”的表现很有信心,看到这样的结果非常开心。比赛时,美国团队的同事在现场,我们组的成员在北京和上海看视频,在微博上进行现场直播,解答疑问、复盘,一直在忙碌中。
电脑报:从比赛结果看,“沃森”比人突出的表现主要有几个地方?有哪些出乎预料的结果?这是什么原因造成的?
潘越:没有出乎预料的地方。第一天的比赛,“沃森”答错的题目较多只是它的运气不好。“沃森”的信息收集并不完备,有些类别比较欠缺,刚好第一天的题目就在它的弱项上。第二天“沃森”表现比较好,只回答错了一个问题。“沃森”的突出表现在于对自然语言的理解,速度很快,可以在3秒内搜索、计算、判断并抢答。
电脑报:“沃森”的研发中,中国团队的贡献主要在哪里?中国研究院的“沃森”团队为何取名叫百晓?参与研发“沃森”的团队是如何挑选组建的?
潘越:“沃森”的研发团队分别在美国、中国、日本、以色列。美国利用非结构化知识作问答。中国利用结构化的知识、更深的语义分析作问答。日本团队利用非结构化的(知识)确定问题匹配的类型。以色列团队做搜索的工作。
“沃森”项目最早是美国团队在做,在语义分析方面遇到困难向中国研究院求助,才有我们的加入。中国团队的贡献仅次于美国团队。中国团队的名字百晓来自武侠小说中的一个人物——百晓生,他的武功不是很高,但他知道谁的武功高。开始的时候,美国同事不知道百晓生是什么人,我们翻译给他们是“在世界边缘行走的人”,无所不知,无所不晓,大家都很开心这个名字。
“沃森”项目的最终目标是与人类同场竞技,三年的时间,我们让“沃森”的知识覆盖率从最初的30%、50%,准确率10%、60%到现在的两项指标都达85%以上,并在与人类的比赛中战胜了人类。

“沃森”根据置信度来选择回答
电脑报:“沃森”的知识储备包括多少内容,以怎样的形式存储于电脑中?
潘越:“沃森”的知识储备包括百科全书、字典、地理类娱乐类的专题数据库、新闻报道等约70GB,以文本、表格等方式存储在“沃森”中。所以“沃森”对自然语言的理解非常重要。
把一本书给“沃森”,它“读”了就会用这些知识,就像我们读书学习一样,它是“过目不忘”,自己去分析整理。
电脑报:在现场比赛时,“沃森”的反应过程如何进行,比如如何获取题目,分析、得出结果,什么情况下选择回答或不回答?
潘越:在研发“沃森”时,没有考虑用自动语音识别这样的人机界面问题,获取题目是通过文本传给它。
“沃森”系统原来采用的是一阶段的学习(将证据作为特征训练打分算法)。中国研究院提出了两阶段学习算法,提高了原来一阶段学习算法的准确度。现在沃森系统采用的就是一个经过扩展的多阶段学习算法。两阶段的学习是指先用特征计算出模型,再用模型挑选数据,再用数据做另外的训练,根据选择的答案进行排序,就是多了一个选择的环节。比如问某位美国总统的任期,回答时间不对,那是中规中矩的错误,回答大鲨鱼,那就会被过滤掉。
大概是三年前我们拿到这个任务时,第一步就是做基线分析,用已有系统(公用搜索引擎、问答引擎)来参加《危险边缘》的问答。当时的性能可以说是惨不忍睹。回答的覆盖率和准确性大概只有20%和10%。当时的人类选手,覆盖率和正确两次都能达到85%。因为差距太大,我们没有采取提高原有系统性能的方法,而是从头构建新的系统。
后来我们做了一个winner cloud,画一个坐标,横轴是覆盖率,纵轴是准确度,把每个选手的成绩做成一个坐标上的点。然后我们确定云的中心,这样我们就知道,机器想要和人类竞赛并获得一半的胜率,我们就要超过这个点,甚至是云的外边缘。
“沃森”和搜索引擎的不同在于,它并不简单地给出页面列表。“沃森”对每个回答都有置信度(Confidence-level,指特定个体对待特定命题真实性相信的程度)。“沃森”根据置信度来决定是否回答。我们会给“沃森”设定,何种置信度以下不回答,以上选择回答。这个置信度的设定又取决于竞赛策略。比如比分领先时保守,而低比分倾向于冒险。这个策略是一个整体。
电脑报:研究人员可以在比赛间隙对“沃森”进行调整吗? “沃森”对语义的理解可以到怎样的程度,比如人类语言中用到的反讽、说话时强调的语气、语音中恐惧的情绪,“沃森”如何区分辨别?对脑筋急转弯这类的题目会应对自如吗?对于比赛中人自然产生的紧张情绪,“沃森”会有吗?
潘越:参赛后没有对它调整。而竞赛的策略有很多,需要“沃森”根据现场情况作判断选择。
对情感的理解,“沃森”还没涉及。“沃森”对语义的理解可以到怎样的程度,没有衡量标准。人工智能领域对人和电脑的接近程度有一个有名的图灵测试,是在一个“黑屋”里进行,让评委看不到人和电脑,评委给出题目,让人和电脑同时回答,最后看结果有多大差异,如果评委不能区别是人类还是电脑的回答,就证明电脑的智能已达到人的水平。目前还没有一台电脑通过这样的测试,“沃森”也通过不了。
电脑报:有没有考虑“沃森”“沃森”系统参加中文的挑战赛?
潘越:曾经想过。第一个困难在于没有一个合适的中文竞赛可以参加,一些竞赛给出多个选择答案让选手选择,这样的题目对“沃森”“沃森”而言太简单。而一些与现场观众的互动环节,很难实现。
第二个难点是中文的信息处理还有技术上的问题。中文语法比较宽泛,词句的意义有太多解释,很难精确化,还有不少话外音需要理解,与上下语境有很强的关联。
将帮助医生诊断病情
电脑报:目前全球人工智能领域,除了“沃森”,有没有其他的团队在做类似的研究?
潘越:问答系统有很多大学和机构在做。比如CMU、卡内基梅隆、RPI等都在做人工智能的研究。IBM倡导对问答系统应该有好的测量系统。现在的测量系统集中在某一方面,比如回答的准确程度,但并没有对信心的衡量。像《危险边缘》这个比赛答错要扣分,这就要求对信心层面有衡量。一般问答系统只需要答案,而不管回答的时间。
电脑报:“沃森”参与这场挑战,代表了未来怎样的发展趋势?
潘越:“沃森”的成功,个人认为了不起的地方是电脑对自然语言的理解达到与人相似的程度,同时也是人工智能技术整合在一起的成功,就像治疗艾滋病的鸡尾酒疗法,是一套组合。
以前我们侧重于人工智能的理论,比如人的思维方式,以何种算法接近人的思维速度。近年来随着互联网、万维网和现在的语义万维网的出现,我个人认为趋势之一是,如何更好地利用这些数据,因为可能答案已经存在于网络之中,而且这些数据是以自然语言存在的。另外,人工智能与应用的结合:解决医疗、交通等实际的问题。否则人们一直认为人工智能会是空中楼阁。还有就是分布式计算(distributed computing),即很多个智能体在整体上协商、协调。
电脑报:除了智力竞赛,“沃森”的研究成果还可以用到哪些领域?对人工智能发展起到多大的推进作用?
潘越:可以确定一点的是,“沃森”的成功,以后将从娱乐领域转移到医疗卫生领域。原来“深蓝”不仅仅是下象棋,后来还被应用到基因序列分析、蛋白质分析等非日常的领域。“沃森”的应用则在日常领域,比如医疗卫生,帮助医生诊断病情。美国哥伦比亚大学医疗中心和马里兰大学医学院已与IBM公司签订合同,两所大学的医疗人员将利用“沃森”更快、更准确地诊病、治病。