走进Siri奇妙世界
技术密码
控制的欲望
自从苹果Siri语音人机互动推出之后,全新的操控体验方式,就像是一个潘多拉魔盒,带我们进入奇妙世界。如今中文的Siri在慢慢丰满,我们也看到这种技术的前景,但是它到底能对我们提供哪些帮助呢?技术揭秘带你进入更深的领域。

过去的几年,我们见证了智能手机的横空出世,虽然从单核到双核,再到四核,性能的提升是明显的,移动互联也成功渗透到我们的生活,但手机和人类的沟通似乎并没有改变,在倡导智能化的今天,从根本上改变设备和人类的沟通方式便越来越有必要,因为我们适应和各种设备的不同沟通方式,会浪费很多时间,而随着苹果Siri和三星S Voice的出现,一切问题迎刃而解。

不只是语音识别那么简单
用语音来操纵手机,这只是流传多年的魔术,还记得当年名噪一时的金立语音王吗?又能语音拨打电话,又能语音发短信,看似神奇,其实都是基于语音识别技术,无论在识别率,还是应用性上都不甚理想。
知道Siri都能干些什么吗?《生活大爆炸》中印度人Raj的用法堪称经典,在没有女友的日子里,Raj跟Siri调调情,排解内心的寂寞,交互数次以后,得出“Siri,只有你才了解我”的结论,这就是它讨人欢喜的一面,不仅能够准确地回答你的问题,还拥有自己的个性,会让你有一种真实存在的错觉。它还有更厉害的一点,能调用多种应用和服务,比如说“最近的加油站在哪里”,这个任务 Siri 就至少要调用两种应用和服务——GPS定位和LBS功能。
从技术上剖析,苹果Siri和三星S Voice前端部分依仗人工智能,就是把口语转化成文字。表面上看对技术的要求并不高,无非就是语音识别,本地就能完成,其实不然,以IBM为代表的PC端语音识别系统当年没有成功,关键原因是训练量不足,为了实现所答即所问,才诞生了语音云,用户每一次正确的输入都是一个正回馈,通过后台对语音识别的持续训练,才能实现准确的分析和判断。
搜狗CEO王小川就认为需要四个方面的配合:一是对自然语言理解,归纳为“懂”;二是在人机交互的过程中,需要反问确认来降低误差,这个过程称为“问”;三是人机交互还需要根据上下文进行判断和推测,这可以理解为“猜”;除此之外,整个软件系统还需要具备持续的学习能力和良好的扩展能力。这也就不难理解,为什么中文版Siri迟迟不出,身为世界上最难、最特殊的语言之一,汉语的同音字、同义字太多,而且无固定语法,光一个“我”字,就有咱、俺、余、吾、侬、某等多种说法,而一句“白天鹅在跳舞”,究竟是“白天,鹅在跳舞”,还是“白天鹅,在跳舞”?
为何强大 全靠背后数据库
有人说Siri的背后是“印度云”,用户在语音提问时,iPhone 4S就偷偷接通了远在印度的呼叫中心,那边的印度工程师疯狂地打字回答,iPhone 4S端再转换为语音回给用户。当然,这只是个玩笑,Siri能实现人机互动的关键,在于拥有一个超级强大的数据库。
长期以来用户使用网络搜索引擎的传统模式是打开浏览器,进入搜索引擎,查询关键字,然后看到一堆结果,使用PC,屏幕大,看起来还比较方便,如果使用小屏幕的手机,满屏显示不过一百多个字,一个一个地筛选结果,体验可想而知有多差了。如果引入人机互动技术,就没有这么麻烦,因为它已经能够圆滑地对接手机上的应用,而每一个应用都对应着一个垂直网站。像Siri后台就拥有包括以Google为代表的网页搜索技术,类似知乎这样的问答推荐技术,以维基百科为代表的知识库技术,还有像大众点评网这样的推荐技术等,一旦你和Siri开始了一段对话,它在充分理解你的意图之后,就开始搜索并进行数据重组,例如球迷在说出了Germany 、Football等词语之后,Siri就会显示出大量关于德国队备战欧洲杯的情况,以及德国队在欧洲杯所有比赛的直播时间。如果抱怨汽油价格昂贵,Siri会很解风情地弹出地图,显示附近最便宜的加油站。
人机互动魅力还在于它的学习能力,可以模仿人的思维,收集海量数据,使它的价值不断增长。

交互革命 让手机更全能
人机互动可以做到的是释放你的手指,同时竖起你的耳朵,开车,走路,烹饪一道美餐,或者实施一台手术,这些活动都能够从中获益,人们的生活将会发生翻天覆地的变化。
从目前的发展趋势来看,厂商的热情高涨,苹果很有可能在下个月发布的iOS6系统中公开Siri API(应用程序编程接口),这样Siri便可以和第三方应用程序进行整合,让它的语音功能被发挥到极致。大胆预测,景区导游这个职业恐怕会消失,因为一部支持人机互动的智能手机就可以完全替代。
一些致力于人机互动的厂商也嗅到味道,希望能借鸡下蛋,像梅赛德斯奔驰就宣布在新车中引入Siri功能,通过专用接口,驾驶者可以语音规划路程、读取音乐、调取近一段时间的油耗,遇到任何不懂的操作,可以直接向Siri请教,不用再去触控屏幕,降低了事故发生的概率。看来以后买汽车送智能手机不是噱头,而是趋势。
此外,苹果正计划于今年底推出支持Siri的苹果电视,而iPhone手机很可能会扮演遥控器的角色。喊一句:“声音太高了”,音量会自动调低。如果想学做冰激凌,可以对着电视问:“冰激凌怎么做”,Siri会从它庞大的数据库,以及网络中快速找到做冰激凌的最佳视频。“10点钟切换到电影频道”、“重播一下昨天比赛法国队的进球”、“12点准时关电视”……这一切听起来不可思议,但很可能会变成现实。

编 后
人机互动给我们传达了一个趋势,未来人们对信息的要求不再是多而全,而是少而精。生活节奏越来越快,人们不再有更多的时间用于浏览大量的搜索结果并判断其是否有用,取而代之的是需要唯一的、正确的结果,而且是用最简单的方式达到目的。
