谷歌科学家：语音搜索让说话代替打字

头条

2011年9月5日第35期

谷歌语音搜索研究科学家，西班牙人。电气工程专业，专攻数字信号处理方向。之后申请了富布莱特奖学金。美国卡内基·梅隆大学攻读博士学位，并加入了该大学的语音研究团队。从此开始了他的研究工作。在进入谷歌之前，他还在几个企业研究实验室工作过。

电脑报：能否介绍一下谷歌语音搜索背后运用到的技术，它是如何实现搜索的？

Pedro Moreno：语音识别建立在统计模型基础之上。这个统计模型非常庞大，它几乎涵盖了一种语言或音素的最基本发音，所有的词，以及所有在讲这种语言时不同字词的组合。而且，它也捕获了用户使用这种语言所有的变调，比如不同的方言、发音和不同个体在声音方面的不同（比如男性的发音与女性的不同，年轻人与老年人发音的不同）。

为识别口头字词，我们将输入的语音与语言统计模型对比，并试图找到最相近的匹配结果——系统对于用户所说的最精确的猜测。

电脑报：在中国，不仅有普通话，还有很多方言。针对方言、俚语的搜索，你们在开发过程中遇到哪些难点和挑战？又是如何克服的？

Pedro Moreno：最初，我们开始研究普通话的语音搜索。

普通话是一种非常重要的语言，并且它与英语非常不同。对于初学者，普通话使用的音调，不像西方语言。此外，普通话一个字的概念是模糊的，这需要辅以字段分析技术。

研究普通话语音搜索中汲取的经验，让我们得以使用很多创新的方法来研究其他新语言的语音搜索。后来我们意识到，每个新的语言都会带来新的挑战。例如，俄语的语调都很困难，德语或土耳其语等其他语言则高度黏着（他们经常将一些字词组合成更大的字词或短语，通过在名词、动词等后面加上不同的词尾来实现语法功能）。随着我们处理的语言越来越多，我们得到了更多的解决方案，研究变得更为容易。

对于粤语，我们当然利用了在普通话方面的经验。粤语的优势之一在于大部分的书写系统与普通话是相同的，所以我们可以利用所有在普通话中的语言模型。然而，具体到每一个粤语词汇的音节、来源，我们还需要做一些工作。

因此对于粤语，我们的声学模型与普通话非常不同。粤语和普通话之间的另一个有趣的区别是，在通过语音搜索时，香港用户比北京用户更容易混合英语单词。实际上，我们的系统反映了香港用户的习惯。

电脑报：我们看到的语音搜索产品还不够成熟，现在Google语音搜索能实现的技术水平以及搜索结果离你理想中的状态相差多远？在你看来，语音搜索技术实现的最大难点是什么？

Pedro Moreno：语音识别技术的长期愿景，是要达到无处不在，让用户随时随地能够使用语音识别技术，需要打字的地方，都可以用说话来代替。

现在最大的挑战就是语音识别的质量，有很多因素都会影响语音识别的准确率。例如，你站在一个嘈杂的街角，可能会有很多背景噪声，从而导致在转录中出现错误。但我们一直在致力于提高精确度。我们知道，提高精确度能使这一服务更有价值、更有用处。所以这绝对是我们的工作重点。

并且，当我们在某个应用程序中的准确率提高时，人们会回过头来再次使用它。可以告诉你的好消息是，我们在数据驱动技术和语音识别的技术方面的研究正不断地提高识别质量。在过去几年里，准确性取得了很大的进展，我们预计它还会继续提高。当然，随着准确性的提高，人们的期望也随之迅速上升。因此，我们会迎接各种挑战，不断满足或超越人们的期望。

延伸阅读语音搜索技术的早期历史

语音搜索技术是从上世纪90年代末开始出现的。最初热衷于这门技术开发的企业并不是今天这些互联网巨头，而是诸如NTT、AT&T这样的电信公司。因为电信运营商都希望将语音搜索能够集成到自己的电信服务中，从而获得一个新的有价值的市场。

在早期，日本和英国是在语音搜索方面最为积极的两个国家，美国随着互联网的兴起，也开始加入到这项技术的开发之中。

2000年前后，语音搜索技术开发的重点更多是面向一些特定群体，比如希望在网上搜索一些关键数据的用户，或者希望获得网上内容的残障人士。

早在2000年，NTT公司就尝试在互联网上开发语音搜索技术，不过当时这项叫做“学习主动搜索”的技术主要针对有特定需求的用户。这种技术可以在网上迅速搜索出没有获得合法授权的声音及影视数据，约1秒钟就能从可播放24小时的声音及影视数据中搜索出特定的声音或者影视数据。

从技术原理上看，这时的语音搜索技术已经具备了后来技术的雏形，一些重要的技术规则在这个时候已经开始确立下来。

首先，“检索服务器”定期收集在互联网上公开的声音及影视数据。所谓收集并非下载数据文件本身，而是从中筛选出核对数据时所需要的声音及影视数据“特征”后加以保存。保存数据所需要的存储容量，24小时影视数据为5MB；而24小时声音数据则为17MB。特征筛选所需要的时间仅为该数据播放时间的1%左右。不过由于技术上存在很大的难度，而且推广上也并不理想，NTT逐渐放弃了这项语音搜索技术的后续开发。

日本的其他电信运营商同时也开发了一些语音搜索产品，但在市场上的反响都很一般，没有取得太大的突破，不过这些技术也为后来的语音搜索开发积累的一些宝贵的经验。

而在2004年，英国一家语音科技公司则宣布推出世界上第一个语音搜索引擎Speegle。这个语音搜索引擎的核心是该公司拥有自主知识产权的PanaVox计算机语音技术。这项技术最初是为弱视群体上网搜索提供便利，后来逐渐面向普通用户。但是随着互联网海量数据的逐渐扩大，这项语音搜索技术也很快显示出固有的弊端，只能集中在一些新闻内容的语音搜索方面。也正因为这个原因，这个搜索引擎始终没有能够扩大影响，处在一个小众的层面。

2003年之后，美国在语音搜索方面的投入就开始逐渐增加，到2010年，美国各大科技企业已经投资10亿美元从事这方面技术的开发，IBM、微软、谷歌和苹果都在这方面进行了大量的投入。微软甚至提出，要在下一代Windows产品中直接嵌入成熟的语音搜索模块，以便真正将这项技术向普通用户进行推广。

而在市场价值方面，IDC等市场调研机构也非常乐观，预计2011年语音搜索的市值将达到40亿美元，而到2020年，全球语音搜索市场将突破100亿美元。

谷歌科学家：语音搜索让说话代替打字

延伸阅读 语音搜索技术的早期历史

延伸阅读语音搜索技术的早期历史