语音识别渐入佳境

软件世界

在社会和科技迅速发展的今天,当人机交互技术的作用变得越来越重要的时候,我们总是在幻想能够更方便地让电脑明白我们的意图。就如同我们使用键盘进行控制和输入一样,现在已经在很多软件里开始逐步实现用语音来完成输入和控制。也就是这次我们要谈到的语音识别技术(Speech recognition),它可以通过用户口述方式把文字输入到信息设备中,并完成大部分的系统控制命令。

有着广泛的应用前途

语音是我们每个人基本的信息“输出”方式,语音识别技术的本质便是系统内置的语音识别驱动程序将口头语言转换为书面文字,并进一步执行命令或是编辑文档。然后一些软件会将音频片段与识别系统储存的语音库模板进行匹配,并将识别结果输出到相应文件或应用中。(图1)

图1
图1

这一人机交互技术可以服务于人们社会生活领域的方方面面,从互联网、工业控制、教育、游戏娱乐、医疗保健、电子商务、办公自动化、企业管理、服务行业和旅游交通等。而且据悉CNNIC(我国互联网管理机构)已经在今年5月推出了语音网址服务。
现在随着IT产业相关技术蓬勃发展、齐头并进,在IT产品和服务方面,语音识别技术的应用也进一步细化为:桌面应用、网络/电话系统应用、Web和信息家电应用。
桌面应用是指集成于桌面的应用软件,如市场上已出现的用于PC机的语音输入、听写系统软件,此类的代表作当数IBM ViaVoice系列。网络/电话系统应用是指把语音技术与远程信息查询、处理、生成等相结合。Web应用是把语音技术与Web应用结合,利用VoiceXML(Voice Extensible Markup Language)编程语言,开发诸如语音门户、语音浏览器、网上语音聊天室等。信息家电方面的应用则是指掌上或移动通讯设备及家用电器的语音控制和内容输入。如语音拨号手机、语音识别的门禁保安系统、语音控制的家电等。

将成为未来应用的标准

目前掌握了语音识别核心技术的厂商也在积极地开拓应用市场,推出语音识别呼叫中心、高科技语音控制玩具、语音控制车载导航系统、语音灯控等产品和语音识别模块等。IBM公司近期宣布,与本田汽车公司密切合作,在9月份推向市场的“阿科德(Accord)2003”型汽车上安装一个具有语音识别软件和触摸式屏幕的综合导航系统。该语音识别系统通过司机触摸方向盘上的按钮然后大声讲话来工作。软件会对此做出反应,通过汽车的音频系统提供驾驶指示。
我国中科院语音识别技术的研究人员也在继续开发与生物识别技术的集成应用,以生物技术为基础,融合信息技术、多媒体技术,在不久的将来推出实用的语音身份识别产品模块。
由于受到国内庞大的应用市场前景的吸引,国外多个大型厂商纷纷也开始投入到汉字语音识别的应用开发中。有市场分析人士预测,在今后的几年里,语音技术市场还将以每年31%的速度持续增长。

已经走近我们

目前多个主流操作系统,包括Windows XP、Linux、Mac OS、Windows CE、等单机系统、嵌入式操作系统和服务器系统在内的操作系统,都开始相继支持语音识别功能,众多的主流软件如微软Office XP也提供语音识别功能。可以说,语音识别技术已经开始真正地走出实验室,为我们普通大众服务。
目前在语音识别领域牢牢占据半壁江山的当数老牌的IBM ViaVoice。记得笔者在刚升级到奔腾电脑的时候就接触到了IBM ViaVoice 98,当时使用的感觉真的可以用“神奇”来形容,前几年流行过的国产语音输入软件,其中大多数都是以IBM语音录入驱动为内核的,由于当时计算机的处理速度还不够强大、语音识别驱动也不够完善,所以并没有形成大的气候。但IT行业的发展似乎都可以用“一日千里”来形容,现在计算机用户只要拥有一套微软最新推出的Office XP,就可以进行语音控制和语音输入。

语音识别机制和发展历程

语音识别的研究工作开始于上世纪50年代,著名的AT&T贝尔实验室开发了第一个可识别十个英文数字的语音识别系统──Audry系统。上世纪60年代,计算机的应用推动了语音识别的研究工作。这时期的重要成果便是较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响,但由于受到当时的计算能力的约束,且语音信号处理方面的理论还处于比较低的水平,有关语音识别的研究工作未能形成规模。上世纪70年代的多数研究者都是以连续语音识别为目标,但这一要求在当时无论是对设备条件还是理论方面的准备来说都显得过高。到了80年代,语音识别研究进一步走向深入,其显著特征是成功应用了人工神经元网络(ANN),推动了语音识别的迅速发展。随着90年代多媒体技术蓬勃发展,普通用户的计算环境初步具备了让语音识别系统从实验走向实用的条件。IBM、苹果、AT&T等著名公司都为语音识别系统的实用化开发研究投入巨资,语音识别进入了全新的发展和应用阶段。
我国在语音识别领域进行了长期的研究工作,国家“863”计划也把语音识别作为重点攻关项目且已取得丰硕成果。目前中科院开发的中文语音识别产品Pattek ASR,让计算机具有听、说和理解的能力。该项技术成果可以服务于公共查询、无线通讯、智能玩具和智能家居等诸多领域。这是我国第一个拥有完全自主知识产权,并实现产品化的语音识别技术,打破了自1998年以来国外公司垄断中文语音识别产品的历史。

相关知识

VoiceXML:VoiceXML是W3C定义的可扩展标记语言(XML)的一种扩展,它允许通过电话访问Web应用程序和内容。可以使用VoiceXML开发基于语音的电话应用程序。这一标准是由“VoiceXML论坛(VoiceXML Forum)”开发的,该论坛由AT&T、IBM、Lucent和Motorola创立。
IBMVoice:IBM ViaVoice语音识别软件通过优化的语音声学模型,提高语音操作及听写的识别精度。