IBM ViaVoice印象记

Author: 苏峻峰 Date: 1998年 第05期 09版

  IBM ViaVoice是目前市场上第一个商品化的汉字语音输入软件,尽管其正确率还有待进一步提高,但在实用性方面已奠定了其里程碑的地位,下面就是笔者短短几天使用过程中的一些体会。
  IBM ViaVoice 对硬件要求比较简单,那就是PENTIUM 166MMX芯片,32M内存,SOUNDBLAST 16声卡或100%兼容声卡。低于此要求也可以运行,但对速度和识别率都有一定程度的影响,笔者曾在一台PENTIUM75,16M普通内存的机器上安装运行,效果居然还不错。值得注意的是,笔者曾分别在一台装有AMD K5芯片和一台装有PENTIUM 166MMX,ESS1868声卡的机器上出现过安装后不能正常运行和不能进行口音训练的现象(也许是主板或内存方面的问题),看来IBM ViaVoice 大量运用了浮点运算和16位声音采样,打算购买和升级计算机的朋友可要注意了,在性价比之外还要考虑考虑兼容性,经济条件允许还是买INTEL和创通的产品吧。
  软件安装过程中要测试麦克风,普通麦克风就已能满足要求,安装前确认所有的WINDOWS95多媒体选项已正确安装,同时最好在WINDOWS 95控制面板中多媒体属性的录音品质选为CD音质,并在一个安静的环境中进行,其他按提示做即可。
  安装完成后即可试一试语音输入,如果朋友们的普通话足够标准的话,不需口音训练即可达到80%左右的识别率,鉴于绝大部分朋友都不是播音员,所以尝完鲜后就必须进行口音训练了。
  口音训练即由使用者朗读254段例句,电脑将其全部录音,然后通过计算建立一个针对你特有的口音模型,就像定制西服一样,量体裁衣。在口音训练时要注意一点,那就是,读标点符号时切切不可与句子跟的太紧,因为例句中的标点符号都是用方括号标明,要求使用者读出来,但在视觉上容易使人产生朗读重音的混淆,结果使人每读一句话,刚完就迫不及待地将“逗号”、“句号”之类标点符号重重念出,形成了标点符号是重音的口音模型。而在实际生活中,人们惯于在说完一句话时停顿一下,而并不是把标点念出来;IBM ViaVoice语音识别技术的关键之一就是标点符号的口头输入,利用标点符号来审文断句,与通常说话方法不同,在按着稿子念时还可注意标点的重音,特别在没有稿子直接进行口头输入时,标点与句子间很自然形成停顿,与口音训练时产生的口音模型发生偏差,计算机处理时就可能将标点的发音与句子分割开来,形成不了完整的语句,造成识别率的下降。解决的办法很简单,那就是在口音训练时,读句子与标点时两者之间要有停顿。
  口音训练完成后,笔者随便拿了几篇文章试验,有小说,有计算机时文,有报纸上刊登的体育新闻。只感觉IBM宣称的30000常用词实在太常用了,稍微不常用的词出现,立马就使整个句子变成了笑话。好在他还可以自学习到65000,不过得你老兄亲自教。
  多余的话也就不说了,其它注意事项请看软件文档和联机帮助。说实话,IBM ViaVioce给我最大的感触倒不是其输入方法的独特,毕竟语音输入技术早已出现了至少二三十年,而是汉语语音输入居然是由美国公司实用化出来这一事实联想到一些令人感叹的东西。计算机汉字输入一向被视为难点,国内也出现过几种智能汉字输入法,原理上可能差不多,可从技术角度来看,显然不在一个档次上了。想当初,万“码”奔腾的景象何等壮观,可大部分“码”都是硬把好端端的汉字拆个七零八落,中国人可以人为机用,大家使劲背口诀吧!
  发牢骚的目的是想说明,IBM ViaVoice是个好东西,可惜不是国产的,如果到ViaVoic出了5.0、6.0......,我们还用不上CHINA VOICE 1.0的话,我可真不想说什么了。