语音的编辑合成

Author: 蔡莲红副教授 Date: 1993-05-28

        汉语的音节特征明显，因此可以采用以音节为单位的编辑合成方式。如“最高温度”一词可细分为四个音节，若需合成“最低温度”仅需再录“低”字即可。在词汇不是很多的特定应用场合，可以采用这种方式构成语音输出系统。如天气预报、电话服务等。
        汉语的有调音节共1282个，从理论上讲，有了这些音节就可以合成任何文章了。但由这些单音节编辑合成的语音自然度不够好，其原因是，在连续语流中，相邻语音的发音互相影响，状态发生了变化。如上声相连时前面的上声近似读阳平(如“友好”)、重叠名词的后一音节读轻声(如“爸爸”)、词尾儿化(“上坎儿”)等。还有多音字问题，如“行走”、“银行”。因此，为建立一个无限词汇的合成系统，除要建立音节语音数据库外，还要建立韵律规则、音变规则、多音字发音等知识库。待语音输出时，利用这些知识，把汉字文本，转换成一系列语流控制参数，再从语音数据库中取出语音数据，最后经模数转换，输出自然流畅的语声。实际上这已经是一个高级的语音合成系统，即文字---语音转换系统了。
        上述的语音输出系统，为存储语音数据需要较大的存储容量，如何解决这个问题呢?关键是语音压缩编码。