语音的参数编码与合成

Author: 蔡莲红 Date: 1993-07-02

        线性预测分析(LPC)提供了一组语音参数。这组参数较精确地反映了语音特性，数据率低，还可有效地用于语音合成和识别。
        语音样值的大小不仅与前一个样值有关，而且与前几个样值有关。所以，为了预测当前样值，可以用过去几个样值的线性组合来计算。即S(n)=αkS(n-k)其中P为预测阶次，αk为预测系数。
        这种用线性组合来预测s(n)的方法，叫线性预测。通过使实际语音样与线性预测样值之间差值的平方和达到最小值，计算唯一的一组预测系数。语音信号的信息几乎全饱含在系数ακ中。因此语音抽样序列便可用一组组ακ来表示。而数据率可低至2.4κ位/秒。
        国外已有多种用LPC方法合成语音的芯片。如TI的TMS5220、TSP50C30(C40、C50)。TMS5220内部有10级滤波器。语音参数共有12个：10个预测系数、音高和能量。
        这些参数要在另外的开发系统中得到。一旦有了参数，用一片TMS5220和一片存有参数的EPROM，再加上滤波和功放，就可以构成语音合成器了。
        LPC语音合成器的突出特点是数据率低。每个汉字发音，大约仅需100字节。但它的音质较差。专家们研究出多脉冲激励LPC编码、码本激励LPC编码，数据率有所提高(4.8kb/秒)，音质大为改善。
        另一种语音参数合成是共振峰合成。当把声道(从声带到口腔)看成一个谐振腔时，腔体的谐振特性决定了语音的共振特性。
        共振峰就是这个腔体的谐振频率。人在发不同音时，腔体形状不同，谐振频率也不同。采用某种算法，抽取共振峰的频率、带宽和幅度，并以此可以逼真地合成语音。
        语音的参数编码应用十分广泛，如语音合成、声码器，或用在保密通讯中。具体的产品有汽车语音报站器、火车站(机场)信息发布、汉语音合成器等。