一、音频压缩编码
声音、影像、数据、文字及动画,进入电脑实现多媒体化,是电信技术发展的必然趋势。随着对音质要求的提高和各音源本身数据量的增大,对存储器的存储量要求越来越苛刻,因此数据压缩已迫在眉睫。如一张5.25英寸的VCD或DVD光盘,为能将长达74分钟或长达135分钟时间的全活动影像储存在光盘上,再把这种信息含量非常大的影像重放出来,没有音像信号处理的压缩解压技术是不可想像的。
音频压缩编码其关键是充分利用了基于心理声学原理的听觉特性,首先,是利用了最小可听阈值。所谓最小可听阈值,就是在寂静时人耳能听到的最小声压级。人耳的最好听觉频率是3~4kHz,而对于20Hz以下的低频和16kHz以上的高频成分,如果声压级低于60dB就听不见。故通过消除这个量可以减少信息量。其次,是利用掩蔽效应。所谓掩蔽效应,是一种听取能力降低的现象。如在地铁车内由于噪音过大,使人们对面交谈,彼此很难听得清楚,这是一例。许多记录下来的声音都被更大的声音掩盖了,去掉这些声音并不影响听觉效果。这样,研究人员建立了相当复杂的用于子频带编码的模型,可以将音频频谱划分为频带,提高最小可听阈值,将噪音控制在最小可听阈值以下,并将小于最小可听阈值的信号删除。另外,人耳还有一种称为暂态掩蔽的特性,即人耳对声音强弱的敏感度受到过去声音强弱的影响,称为前向掩蔽;又受到将来信号声压值的估计的影响,称为后向掩蔽。前向掩蔽的时间为50~200ms,比后向掩蔽时间长得多,为此可从数ms传送一次延长到每64ms传送一次,这又进一步减少了信息量。这样系统化地去掉了对于精确的听觉不必要的许多信息。经过这样一番压缩和解压缩后所恢复的音频信号如用仪器作客观测试的话,要比CD的指标低得多,但因充分利用了听觉心理特性,由专门训练的“金耳朵”去作主观评价,其音质也与CD音质相当。
数字信号处理首先是将模拟信号转变为数字信号,然后经数字信号处理器(DSP)进行加工,最后还原为模拟信号。数字系统较之模拟系统的优越性在于其精度高、设计灵活方便,可靠性高,可获得很高的性能指标,高度集成比,成本低。对于数字信号处理所带来的音频世界来说,数字音频信号的压缩标志着革命性的变化。现在几乎每一种新型的数字音频系统中都设计了音频压缩方法。它与视频信息插在一起,形成包含整个作品的集成的压缩文件。数字系统被大量应用于音响产品中,使得音响产品品质较之几年前有了很大的提高,并且做到了小型化。
二、标准
目前音频压缩编码已形成的标准是MPEG-1(ISO/IEC11172-3),MPEG-2(ISO/IEC13818-3)和美国大联盟的AC-3。MPEG是一种国际认可的影像和音响的压缩标准。
1993年8月,MPEG-1成为国际标准。它定义一比特流压缩的视频和音频的最佳值装入1.5Mbit/s的宽带中,如CD-ROM光媒体的数据率。该标准包括五部分,音频部分编址和音频压缩所需的技术是其中一部分,而其余部分将涉及同步、视频、测试和软件编码。MPEG-1的压缩比率为1:50至1:200,压缩信息流的传输速度则由1.2Mbps至1.5Mbps。数字式影像音响压缩和解压缩过程,首先是采样,然后是运算程序,目的是降低噪声,提高整个过程的效率。MPEG-1允许二个音频通道,这既可以是单独的信号(单音),也可以是双倍的(双音通道)。有正常的立体声(一个通道运载左音频信号,另一通道运载右音频信号)或组合立体声(一通道运载数个信号而另一通道运载另一些)。该标准使用16比特以三个频率:44.1kHz(作为CD-DA),48kHz(作为数字音频带)和32kHz去编码采样。
1994年11月MPEG-2成为国际标准。它由一组不同的标准组成。目标是把视频及其伴音信号压缩到10Mbit/s。MPEG-2的声音编码是在MPEG-1声音编码的基础上,进行扩展而来的。被设计用于通过光纤、卫星、电缆、ISDN和别的网络的数字电视和音频电话的传输中。它定义一比特流以大约3~10Mbit/s为视频和音频编码。标准有3部分,音频部分(IS13818-3)中已完成DIS(DRAFT INTERNATIONAL STANDARD)。MPEG-2音频的主要通道(左、右)将保留与MPEG-1兼容。对原MPEG-1两通道极限增加离散的环绕声通道。即新的编码方法和体系将作为附加环绕通道使用。MPEG-2音频编码将应用到五个满幅宽带通道中。一附加的低频率增强通道和可达到的7个通道用于注解及多种语言的需求。该MPEG-2音频标准将延展MPEG-1音频编码的立体声和单声道编码(使用附加抽样频率16,22.05和24kHz),以提供改进的质量。
三、多媒体中的应用
1.计算机上的音乐
语音数字转化器用来采集并将音频带、唱片等媒体中的模拟声数字化。通过MIDI(乐器数字接口)将设备上的微型话筒或作曲键与计算机连通,就能交互式进行新型音乐录音。
一旦采集进来,音乐储存在硬盘或光盘上并进行编辑,还可通过与计算机连接的扬声器或头部装置进行回放。许多计算机现在都装备了语音处理器和扬声器。如果音频是由独立的光盘传送的话,就需附加扬声器,而不能通过计算机回放。如附图所示:

现在的工具已能有效地支持想利用多媒体系统来作曲和编辑音乐的人。而对其程序来说,与其说是录音,不如说是录MIDI信息。这些信息能被编辑和送回MIDI仪器中。乐器数字接口(MIDI)是计算机和数字音乐仪器之间的工业标准连接体。它提供录音、回放和合成的路径。MIDI编码还使用在一些多媒体编辑和控制系统中。MIDI包括的标准有:硬件(如电缆和连接线)和从一个装置送到另一个装置形成MIDI信息的电子信息。计算机用MIDI接口能通过MIDI通道控制别的与MIDI匹配的装置。通道有三种型式:接收数据的MIDI,送出数据的MIDI和通过延迟数据不读出信息的MIDI。该装置还需要一能发送和接收MIDI信息的微处理器。所有系统至少必须有一个用于MIDI的输入、输出和通过MIDI的通道。
2.计算机上的语音
对大多数想去开发多媒体信息系统的管理者来说,语音的使用是比音乐更重要的工作。直到现在供应商也未给出满意的答复。
合适的匹配器和软件现已能从数家供应商包括萍果、微软和Creatire La处获得。如Windows语音系统,包括16比特音频、话筒、耳机和软件的设计都能支持商业音频。它包括语音的确认(以便使用者能指导它确认指令),语音的合成和利用OLE将语音输入应用中。它还允许使用者将音频与数字视频合成。
语言确认技术,曾主要用于生理残疾的人,而现在已用在办公室等处。IBM已经开始为OS/2运用其个人听力系统。对于图文输入来说,每分钟支持听力大约为70-100个单词。该系统能用来控制计算机系统和它的运用功能,能对它训练每一个说话者的简单指令如“SAVE FILE”和“关窗”等。
如果语言确认技术系统应用在商业中,要想音质条件更好,必须降低环境噪音。其成功率由多种因素影响。像所使用词汇规模的合成、使用者的体位和说话的样子、话筒的型号和方位等。安静环境还需在办公室中使用视频PCS,高频PCS提供一强化模式,去抑制来自空调和风扇的背景噪音。
语音确认技术的应用很有发展前景,其中一个原因还是计算机系统远距离存取资料的需要。作为输入/输出手段,电话的应用早就流行,将它的多种应用高度集成,便能直接用电话来存取银行业和公用服务业数据库中的信息。例如,应用了智能识别功能后,信用卡公司可以开发出更为灵活的应用系统,通过声音操纵的菜单向用户提供服务。这将突破以往的按键式数字输入模式,而发展到更自然的以语言来交流的方式。而在目前可以使用的计算机电话系统上,小企业也像许多大公司那样拥有话音邮件、自动接线员以及移动电话寻呼,这样电话接通后,即便是一个小企业也常常给对方以大公司的感觉,这对众多中小企业来说是很有吸引力的。
在软件方面,微软公司已推出了Windows95,它是软件史上重要的事件之一。Windows95进一步开发了计算机的使用潜力,使Windows3.11版本升级。它有助于通过电子邮件和联机系统、多媒体和游戏系统及更丰富的教学软件扩大交流。这种软件给计算机用户带来极大方便,可以把计算机同更多日用消费娱乐设备连接起来。当前多媒体技术急待解决软件的标准化以及各类软件的兼容性,需要进一步发展支持多功能媒体处理的高级程序设计语言,研究新型人机交互技术。在实现各种数字信号的兼容以后,多媒体系统将极大地影响人们的政治、教育和文化娱乐生活,它不但改变了计算机的使用方式,并且将使人们的生活方式发生变化。(肖琼)