语音识别电路是一种能识别包括人类语言、动物叫声、物体运动声以及风雨雷电声在内的一切自然界声音的高级语音处理器。语音识别电路通常是基于最简单的8位或16位微处理器,内部带有专为语音识别算法设计的电路单元。语音识别电路结构比较简单,价格相对便宜,特别适合在独立场合及以下电子产品中应用:声控小家电、电子门锁、互动对答玩具、游艺机、自助导游问讯机、移动电话、智能机器人、轿车声控装置、智能语音考勤机等新颖电子电器产品以及工业自动化控制等众多领域。本文所要介绍的应用实例——宠物“语言”翻译器,就是采用语音识别集成电路制作而成的,这是一个非常有趣的应用电路方案。
一、RSC系列单片语音识别电路一般性介绍
RSC
系列语音识别电路支持以下语音识别合成技术:SD——特定人语音识别技术,使用前需进行语音训练,语音识别以用户自行训练的语音模板为依据;SI——非特定人语音识别技术,无需进行语音训练,即可进行语音识别,语音识别以事先制作好了的语音模板为依据;SV——身份识别,能识别用户身份,其识别方式与SD类似,但使用SD时某个用户训练的语音命令,其他人只要说话跟该用户很接近,也能通过语音识别,而使用SV则只有该用户才能通过语音识别,其他用户将被拒绝通过,即SV不但能识别某个命令,还能识别用户身份;RP——录音和回放,它以14kbit/s的数据率存储声音在外置RAM上,根据回放的质量和数量要求,也可以改变片上的压缩率。录音过程中出现完全静音时,微处理器会自动去掉静音这一段来改善声音质量,并节约存储空间;S & MS——语音及音乐合成,能说会唱的语音效果是通过在片上的微处理器读取ROM上的数据实现的。SENSORY合成技术使用了时域技术来压缩语音,使数据率在10kbit/s以下,另外使用了加强的ADPCM算法来回放声音。语音合成技术降低了对手工指令的依赖,使人机界面更为友好。音乐合成技术能产生四首模拟乐曲,用户可以用一种乐器的声音和音阶来自定义乐库,也可以产生DTMF音,使RSC语音识别电路实现直接拨号功能。读者欲了解语音识别电路的更详尽资料,请浏览中国语声电子网:www.3cew.com。本制作采用SD 特定人语音识别技术软件支持。
二、RSC364语音识别电路模块
RSC364
语音处理器是语音识别模块中最核心的大规模集成电路,它内含话筒放大器、语音特征数据存储器、24×24位乘法器、两个计时器、外部存储器接口、A/D、D/A转换器和PWM输出直接驱动扬声器、语音识别算法电路、内建64K字节ROM、2.5K字节RAM、16个I/O控制口和8位微处理器等单元电路。外围元件少,一个完整的识别系统仅由RSC364和少量外部元件组成:电池、扬声器、驻极体话筒、音频输入的支持电路。工作电压为2.4~5.5V;工作电流为10mA,待机电流小于5μA。
图2是RSC364模块的各主要器件位置平面图。采用28F020的00000H~0FFFFH 作为程序存储空间,用来存储控制程序、SD语音识别模板及提示音数据,SST29EE020或24LC65存储器作为数据存储空间,用来存储SD/SV语音命令识别模板、SD语音命令及RP的录音,以及其他应用数据。28F020既可以存储语音识别模板又可以存储语音录音,SST29EE020只可以用来存储语音识别模板,通常每个SD/SV语音命令时间长为2.5s,语音命令识别模板大小为128Byte。语音录音则有3种压缩率:4067Byte/s、3389Byte/s和2711Byte/s。该模式用于提示音数据较少,可以与控制程序一起放在程序存储空间。图2中的主要元器件功能说明如下:J1 为电源插座,电源极性如图2所示,S5为电源开关。J2、J3 为RSC-364 I/O口及VCC、GND的引出端,其中J2的5~8端分别为P0.4~P0.7,J3的1~8端分别为P1.0~P1.7。U1为程序存储器28F020的插座, U5为数据存储器SST 29EE020的插座, U4为74HC08,用于不同存储结构的选择及存储器的读写控制, U6为数据存储器24C65的插座。JP2为话筒插座。U2为LM386, 用于RSC-364 DAC输出放大, 电阻R3用于调节DAC输出的音量。JP3为PWM输出,可直接驱动8W扬声器。U3为 RSC-300/364。BR1、BR2、BR3为存储结构选择跳线。S1为复位键,S2为A 键,S3为B键,S4为C键。
三、RSC364识别电路模块使用方法
1.训练
分为依次训练(即从命令1到命令16)和选择性训练。
(1)依次训练
按下S2键,扬声器发出“请说命令1”,待黄灯亮后,对着话筒输入一个命令语句,如输入成功,扬声器则发出“请重复”,提示用户重复一遍刚才输入的语句,训练成功则发出“请说命令2”,进入下一个命令语句的训练,重复上述步骤,直至16个命令全部训练完毕。本制作最困难的就是采录宠物叫喊声的声音样本。
(2)选择性训练
按下S2键,在黄灯点亮之前,按下S3键,依次发出“2、3、4....16”,待听到用户想要训练的命令序号“X”之后,按下S2键,发出“请说命令X”,在黄灯亮后,用户输入一个命令语句,如成功则提示用户重复再说一遍,训练成功。如需选择再重复上述步骤进行。在上述训练过程中,如说话声音太大、太小或说得太快等,电路都会发出相应的提示语句。
2.自动识别工作状态
本电路通电后自动进入识别工作状态。上电时黄灯瞬间闪亮一下即熄灭,发出“哔”一声后,黄灯再次亮,表示已进入识别待命状态。识别语言或声音成功,扬声器会发出相适应的语句,并在模块的I/O口输出相应的电平脉冲,其对应关系如表2所示。表中的“1”表示高电平,“0”表示低电平。各I/O口的初始值为“1”。
当你心爱的宠物狗肚饿时发出某种叫声时,该翻译器识别检测到与电路内部存储的“主人,我饿了!”叫声信息特征相一致时,扬声器立即发出“主人,我饿了!”和主人的回应声“来啦!小‘宝贝’”的语音,同时J3口输出高(低)电平,进而驱动继电器(或其他执行元器件)执行相应的动作或工作程序。
该翻译器如需要退出识别工作状态,可在黄灯亮时,按一下S3键,“哔”一声后黄灯熄灭,则表示已退出识别状态,如需再次进入识别状态,按一下S3键即可。
3.删除
如需重新输入命令语句,必须将原先存储的信息全部清除。删除时,同时按下S2、S3两键,发出 “哔、哔”两声,即表示清除完毕。
文/王南阳

