关于汉语的语音识别

Author: 清华大学蔡莲红副教授 Date: 1993-07-30

        汉语不同于英语。汉语的每一个字都是一个音节，一个音节又都是由声母和随之的韵母组成。为此不同单位从孤立音节的识别研究起。如十个数字的识别。
        近几年国内先后完成了几个汉语全音节识别系统。
        如北京四达技术开发中心的“四达___863声控汉字系统”，使用者可口呼一、二级汉字表中读音。
        按单音节呼入，识别率很难提高，况且同音字处理影响效率。清华大学计算机系、中科院自动化所研究了以词作输入单位大字表语音识别。如清华研究的系统以单音节作为识别基元，对口呼多音节词进行音节切割，分体识别。再用搜索匹配算法计算词一级的整体识别率。
        在八五计划期间，国内实现了汉语全音节识别，但还有不满意之处：如识别率、系统的适应性、使用的方便程度。
        非特定人语音识别技术难度大，也取得了突出的成果。如清华大学的军事用语非特定人识别系统，词汇208个，识别率接近100％。北京星河智能计算机研究所的旅游用语识别系统，词汇220个，词中音节数2～8个，非特定人呼入，识别率几乎达到100％。可见国内中字表的非特定人汉语识别系统，已接近实用。
        汉语特定人中字表识别系统已在使用。如清华大学计算机系研制的“微机声控查号”系统已实际使用多年，用户仅需口呼单位名称，计算机便可查出该单位的电话号码，并以合成语音通过电话线报给用户。
        国内有人研究听觉模型，以指导特征抽取；研究汉语语言学，以语义、语法来提高识别率。总之，有很多问题等待我们去研究；也有更多领域期待我们的研究成果。