手机翻译时代的到来
网络通信
除了时下正大行其道的彩信外,手机带给你的下一波惊喜会是什么呢?很快大家就会看到,不同国籍的人通过手机交流时,手机也能自动充当“翻译”。
今年,中科院和松下电器等共同研发的口语自动翻译机,已能应用于移动终端和新一代手机上。由于采用了“关键词”技术,所以翻译误差低,纠错性和可靠性较高。
如果在2008年北京奥运会期间,奥运村装上这套翻译系统,各国人士在奥运村内或周围就可以通过手机进行无障碍沟通;甚至在奥运会比赛信息发布时,也可以利用这套系统,让所有的参赛者和观众在第一时间得到比赛信息。当然,这此还需要和电信等相关部门进一步合作。
小资料:翻译机目前支持1000多个基本语句和1万多个词汇,同时突破了语音翻译小型化的难题,系统仅需8MB内存就可以工作。
放在口袋中的翻译器
目前汉语识别技术的研究和开发,主要在四个方面:语音到文字转换系统、人机对话系统、人机控制系统和同声翻译系统。
语音到文字转换系统:将人们所说的话逐字逐句地记录下来,可用于日常的文字输入工作,还可用于许多特定的场合,如会议记录整理、采访录音整理、电视台的时事字幕制作系统等等。
人机对话系统:指人和计算机在特定的领域中交换信息,以达到查询信息等目的。可以用于各种信息咨询领域,如查询电力、电信和煤气等各种费用;咨询股票、天气、电话号码、航班车票等各种信息,方便人们通过电话快捷地获取各种信息。
人机控制系统:人们通过语音命令控制计算机,可用于声音导航、工业控制等多个领域。
同声翻译系统:能够进行多语种之间的同声翻译,帮助不懂外语的人自由地与外国人交谈。
如今,汉语识别技术不仅可运用在PC平台上,而且会越来越多地出现在嵌入式系统中,用来解决各种形式的输入问题和复杂的操作问题。虽然目前还存在着一些技术上的难点,如目前以电话为基础的语音识别系统只能使用小词库。但据相关专家预测:自动翻译电话语音系统在2005年前可实用化,2010年将进入千家万户。
梦想与实践
C-STAR(国际语音翻译高级研究组织)对大多数人来说是一个陌生的词汇,但正是这个国际组织在为人类实现语言互译的梦想而奋斗。
C-STAR成立于1991年,其目的是要建立语音翻译技术的国际合作研究关系,实现资源共享,推动语音翻译技术研究的快速发展,最终实现基于自动翻译技术的全球自由通讯。
1996年9月,该组织已发展为C-STARⅡ,拥有日本、美国、德国、意大利、韩国和法国6个核心成员,研究的是日、英、德、意、韩、法6个国家的语言。我国的中科院自动化所模式识别国家重点实验室(以下简称模识室)于2000年10月正式成为其核心成员。
国际七国语言电话语音同声翻译项目从2001年正式启动,到2004年结束。主要是利用电话网络系统和国际互联网,实现通过移动电话、计算机终端等设备进行不同语种人类之间在旅行期间的场景对话,其目标是在2004年搭建一个实用化的系统和平台。
目前,通过C-STAR 7个核心成员之间资源共享、接口规范和协调工作,各国研究组织共同建设的语言互通系统正逐渐清晰。
小资料:这一系统主要由C-STAR在7个核心成员组织中安装的7台服务器组成,每台服务器负责本国语言与中间语言的互译工作。
实现的原理
C-STAR设计了一种中间语言,每个核心成员只负责本国语言与中间语言的互译。这样,一个核心成员要与另一个核心成员通话时,本地语言会通过本地服务器翻译成中间语言,中间语言再通过网络传输到目标成员的服务器后,被翻译成当地的语言。
之所以这样设计,是因为如果在7个国家之间分别进行两两互译,那每个核心成员要同时解决与其他6个国家的翻译问题。也就是说,总共将有42种不同语言间的翻译工作。从硬件条件看,如果每台服务器只负责两种语言之间的翻译,则每个核心成员就只需要有1台服务器即可。
定义中间语言是目前的难点,因为各个国家的语言带有明显的文化差异,中间语言必须保证在翻译中语义不丢失。一个简单的例子是,美国人所说的日历都是公历,而我国很多时候说的是农历。如果简单地将“大年初一”翻译为“某月某日”往往丢失了“大年初一”这个日子包含的特定含义。
小资料:在模识室的演示电脑上,实验者打开模拟的海外旅馆预订系统,对着麦克风用中文询问房价,电脑立刻用汉语回复一个价格。同样,实验者询问价格折扣、预定等都通过语音顺利完成。
在2004年C-STAR Ⅲ(第三期计划)结束时,一般普通话比较标准的人,无论在互联网,还是在电话、手机中都可以实现可靠的语言识别和自动翻译。在专用领域的翻译将达到100%,机器对文本的翻译准确率也将达到80%以上(目前的自动翻译准确率在60%左右)。