多语言语音识别技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:wenshicai2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多语言语音识别研究是语音识别技术不断发展、不断进步的结果,是语音技术发展的一个必然趋势。本文以我们成熟的汉语识别技术为基础,在深入掌握、分析汉语识别系统的基础上,先后开发了英语、日语和英汉双语识别系统,同时使得我们的语音识别系统具有语言无关的特点,可以很方便的扩展到其它语言的识别。 论文工作的主要内容和贡献如下:■深入分析了汉语语音识别的各项实现技术,如特征提取,决策树建模和识别器的搜索框架等。从语境相关建模和声学特征两个方面详细研究了声调信息对汉语识别系统的影响。此外还以音素为建模单元,重新搭建了一个汉语识别系统,从反面验证了声韵母建模的优势。 ■深入分析了英语的语言特点,详细考察了主流的英语语音识别技术,开发出英语识别系统,包括初始模型的生成、问题集的设计、基于决策树的三音子模型训练和识别搜索过程。在方差建模技术中引入了贝叶斯准则用于确定方差变换类别的个数。采用对数谱域的特征补偿算法,在不影响纯净语音识别效果的情况下提高了系统的抗噪性能。此外,还采用数据驱动的MLLR算法对非母语发音的口音自适应问题进行了研究。 ■深入分析了日语的发音和语言特征,定义了日语的声学基本建模单元,采用基于决策树的三音子建模方法,快速开发出我们的日语语音识别系统。提出了基于统计方法的端点检测算法,从统计学的观点出发估计端点的门限,具有较为鲁棒的抗噪性能。此外,还针对跨语言识别的方法,考察了从汉语、英语和汉英双语到日语的跨语言识别,给出了一些初步的实验结果。 ■多语言语音识别的一个难点就是如何有效控制识别单元扩大带来的建模单元急剧增加的问题。我们以汉语和英语为研究对象,详细研究了汉英双语的混合声学建模问题。从直接合并汉英双语的建模单元到IPA映射,再到基于不同距离度量(Bhattacharyya距离,似然度距离和最大互信息距离)的自动聚类算法,考察了各种方法的优缺点,探索出一条双语建模的有效途径。引入语言有关的问题,进一步改进了普通的决策树建模算法,使得问题的分裂更容易进行下去,对声学建模的精确性有一定的提高。
其他文献
在交通运输高速发展的今天,汽车正逐渐进入家庭成为生活的一部分。但交通事故频繁发生,其中约有半数以上是由于汽车制动性能不良引起的,这给汽车制动性能检测技术的研究、检
随着板带产品的广泛应用,板厚、板形作为衡量板带质量的重要指标,受到了极大的重视。板形缺陷模式识别与智能控制作为冷轧板带生产中不可或缺的一步,也是轧制出高质量板带钢的前
针对现行的第一代产品几何技术规范(GPS)所带来的产品各环节信息相互分离、传递不畅的问题,ISO管理局提出了新一代 GPS标准体系,该标准将产品的功能要求、设计规范以及测量方
在上海市高等学校科学技术发展基金项目支持的“多模式船舶机舱过程控制仿真及系统性能评价”(项目编号:03IK14)课题中,针对传统船舶机舱自动化系统的信息孤岛问题,提出了以基金
开关磁阻电机(Switched Reluctance Motor,SRM)是一种新型电机,其低廉的制造成本、坚固可靠的结构、优异的调速性能以及高效节能特性使之成为驱动电机领域不可或缺的一员。随
密码技术是保证信息安全的重要手段,是信息安全的核心。在各种密码算法中,分组密码具有加解密速度快、易于标准化和便于软硬件实现等优点,通常是信息安全中实现数据加密、数
近红外光谱分析技术具有快速现场检测、准确、不破坏等优点,非常适合于药品分析。不同于一般分类问题,真假药鉴别中存在类不平衡与代价敏感性问题。随着精密分析仪器的广泛使
流量测量在工业生产、农田水利、环境保护、国防事业、交通运输等诸多领域中占有及其重要的地位,对于保证产品质量、提高生产效率、促进科学技术的发展都具有至关重要的作用。明渠流量测量是流量检测的一个重要分支,广泛应用于城市供水引水渠、污水治理流入和排放渠、工矿企业废水排放以及农业灌溉等场合。这些场合的被测液体大都具有较强的腐蚀性和较多的杂质,而超声波明渠流量计采用非接触法进行测量,因而在这些场合得到大量应
科学发展到今天,人类的大脑在很大程度上仍然是一块未知领域。随着研究设备和手段的不断更新,越来越多的科学家对人脑的奥秘产生了浓厚的兴趣,因此21世纪被认为是脑科学的时代。
表面等离子体共振(Surface plasmon resonance,SPR)现象的选择性近场增强效应是许多新颖技术的基石,尤其是在表面光学检测方面,包括生物传感、超分辨率成像以及表面增强拉曼