论文部分内容阅读
多语言语音识别研究是语音识别技术不断发展、不断进步的结果,是语音技术发展的一个必然趋势。本文以我们成熟的汉语识别技术为基础,在深入掌握、分析汉语识别系统的基础上,先后开发了英语、日语和英汉双语识别系统,同时使得我们的语音识别系统具有语言无关的特点,可以很方便的扩展到其它语言的识别。
论文工作的主要内容和贡献如下:■深入分析了汉语语音识别的各项实现技术,如特征提取,决策树建模和识别器的搜索框架等。从语境相关建模和声学特征两个方面详细研究了声调信息对汉语识别系统的影响。此外还以音素为建模单元,重新搭建了一个汉语识别系统,从反面验证了声韵母建模的优势。
■深入分析了英语的语言特点,详细考察了主流的英语语音识别技术,开发出英语识别系统,包括初始模型的生成、问题集的设计、基于决策树的三音子模型训练和识别搜索过程。在方差建模技术中引入了贝叶斯准则用于确定方差变换类别的个数。采用对数谱域的特征补偿算法,在不影响纯净语音识别效果的情况下提高了系统的抗噪性能。此外,还采用数据驱动的MLLR算法对非母语发音的口音自适应问题进行了研究。
■深入分析了日语的发音和语言特征,定义了日语的声学基本建模单元,采用基于决策树的三音子建模方法,快速开发出我们的日语语音识别系统。提出了基于统计方法的端点检测算法,从统计学的观点出发估计端点的门限,具有较为鲁棒的抗噪性能。此外,还针对跨语言识别的方法,考察了从汉语、英语和汉英双语到日语的跨语言识别,给出了一些初步的实验结果。
■多语言语音识别的一个难点就是如何有效控制识别单元扩大带来的建模单元急剧增加的问题。我们以汉语和英语为研究对象,详细研究了汉英双语的混合声学建模问题。从直接合并汉英双语的建模单元到IPA映射,再到基于不同距离度量(Bhattacharyya距离,似然度距离和最大互信息距离)的自动聚类算法,考察了各种方法的优缺点,探索出一条双语建模的有效途径。引入语言有关的问题,进一步改进了普通的决策树建模算法,使得问题的分裂更容易进行下去,对声学建模的精确性有一定的提高。