论文部分内容阅读
语种识别是利用计算机对一定长度的语音材料进行处理,判别其所属语言种类的过程,是语音识别的一个重要研究方向。随着经济全球化的不断深入,语种识别在日常生活、国防军事和公共安全等领域都有着极为广泛的应用前景。
一般来说,每一种语言都具有各自相对独立的音素集、韵律、词汇和句法、语法,这些差异为语种识别的实现提供了可能。根据建模思路的不同,主流的语种识别方法可以分为两大类:基于声学模型的方法和基于语言模型的方法。其中,基于语言模型的方法首先使用语音识别技术将语音信号符号化为音素序列,然后利用不同语种中音素的搭配呈现不同的规律进行语种的识别。这种方法的优点是性能稳定,扩展性好,颇受国内外研究人员的推崇。
本文即围绕语言模型方法,在基于音素搭配关系的框架下,对语种识别方法进行了较为系统的研究,首先搭建了从音素识别器到统计语言模型的完整系统,然后着眼于降低算法复杂度、提高系统识别性能等方面。同时,借鉴信息检索中词袋(Bag of words)的思想,引入特征选择和隐含语义分析等方法,挖掘不同语种统计语言模型中的区分性特征和隐含语义结构,并取得了一定的进展。具体的研究工作包括以下几个方面:
第一,比较了在音素识别前端相同条件下用不同解码方式对语种识别系统性能的影响,通过实验表明了用词图的输出结构比最优序列能够得到更为丰富的音素识别信息,同时构造了新的核函数,较大程度地提高了语种识别的准确率。
第二,在音素识别结合支持向量机的语种识别系统中,针对特征矢量高维、稀疏的特点,对表征每个语音段的特征矢量采用关键词选择的方法筛选特征,降低计算复杂度,减少特征的冗余度,进一步改善了语种识别系统的性能。
第三,分别引入两种隐含语义分析的方法——隐含语义分析方法和概率隐含语义分析方法,选取更加鲁棒和具有代表性的隐含语义特征,缓解了高维和稀疏的问题,降低了算法复杂度,提高了基于音素识别结合支持向量机方法的语种识别准确率。