基于WEKA平台和多分类器的少数民族语种识别研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:liongliong428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国地域辽阔、民族众多,在各民族人民进行信息交流过程中民族语言是最重要、最方便和最常用的一种形式。随着信息技术的发展,数字化的语音在人们的生活中的使用日益普及,人们对数字语音信息的获取、加工和处理提出了更高的要求。语种识别(Language Identification,LID)(?)(?)目的是,利用计算机分析某说话人的语音,然后判断该语音属于何种语种。本文基于少数民族语种识别数据库及WEKA平台,采用多特征参数和多种分类器,探索提高识别率的方法。论文的主要工作包括:1.分类器选择实验:首先从语音波形中提取SDC声学特征参数和音频率F0特征参数,然后编写程序把参数转换为WEKA软件所支持的格式,最后分别利用NaiveBayes (NB)、LISVM、MultilayerPercettron (BP)、RBFNetwork (RBF)、J48等5种分类器进行语种识别训练和测试,分别给出测试结果。实验结果表明,LISVM和RF两种算法具有较好的性能。2.研究SVM核函数对语种识别结果的影响。实验结果表明,利用SDC声学特征参数,在LISVM分类器中采用nu-SVC模型,则其识别率可达98.8%。3.基于基音频率FO特征参数,进行随机森林(RF)与其他分类器的对比实验。实验结果表明,分别对于男、女数据集随机森林分类器的识别率最高可达100%,但对于男女混合数据集,其识别率相对较低。4.在实验的基础上探讨了训练样本数对语种识别结果的影响。无论C-SVC模型或是nu-SVC模型,训练数据越多,识别率也越高,有利于判决,其中nu-SVC模型的识别效果最好。尽管随机森林在多种分类器中的识别率是最高(100%),但把任一个语音数据分成一个训练文件和一个测试文件时,其识别率也会明显下降。
其他文献
[目的]观察消炎汤、保留灌肠联合西药治疗慢性结肠炎疗效。[方法]使用随机平行对照方法,将80例住院患者按病志号抽签法简单随机分为两组。对照组40例柳氮磺胺吡啶片,1g/次,3
消除贫困、实现共同富裕是社会主义的本质要求,也是实现社会公平正义的具体体现。解决城市贫困群体的社会保障问题是精准脱贫任务的重要组成部分。目前城市贫困群体保障政策
本文从不同层次讨论了中间商控制供应商这种逆向控制现象形成的根本原因、具体原因与自身动机。分析结果表明,中间商地位提升的根本原因是生产力的发展;具体原因包括垄断优势
目的了解综合医院住院患者的自测健康状态及其影响因素。方法选择综合医院符合条件的住院患者,科室测评名额按其现有住院人数比例分配。由受过培训的专业人员对患者进行指导自
类别股份制度是通过对不同类别的股份赋予不同的权利义务,进而实现股权结构多样化的制度。由于其具有构建合理的公司股权结构、满足投资者的不同投资偏好、促进资本市场稳定发
近年来,制药行业研发能力出现衰退的迹象。进行中的众多新药研发项目被迫中断。制药企业有改变这种创新乏力局面的需求。本文试图从人力资源管理的角度入手,分析人力资源管理
基于岩石学、测井相、地震相和砂岩时空分布研究,对苏丹Muglad盆地Fula凹陷白垩纪断陷沉积体系分布进行预测,建立两期断陷沉积模式。Fula凹陷白垩纪发育两期断陷8个三级层序,
目的:探讨靳三针治疗中风后痉挛性瘫痪的最佳介入时间及穴位配伍。方法:采用多因素分析法,对靳三针疗法的针刺时机、选穴配伍这两个因素两个不同水平进行2×2析因设计:A组(中
目的:本文以病例报道的形式将微波根管消毒与根管消毒药物氢氧化钙制剂进行对比,观察根管治疗期间急症发生率及疼痛程度,研究观察微波治疗在根管消毒方面的临床疗效。方法:收集临