支持向量机在DNA数据分析中的应用研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:l1301wz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计学习理论是在20世纪90年代逐渐成熟的一个比较完善的机器学习理论。以这种理论为基础的支持向量机(Support Vector Machine,简称SVM)与以往的学习机器相比能够较好的解决小样本学习问题、具有很好的鲁棒性以及低的运算成本。实现这种理论的支持向量机算法已经成为机器学习和知识挖掘的重要工具。生物信息学是生命科学、数学、计算机科学等学科交汇而成的一门交叉学科,而DNA序列是生物信息学中具有代表性的一类数据。随着人类基因组计划的开启和顺利完成,DNA序列分析的发展脚步得到了有力的推动。研究DNA序列的数据内涵是后基因组时代的最重要的课题之一。寻找某些特征片段在DNA序列中的规律对生命科学、人类遗传学等都有着非常重要的意义。本篇论文采用SVM算法对DNA序列分类实验。首先用滑窗法从已知分类的DNA序列中提取特征,再将特征序列生成出特征矩阵向量作为输入向量,然后运用R语言软件实现了基于支持向量机的DNA序列分类过程。首先调入class包,再利用网络搜索法和10折交叉验证寻找最优参数,这种寻优过程如果有参数位于给出的范围边界则需要将范围继续放宽再进行寻优寻找出最优参数构建SVM模型,运用多种核函数进行分类实验最后统计分析选出最优的核函数。本文运用的SVM分类器的分类效果可以较好地运用到实际的DNA数据分类中,且具有一定的推广性能。该算法也可以推广到多分类问题中。
其他文献
学位
若有限非循环p-群满足|G|||Aut(G)|(|G|>p2),则群G叫做LA-群.Davitt RM,俞曙霞,班桂宁等利用中心及中心商的性质已经证明了很多有限p-群是LA-群.在此基础上,本文围绕着中心商等于P
工程造价管理贯穿于工程建设全过程,从工程建设立项到工程项目结算,每个环节都存在造价管理。因此要在工程建设过程中合理确定和有效控制工程造价,加强工程造价管理。
期刊
本文主要论述了建筑设计在建筑抗震设计中的重要作用,指出了建筑设计是结构抗震设计的基础。建筑设计的是否考虑好抗震要求,将直接影响建筑物的抗震能力。好的建筑抗震设计必
期刊
本文阐述了我国大型建筑企业实施知识管理的必要性。通过分析知识经济时代给我国建筑企业带来的挑战和我国知识管理的发展现状,研究了企业制定知识管理策略的理论依据和核心思
期刊
城乡统筹是目前我国城乡发展的重大战略决策,其核心是“突破城乡二元结构”、“城市反哺农村”,是我国社会经济城乡一体化协调发展的重要举措。针对城乡统筹给村庄发展带来的巨
期刊
鞅论是随机过程的一个前沿理论,鞅论的方法已成为一种强有力的研究工具,正朝着其它一些数学分支渗透与交叉,并与其结论结合逐渐形成一些新的研究分支,本文则是用鞅分析方法探讨广
进入新世纪后,现代建筑物的综合性、复杂性在不断提升,在其建设施工的过程中集合了多种专业。一定程度上来说,工程项目建设施工中各个专业的配合度的如何决定了工程建筑的工程质
期刊
风险理论是近代数学的一个重要分支,是保险数学的一个重要理论,是当前精算界和数学界研究的热门话题,而破产概率作为保险风险中的一个重要测度方法,成为风险理论研究的核心内容,因