论文部分内容阅读
随着生命科学技术日益蓬勃,且取得了许多重大的成果,此外分子生物学的研究也是发展迅猛,由此产生的生物基因数据呈指数倍的增长,形成了海量的基因遗传数据。这么多海量数据蕴藏着大量具有重要科研价值的信息,因此挖掘出遗传疾病的致病位点对人类生命健康和疾病的预防、治疗具有积极的意义。文章研究的主要目的:结合基因遗传学和计算机科学建立合理的评价模型,对基因位点数据进行分析,挖掘出隐含在基因位点数据中与疾病显著相关的位点。
文章主要选取了三种不同类别的方法来对致病位点数据进行了研究:分别是统计学中的卡方检验、信息值计算以及逻辑回归分析方法;基因遗传学中的显性遗传模型方法;数据挖掘技术中的随机森林建模方法。然后对这三种不同研究方法的结果进行了分析、对比和交叉验证,接着提出了一种基于基因遗传显性模型和随机森林模型相结合的两步挖掘方法,并将其运用在位点数据集的挖掘上。经过对数据集进行实验处理和分析,并将实验结果与统计学方法对比和交叉验证,以及针对实现结果对随机森林模型进行了评价和分析。表明本模型能够实现与疾病相关的致病位点检测,具有较高的准确性和有效性,且本模型比较简单易于实现,针对此类问题具有极大的普适性。
最后通过对随机森林模型的研究,发现节点分裂算法会影响随机森林模型的性能。因此提出了一种基于线性函数关系的方法来优化节点分裂算法,来实现随机森林模型分类最优的目标。文中提出的优化方法就是利用线性关系将C4.5和CART这两种算法进行组合,然后重点分析和研究了综合算法在随机森林模型上的应用和对随机森林分类性能的改善程度。为了验证优化后算法的分类性能,将该算法运用到不同数据集上进行实验,通过对实验结果的分析发现经过优化的算法能有效提高随机森林模型的分类性能。
文章主要选取了三种不同类别的方法来对致病位点数据进行了研究:分别是统计学中的卡方检验、信息值计算以及逻辑回归分析方法;基因遗传学中的显性遗传模型方法;数据挖掘技术中的随机森林建模方法。然后对这三种不同研究方法的结果进行了分析、对比和交叉验证,接着提出了一种基于基因遗传显性模型和随机森林模型相结合的两步挖掘方法,并将其运用在位点数据集的挖掘上。经过对数据集进行实验处理和分析,并将实验结果与统计学方法对比和交叉验证,以及针对实现结果对随机森林模型进行了评价和分析。表明本模型能够实现与疾病相关的致病位点检测,具有较高的准确性和有效性,且本模型比较简单易于实现,针对此类问题具有极大的普适性。
最后通过对随机森林模型的研究,发现节点分裂算法会影响随机森林模型的性能。因此提出了一种基于线性函数关系的方法来优化节点分裂算法,来实现随机森林模型分类最优的目标。文中提出的优化方法就是利用线性关系将C4.5和CART这两种算法进行组合,然后重点分析和研究了综合算法在随机森林模型上的应用和对随机森林分类性能的改善程度。为了验证优化后算法的分类性能,将该算法运用到不同数据集上进行实验,通过对实验结果的分析发现经过优化的算法能有效提高随机森林模型的分类性能。