论文部分内容阅读
随着非编码RNA在生物学中功能性研究的发展,越来越多的研究证据表明非编码RNA广泛参与疾病的防治、发生和发展过程,尤其在恶性肿瘤的增殖与侵袭过程中扮演着重要角色。在海量的基因调控网络数据中进行功能预测目前已然成为工业界和学术界研究的热点,特别是预测与疾病发生、发展密切相关的nc RNA。此研究对于鉴定疾病诊断、治疗和预后的候选nc RNAs具有极其重要的生物医学价值。然而,随着这些相互关联网络规模的不断扩大和结构的复杂化,从中精确定位出具有显著关联关系的nc RNA-disease是极具挑战性的。统计学和机器学习方法因其具有高效且稳定的特点,成为解决这类问题的一大利器。本课题基于基因调控网络数据,引入统计学方法和机器学习技术,主要包括基于超几何分布方法、高斯核函数和改进的粒子群算法,并提出了一种新型的智能预测模型。在此基础上,本课题通过对非编码RNA和疾病的关系预测进行相关的调研、研究、实验和分析,实现了显著的nc RNA-disease关系预测系统并展开相关的实验进行验证,具有重要的学术意义。本文的工作描述如下:(1)对基因调控网络中显著ncRNA-disease关系预测的研究策略进行调研从基因调控网络数据的特性与研究策略出发,对现有的预测模型进行介绍、分析和比较,并对功能相似性进行数据分析角度的定义,递进地阐述预测模型的研究思路与整体策略。(2)构建一种高效和精确的显著ncRNA-disease关系预测模型提出一种基于统计学方法和改进的PSO算法的混合预测模型。首先,采用超几何分布思想和Bonferroni方法确定候选的非编码RNA与疾病关系;其次,采用高斯核函数和距离准则等方法进行相似度矩阵和距离矩阵的构建。在此基础上,运用改进的粒子群算法进行非编码RNA的功能模块聚类;最后,将每个功能模块中与非编码RNA关联的疾病集合求交集,精确锁定每一个非编码RNA与疾病的关系。(3)模型研发、验证与评估根据不同的数据来源以及不同的非编码RNA类型,将数据分成了三个不同的实验数据组。经过实验得到模型的最优设置参数,并对实验结果进行分析与性能评估。实验结果证明,该模型能够通过基因调控网络对非编码RNA与疾病关系进行精确预测,达到良好的效果。