论文部分内容阅读
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)指的是在基因组水平上因单个核苷酸变异所引起的DNA序列的多态性。关联分析中尽管使用所有的SNP可以具有较高的效能,但是代价过于昂贵,而寻找包含大量信息的tag SNPs位点,不仅可以降低成本,而且可以尽可能的保持关联研究效能。目前,已有较多的方法被用于信息SNP选择的相关研究中。但是,这些方法仍然存在不足,主要表现在这些方面:时间复杂度较高、所选择信息SNP数目过多、预测准确度偏低或者所选取的信息SNP在后续关联研究中效能低等。因此,在本文中,针对这些不足提出一种基于智能算法的信息SNP选择方法以更符合实际研究的需要。主要的工作和创新点如下:本文首先描述了信息SNP位点的选择问题,并比较了各种国内外基于不同思路的方法之间的优缺点,并详细阐述了基于预测准确度方法的基本思想及主要步骤。然后为了降低算法时间复杂度,本文提出采用基于蚁群算法的信息SNP子集构造方法,设计了与信息SNP选择密切相关的基于预测精度的启发因子、路径选择以及自适应的信息素更新机制,提高了算法寻优的效率,从而提高了预测准确度。由于传统基于SVM的非信息SNP预测,需要多次循环以单体型中的非信息SNP。因此,本文为了提高预测阶段非信息SNP预测的准确度以及效率,充分利用ANN具有多输出节点的特点,并设计用于非信息SNP预测的输出函数,以提出基于人工神经网络的学习模型用以非信息SNP预测,从而可以做到一次训练即可对所有的非信息SNP位点进行预测。最后,为了便于其他生物信息处理研究人员有效利用本文的方法,基于VC6.0平台设计实现了一款可视化的信息SNP选择软件,该系统使用了本文提出的改进算法。本文利用该软件处理了多个模拟数据集以及真实数据集,并与其他方法在预测准确度以及运行时间上进行了比较,实验表明,本文的方法较当前主要信息SNP选择的算法,具有较优性能。