论文部分内容阅读
基因组上把单个核苷酸由于发生转换或者颠换的现象而引起的DNA序列的多态性称为单核苷酸的多态性(single nucleotide polymorphism,SNP)。尽管对样本中所有SNP位点进行基因分型可以为疾病关联研究提供准确的遗传信息,但其成本过于昂贵。寻找具有代表性的标签SNP位点集合不仅可以降低基因分型的成本,并能尽可能地保留原有变异信息。目前已有一些方法被相关研究者提出用于标签SNP位点选择,但这些方法依然存在着预测准确度偏低、时间复杂度较高、选择的标签SNP位点数目过多等不足。因此,针对这些问题,本文提出了两种基于仿生算法的标签SNP选择方法。其主要创新工作主要包括如下两点:提出一种基于模糊聚类和遗传算法的FCGA标签SNP选择方法,该方法主要包括候选标签SNP集合的形成,标签SNP集合的构造以及非标签SNP的预测三个阶段。第一个阶段利用SNP位点间的连锁关系通过基于等价关系的模糊聚类获取候选标签SNP集合,这样不但可以减少位点间的冗余,并且可以降低后续优化过程的问题规模,从而降低时间复杂度。在标签SNP集合构造阶段,该方法利用带精英策略的遗传优化算法对候选标签SNP集合进行优化,该阶段充分考虑了标签SNP选择问题的特点,设计了合理的适应度函数,使得选出的标签SNPs在非标签SNP预测时具有较高的预测准确度,并且该方法不需要反复利用预测模型构造信息SNP子集,从而大大减少了标签SNP的选择时间。提出一种基于改进离散粒子群算法的FCBPSO标签SNP选择方法,该方法同样采用了三阶段运算框架,第一阶段和第三阶段与第一种方法相似,不同的是在第二阶段该方法利用改进的离散粒子群算法优化候选标签SNP集合。为了能够更快地找到近似最优解,该阶段根据算法搜索最优解过程的特点,在迭代前期和后期采用了不同的速度和位移更新公式,提高了算法的收敛速度,加快了标签SNP的选择。另外,在优化过程中引入了修正策略,使得方法能够根据预先给定的标签SNP数目进行选择。本文提出的两种方法在预测准确度上的表现不相上下,但第二种方法的运行时间更低,并且通过引入修政策略,弥补了第一种方法不能够根据预先给定数目选择标签SNP的不足。最后为了证明两种方法的有效性,我们将这两种方法与当前流行的选择方法进行了对比实验,实验表明,本文提出的两种方法都具有较好的性能。