论文部分内容阅读
作为一种重要的转录调控元件,转录因子结合位点的识别已经成为当前的研究热点。准确的预测、识别算法有助于人们识别不同转录因子的目标基因,进而研究转录因子结合位点在上游调控区中的位置对转录调控的影响。转录因子的结合位点不是唯一的,为某一转录因子的结合位点建立一个统一的表述模型,称为Motif。目前的转录因子结合位点识别方法就是基于为已知的转录因子结合位点建立Motif模型,在基因组序列中对同类位点进行预测。本文研究了遗传算法在处理转录因子结合位点识别问题方面的可行性,提出了一种新的方法——基于遗传算法的转录因子结合位点识别方法(GATFBS)。遗传算法是模拟自然界生物进化过程的计算模型,是一种自组织与自适应的人工智能技术。作为一种全局优化搜索算法,遗传算法以其简单通用、鲁棒性强,适于并行处理以及应用范围广等显著特点,日益受到普遍重视。本文将遗传算法与转录因子结合位点识别问题相结合,以一致性序列模型作为保守序列Motif的描述模型,通过对Motif序列与待测序列的局部序列比对问题进行编码,将其转化成搜索空间中的优化问题,利用遗传算法来搜索最优解,预测转录因子的结合位点。本文算法的实现采用的是C++语言,应用该方法进行了Motif与待测序列的比对,通过实验证明了其可行性和有效性,并通过适当调节控制参数,有效地抑制了遗传算法的未成熟收敛问题。文章最后对算法的实验结果进行了分析,并对算法进行了评价,实验结果表明,这种新的方法是有效的,它在占用少量内存的情况下能够准确地识别出待测转录因子结合位点。