论文部分内容阅读
水平基因转移(horizontal gene transfer,HGT),又称横向基因转移、侧向基因转移(Lateral gene transfer,LGT),是指在不同的生物个体之间或者细胞器(同一细胞内)之间的DNA片段的交流。水平基因转移事件是一个重要的驱动力,促进微生物基因组进化的多样性,呈现出深远的影响。随着可用基因组数据量的增加,我们越来越认识到水平基因转移对生物基因组多样化的重要性,水平基因转移预测方法愈加显得重要。而最早的方法主要集中在简单地确立水平基因转移对基因组进化产生了重大影响,随后方法的有效性与精确性为某些异常基因为水平转移基因提供了更大的信心。预测异常基因为水平转移而来的基因的方法逐渐形成两类:系统发育方法与参数方法。系统发育方法研究各基因组之间基因的分布来检测那些有明显异常的模式。与此不同,参数方法也称为基于组成特征的方法,检验单个基因组内基因的适当关系,以寻找在其组成特征上异常的基因。系统发育方法是耗时且不充分鲁棒的,而参数方法可以在单个基因组中进行,对所研究的基因组不需要其大量诸如直系同源序列配对的先验知识,计算量小且具有很大的提升空间。本文是基于参数方法的研究。然而,在已有的特征方法中,主要存在两个问题:一是以往方法都是针对整个基因组,这难免造成单一特征对整个基因组表达不精确,导致预测精度不高,本文中我们将基因组分成若干基因功能类,并按不同功能类选取不同特征以达到对基因组的精确表达,提高预测精度;另一个是通常只使用几个基因组来检验预测方法的有效性,由于数据少导致实验方法并不一定具有普遍性,本文中我们选取了全部能找到的326个基因组用于实验。我们发现水平基因转移对基因组功能具有一定的偏好性,同一基因功能类可以找到一个对应的较优特征进行有效表达,据此我们给出了每一个基因功能类的推荐特征表达,对其它原核生物基因组的水平转移基因预测具有较强的指导意义。本文的方法是首次采用对基因组先按生物功能分类后水平转移基因预测的方法,尤其是在论文最后,给出了每一功能类的推荐特征表达,这对数据量越来越大的基因组的水平基因转移的识别是有必要且有重大意义的。