论文部分内容阅读
在生物遗传信息传递的整个过程中,基因组通过复制把遗传信息由亲代传递给后代,使后代表现出与亲代相似的遗传性状。同时DNA复制也是极易引发基因突变和基因重组的过程,复制过程的研究已经成为国际生物学研究热点。而精确识别DNA复制起始位点是整个研究的初始阶段也是必须阶段,对整个生物遗传信息传递过程研究至关重要。目前国内外的研究方法存在数据集冗余,缺乏DNA序列的物化特征和长程关联特征,预测算法单一以及缺少在线服务等缺点。本文首先针对真核单细胞模式生物酵母基因组的复制起始位点进行了生物信息学研究,提取DNA序列的碱基频率特征以及物化性质特征,通过机器学习以及统计学算法构建了预测模型,并提供在线预测服务,同时对整个酵母基因组进行扫描预测,然后统计分析了复制起始位点在酵母基因组中的分布。在对酵母复制起始位点预测研究取得较好结果的情况下,将预测模型扩展到相对复杂的人类基因组,并且最后取得一定的预测效果。首先,我们选取实验上验证过的酵母序列构建正负数据集,并去除数据冗余,其次我们使用了一种新的特征提取方法即伪k联体核苷酸组分,包括序列组分频率特征以及能够表征序列空间结构的六个参数提取的特征。这改进了当前研究中忽略序列关联信息的缺点,然后我们用支持向量机分类算法对复制起始位点序列构建预测模型,留一交叉验证的结果显示构建的模型整体预测精度达到83.72%,然后我们加入序列的裂解强度和序列弯曲度特征,精度进一步提高到84.09%。我们通过Weka软件和其他预测算法进行对比。支持向量机能取得最好的预测效果。同时我们对正负样本的六参数属性做详细对比,发现Rise,slide,tilt具有明显的差异性,我们用本文提出的算法对酵母全基因组进行扫描,结果显示385条实验验证的复制起始位点序列可以被正确识别,精度达到93.9%。我们将预测模型做成在线服务iOri-PseKNC,通过访问http://lin.uestc.edu.cn/server/iOri-PseKNC可以免费使用。我们同时分析了复制起始位点在酵母基因组中的位置分布,统计分析了其与核小体,启动子,基因片段之间的关联性,发现复制起始位点区域核小体占有率较低,5015条启动子序列中有31.46%的序列和复制起始位点之间的距离小于500bp。为了探究多细胞真核生物的复制起始位点特性,也为了验证我们算法的通用性,我们用同样的方法选取人类基因组数据进行研究,采用支持向量机算法能够达到63.01%的精度,通过Weka软件采用随机森林算法能够达到75.04%精度,通过分析人类正负样本的弯曲特征和裂解强度特征,发现复制起始位点序列相对于临近区域有明显的差异。