论文部分内容阅读
转录调控是基因表达的关键步骤,是生物体正常生命活动必需的环节。转录调控机制受启动子、组蛋白翻译后修饰等多种因素的影响,一旦这些因素缺失或发生突变,会导致严重的人类疾病。高分辨率质谱分析等实验方法耗时、费力,为此,本文从数据不平衡处理的角度,围绕启动子和组蛋白翻译后修饰位点,基于机器学习分类算法开发出高效率、高精度的预测模型,从而缩短实验工作量。主要成果如下:(1)针对已有模型识别具体类型启动子精确性较低的问题,本文提出了多层预测模型MULTiPly。本模型利用K-tuple核苷酸组成,基于二核苷酸的自相关组成提取样本序列的局部信息,采用双边贝叶斯和K近邻特征编码方法提取全局信息,并应用F-score和增量特征选择方法构建最优特征组合以进一步提升模型的分类准确率。此外,为了处理不同类型的启动子样本数极度不平衡的问题,本文在第二层预测模型中开发了五个子分类器来逐一确定启动子的类型。五折交叉验证和独立测试的结果表明,本文构建的预测模型MULTiPly对启动子及其具体类型的识别效果显著。(2)赖氨酸甲酰化是一种可逆的蛋白质翻译后修饰,涉及很多重要的生物学过程。本文首次将最远距离欠采样(Most distant undersampling)和安全水平合成少数类过采样(Safe-Level-SMOTE)方法相结合来建立平衡的基准数据集。其次应用双边贝叶斯、K近邻、氨基酸理化性质、氨基酸组成和转移四种特征提取方法来编码甲酰化位点周围的序列,构建了集成模型Formator。通过刀切测试和独立测试的比较结果表明,Formator显著优于唯一的计算工具LFPred。(3)本文归纳整理了 2000年以来原核启动子相关的40余篇重要文献提及的计算工具,研究启动子的生物信息学发展趋势。根据计算特征、分类算法、性能评估策略、网站可用性和具体物种,本文基于打分函数、机器学习和深度学习对计算工具进行分类。然后,使用从RegulonDB、DBTBS等数据库搜集的最新的独立测试数据集,通过在线网站或本地程序包,进行了大量的独立测试,以评估这些启动子计算工具的稳健性和可扩展性。