基因转录调控相关的生物信息学研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:TTjj09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录调控是基因表达的关键步骤,是生物体正常生命活动必需的环节。转录调控机制受启动子、组蛋白翻译后修饰等多种因素的影响,一旦这些因素缺失或发生突变,会导致严重的人类疾病。高分辨率质谱分析等实验方法耗时、费力,为此,本文从数据不平衡处理的角度,围绕启动子和组蛋白翻译后修饰位点,基于机器学习分类算法开发出高效率、高精度的预测模型,从而缩短实验工作量。主要成果如下:(1)针对已有模型识别具体类型启动子精确性较低的问题,本文提出了多层预测模型MULTiPly。本模型利用K-tuple核苷酸组成,基于二核苷酸的自相关组成提取样本序列的局部信息,采用双边贝叶斯和K近邻特征编码方法提取全局信息,并应用F-score和增量特征选择方法构建最优特征组合以进一步提升模型的分类准确率。此外,为了处理不同类型的启动子样本数极度不平衡的问题,本文在第二层预测模型中开发了五个子分类器来逐一确定启动子的类型。五折交叉验证和独立测试的结果表明,本文构建的预测模型MULTiPly对启动子及其具体类型的识别效果显著。(2)赖氨酸甲酰化是一种可逆的蛋白质翻译后修饰,涉及很多重要的生物学过程。本文首次将最远距离欠采样(Most distant undersampling)和安全水平合成少数类过采样(Safe-Level-SMOTE)方法相结合来建立平衡的基准数据集。其次应用双边贝叶斯、K近邻、氨基酸理化性质、氨基酸组成和转移四种特征提取方法来编码甲酰化位点周围的序列,构建了集成模型Formator。通过刀切测试和独立测试的比较结果表明,Formator显著优于唯一的计算工具LFPred。(3)本文归纳整理了 2000年以来原核启动子相关的40余篇重要文献提及的计算工具,研究启动子的生物信息学发展趋势。根据计算特征、分类算法、性能评估策略、网站可用性和具体物种,本文基于打分函数、机器学习和深度学习对计算工具进行分类。然后,使用从RegulonDB、DBTBS等数据库搜集的最新的独立测试数据集,通过在线网站或本地程序包,进行了大量的独立测试,以评估这些启动子计算工具的稳健性和可扩展性。
其他文献
目的:通过设计细胞学实验意图丰富硫酸钙(calcium sulfate,CS)促进骨形成能力的细胞分子水平证据,初步探讨硫酸钙对成骨样MG63细胞增殖情况和对骨保护素(osteoprotegerin,OPG
自美苏冷战以来,双方在各领域展开全面对抗。美国对苏联采取了全面的遏制政策,对外援助作为美国经济外交中重要的一环,也是对苏遏制的重要手段。肯尼迪执政时期,《1961对外援
二战结束以后,美苏两极争霸的局面逐渐形成。鉴于当时的国际局势,新西兰和澳大利亚享受不到英国的保护,担心本国的国家安全,于是把目标转向了实力强大的美国,寻求美国的庇护
随着经济全球化的不断加深,全社会对人才的要求越来越高。单纯的一技傍身已经无法适应社会发展的需求。“外语+”复合型人才已经越来越成为求职市场的热门。日本作为我国的邻
目的:分析研究血浆D-二聚体及CRP水平变化在乳腺癌靶向治疗中对晚期患者的预后影响以及疗效分析。方法:本研究搜集盛京医院第一肿瘤科在2016年5月至2018年11月收治的晚期HER-
目的:探讨血清尿酸(serum uric acid,SUA)水平与新诊断癫痫患者早期预后的关系。方法:采用比色法测定40例新诊断癫痫患者SUA的水平,并按照SUA水平把患者分为实验组(高尿酸组)
目的:不可切除局部晚期非小细胞肺癌(locally advanced non-small cell lung cancer,LA-NSCLC)的标准治疗是根治性放化疗,其中根据纵隔淋巴引流区(lymphatic drainage region,LD
改革开放40年来我国国民经济总量不断攀升,经济体量已跃居世界第二。但是伴随着经济高速增长的,还有日益恶化的环境污染问题。由于传统的经济发展模式具有高排放、高污染、高
陪同医患交流是一类特色交际:现在的医患交流并不仅仅包含医生,患者双方,随着家属,朋友,甚至同事等第三方陪同病人就诊,医患交流模式逐渐变成了医患陪三方交流。这在一定程度
CY03529B是以伊马替尼为先导化合物,通过计算机辅助药物设计对伊马替尼结构进行修饰的母核结构新颖的化合物,是针对伊马替尼T315I突变株的酪氨酸激酶抑制剂。CY03529B具有良