关键蛋白质预测及蛋白质变体表征算法研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:zhangnly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命过程的主要执行者。关键蛋白质作为维持细胞生命的重要组成部分,在生物学和药物设计研究中发挥着重要作用。与基因变异相比,蛋白质的分子结构及状态变化(即蛋白质变体)与疾病的病理变化更相关。表征蛋白质变体包括鉴定和定位蛋白质中的主要结构性变异(PSA),对推进医学事业发展具有现实意义。本文着力于从蛋白质组学领域中两个重要研究方向进行研究,主要创新点如下:随着关键蛋白质相关的大量生物学数据的产生,已经提出越来越多的计算方法用于预测关键蛋白质。与采用单种机器学习方法或集成多种机器学习方法的预测方法不同,本文设计出XGBFEMF预测框架用于预测关键蛋白质。该框架包括SUB-EXPAND-SHRINK方法,该方法利用初始特征构建复合特征并获得用于关键蛋白质预测更好的特征子集;还包括用于获得更有效的预测模型的模型融合方法。本文使用酵母数据进行实验,通过接受者操作特性曲线(ROC)分析、准确度分析和top分析来评估XGBFEMF框架的性能。同时,本文还使用大肠杆菌数据进行实验,以验证该框架的通用性。实验结果表明,XGBFEMF框架可以有效地改进多项关键性指标。随着质谱技术的发展,使得基于自顶向下质谱技术的蛋白质变体表征成为可能。在高通量蛋白质组学水平分析中,由于蛋白质变体鉴定需要将数百万个光谱与上万个蛋白质序列进行比对,导致基于谱图比对的鉴定算法非常缓慢。因此,过滤算法在蛋白质组学水平分析中必不可少。本文结合容错性方法与序列标签方法的速度优势以及ASF方法的准确性优势,提出一种名叫ETASF的过滤算法。本文使用组蛋白H3.1数据集和乳腺癌的一种亚型(WHIM2-P32)数据集进行实验,实验结果证明使用ETASF算法可以提升鉴定性能,并显著降低算法复杂度。
其他文献
近年来,欣泰电气、雅百特等大量上市公司财务违规造假行为频繁发生,社会公众关于会计师事务所对上市公司审计质量产生了严重质疑。如何才能提高审计质量呢?现有文献在研究影
2018年8月,HY公司向X银行申请贷款,鉴于HY公司属于X银行授信政策予以准入的行业,X银行随即对其进行贷款评估。在经过一系列贷款评估后X银行认为HY公司资产规模及盈利规模保持
太古宙是地球演化的关键时期,但由于地质历史年代久远,大量的信息在漫长的地质过程遭受了破坏,给人类了解这一时期的地球演化史造成了很大的困难。本研究试图利用Li同位素地
中国影子银行自2008年金融危机以来呈现高速增长之势。根据金融稳定委员会(FSB)发布的《全球影子银行监测报告》(2011-2018)和《全球非银行金融中介监测报告》(2019),2011-20
在过渡金属氧化物材料中存在多种自由度(电子、轨道、自旋和晶格)的相互耦合和竞争,会促使其表现出许多奇特的物理性质,例如丰富的磁性、金属绝缘体转变、铁电性、超导电性、磁
随着条码技术的不断发展,商品条码已被广泛应用于零售、物流、物联网、食品安全等各种领域。在经济贸易全球化的背景下,商品条码作为商品在全球的唯一标识,在国际贸易中发挥
近年来,分数阶Laplace算子以及分数阶扩散方程在不同领域得到了广泛的应用,如稀疏障碍问题,金融数学,层状材料,反常扩散,种群动力学与博弈论等.分数阶Laplace算子是拟微分算
过渡金属氟化物具有复杂多样的晶体结构,同时还伴有丰富的物理特性,如多铁性、光致发光、电化学特性等,这些材料在信息存储、能量捕获和自旋电子学等诸多领域中存在很大的应
随着纳米材料在工业和农业领域的大量使用,纳米颗粒物以各种途径进入土壤环境,由于其潜在的毒性会对土壤生态系统以及人类健康构成威胁。生物炭因其独特的理化性质作为一种改
“十三五”以来,职业教育发展动力无限,逐步凸显出中国特色。各类教育形态中,职业教育同样有重要地位。国家的进步、社会经济的发展,都离不开技术工人这一推动中国制造与创造的强力基础。我国职教正是肩负于此,培养数以千万计的高素质劳动者,发挥着人才蓄水池的重要功能。中等职业教育是职教领域发展的重点,通过近几年职教改革和规模攻坚,得以快速发展。但是,我国中等职业教育照搬普通教育模式,缺乏职业教育特色,致使学校