论文部分内容阅读
在人体内,蛋白质的翻译后修饰与多种生物过程相关,通过进一步修饰蛋白质,实现对蛋白质活性和功能的精确调控。近年来,随着高通量技术的发展,生成了越来越多的翻译后修饰数据。其中,蛋白质的磷酸化修饰是所有翻译后修饰类型中数据量最大,在人体内分布最为广泛的一种蛋白质翻译后修饰。除此以外,复杂疾病对人们的身体健康以及正常的工作生活产生了严重的影响。目前的研究发现,磷酸化修饰的失调可能会导致诸如癌症等多种疾病的发生。具体地说,一些单氨基酸突变会扰动磷酸化激酶与底物之间的关系,从而影响磷酸化修饰的过程。为了研究复杂疾病背后的分子机理,研究者提出了许多拓扑模块识别算法来识别分子网络中有意义的疾病标记物。然而,蛋白质的磷酸化修饰数据尚未应用于疾病模块以及疾病蛋白质等疾病标记物的识别中。因此,本文拟整合磷酸化修饰数据来识别疾病标记物。本文的研究内容可以分为以下两个部分。首先,本文探索磷酸化位点与疾病之间的关系,从而为疾病标记物的识别奠定理论基础。通过分析磷酸化位点与单氨基酸突变之间的关系,发现磷酸化位点及其协同作用位点附近的突变更可能导致疾病的发生。比如,导致癌症以及肌肉类疾病发生的突变更倾向于发生于磷酸化位点附近。而进一步的研究发现,来自核膜、蛋白质复合体及溶酶体的蛋白质磷酸化位点附近的致病突变分布比例更高。这些发现均有助于进一步研究磷酸化与疾病之间的关系,有助于识别更多的疾病标记物。然后,本文提出了基于蛋白磷酸化的疾病模块识别算法。该算法基于连边的显著性而非局部密度来识别特定疾病相关的网络模块。本文以肺癌作为研究对象。首先,基于磷酸化激酶与底物的关系、组织特异的基因表达网络、成对的基因表达数据以及突变数据构造了肺癌的加权分子网络。然后,使用机器学习的方法调整疾病模块识别算法的参数。最终得到了9个肺癌疾病模块以及20个候选的肺癌相关蛋白质。结果分析表明这些疾病模块可以有效区分肿瘤样本以及正常样本。在近期的相关研究中,这9个疾病模块中一些重要的蛋白质也已经被识别为肺癌药物的靶标。除此以外,分析结果表明预测得到的20个肺癌相关蛋白质与肺癌(尤其是肺腺癌)关系密切。本文分析了蛋白质磷酸化修饰与复杂疾病之间的关系,设计了一个基于蛋白质磷酸化的疾病模块识别算法和疾病基因预测方法,并针对肺癌进行了实验。本文的研究成果有助于推动复杂疾病病理机制的探索,并为精准医疗研究提供更多更为准确的药物靶标基因。然而,本文仍存在一定的不足之处,本文的研究主要是理论研究,在进一步的研究中需要考虑如何将理论与医学应用相结合。