论文部分内容阅读
线粒体作为细胞的产能中心、代谢中心和凋亡中心,在生命过程中发挥着重要的生理功能,并且与多种疾病的发生发展密切相关。对线粒体的研究由来已久,但对其功能和蛋白质构成仍未完全清楚。蛋白质表达谱构建(profiling)作为高通量、规模化的研究方法,从整体上研究某一生理或病理状态下线粒体所有蛋白质,为从蛋白质水平诠释线粒体功能及其在疾病中的作用机制提供新的方法。细胞器的分离是亚细胞蛋白质组学研究的重要步骤。本研究利用联合提取细胞器的方法,提取高纯度的肝脏线粒体,并进行形态学和纯度评价。其蛋白质表达谱的构建,采用SDS-PAGE结合nano-LC-ESI-MS/MS的技术策略,并引入质谱分段扫描的分离模式(Gas Phase Fractionation,GPF)。经反转数据库评价,确定95%可信度、双肽段匹配(95P2)的数据标准。为了明确所鉴定蛋白质的亚细胞定位,我们采用逐步递进的数据判定方法。首先,以期望最大化法(Expectation Maximization,EM)校正的肽段定量为基础,用最邻近算法(k nearest neighbor,KNN)来进行分类;其次,在KNN基础上,用结合其它六种生物信息学方法(pTAGET,Proteome Analyst,WoLFPSORT,TargetP,MitoPred,NUCLEO)的贝叶斯模型对所鉴定蛋白质进行细胞器定位划分,其定位预测准确性可达到81%。最终得到线粒体定位的非冗余蛋白质774个,其中96个属于蛋白质新定位,291个属于新定位蛋白质。这是目前人肝脏能够得到明确线粒体定位蛋白质的最大数据集,将作为一种资源用于人类肝脏的其它研究。对于规模化的蛋白质表达谱数据,我们采用GO(Gene Ontology)分类系统及Pfam结构域预测对其进行蛋白质功能的发掘和注释。根据GO生物过程(biologicalprocess)的注释,我们鉴定的蛋白质主要参与三大物质代谢及能量代谢,综合其它细胞器鉴定数据的GO超几何分析结果也与线粒体的功能一致,很好的诠释了线粒体的功能,表明了肝脏线粒体作为机体代谢中心和“能量工厂”的生理特点。在387个明确定位于线粒体的蛋白质中,只有28个与信号传导相关,超几何分析结果显示信号传导功能在肝脏线粒体中明显缺失(p<0.001)。25个新定位于线粒体的信号类蛋白质对我们进一步研究线粒体与其它细胞器间或线粒体内的信号传导有新的提示作用。其中,G蛋白是G蛋白偶联信号传导系统的重要组成部分,以前普遍认为它只定位在细胞膜的内表面,最近有其在细胞核膜新定位的报道。8个G蛋白亚基的线粒体定位,提示G蛋白也可能介导跨线粒体膜的信号传递,因而可能有助于我们重塑G蛋白偶联信号传导系统的网络。数据标准对表达谱的构建至关重要,95P2及99P1(99%可信度、单肽段以上匹配)是目前国家上认可的数据标准。本研究在人肝脏7次重复鉴定的蛋白质组数据基础上,计算不同Nobsbl(The number of observable peptide per protein,每个蛋白质可观测到的肽段数)范围蛋白质在95P2数据标准下被单次实验鉴定的可能性,发现与蛋白质鉴定的均值(8.9%)相比,低Nobsbl蛋白质被鉴定的可能性只有0.85%(Nobsbl<35),相差悬殊。虽然采用95P2数据标准可以比99P1多约25%的数据量,但是对于低Nobsbl值范围的蛋白质,采用95P2数据标准的数据量远远低于99P1,这与蛋白质在质谱中的鉴定受其理化性质影响有关。该结果一方面可以解释我们数据中参与氧化磷酸化蛋白质其鉴定率非常低的问题;另一方面也有助于在以后的蛋白质组研究中分析低Nobsbl值蛋白质的假阴性鉴定问题。根据中心法则,mRNA(转录组)和蛋白质(蛋白质组)是基因表达的不同层面,由于转录后调控的存在,二者在表达丰度上并不完全一致。两种数据的综合考虑一方面有助于全面了解生物的功能状态;另一方面有助于区分真正的mRNA/蛋白质丰度一致或不一致性。对二者相关性影响因素的分析,有助于我们摒弃数据中的噪音干扰,清晰展现mRNA/蛋白质丰度相关性的规律。关于mRNA/蛋白质丰度相关性的研究较多,但结论颇有争议。对二者相关性的影响因素分析多侧重于生物学方面,较少考虑技术层面的原因,且多为定性描述。本研究提出一个蛋白质鉴定的技术指标:RIPpro(protein relative identificationpossibility,蛋白质相对鉴定可能性),并对其合理性进行了较全面的评估。在此基础上,对RIPpro等多种影响mRNA/蛋白质丰度相关性的因素进行了回归分析。发现RIPpro变化可以影响蛋白质丰度变化的11%、mRNA/蛋白质相关性变化的5%。通过对mRNA/蛋白质丰度相关系数的分级呈现,总数据其二者相关性是0.59,75%的数据其二者相关性为0.75,有力驳斥了关于mRNA/蛋白质丰度毫无相关性的说法。对明显偏离mRNA/蛋白质丰度趋势线的蛋白质的功能及理化性质进行分析,发现代谢类蛋白质的定量多高于其mRNA预测丰度,且RIPpro越低此现象越明显;信号相关类蛋白质的定量多低于其mRNA预测丰度。这可能与两类蛋白质在肝脏中的功能活跃程度及我们在研究中采用Nobsbl校正肽段计数的蛋白质组定量方法有关系,进一步证实RIPpro在mRNA/蛋白质丰度相关性研究中的确作为干扰因素存在。根据人类孟德尔遗传数据库(Online Mendelian Inheritance in Man,OMIM)注释,明显偏离mRNA/蛋白质丰度趋势线的94个(5%)蛋白质中有95.7%为疾病相关蛋白质,校正RIPpro的影响因素后,我们可能从中选取受转录后调控多的蛋白质作为候选的治疗靶点。通过对24个功能类别蛋白质mRNA/蛋白质丰度相关性的分析,发现代谢类蛋白质mRNA/蛋白质相关系数明显高于信号类蛋白质,代谢类蛋白质丰度的变化40%由其转录本丰度变化导致,而信号类蛋白质丰度的变化只有17%由其转录本丰度变化引起,22%由RIPpro的变化引起。这一结果提示代谢类蛋白质受到的转录后调控较少,代谢类基因持续稳定的表达,对机体从节能的角度讲是合理的;而信号类蛋白质mRNA/蛋白质丰度相关性差一方面由于其多为小分子的低丰度蛋白质,采用质谱定量引入较多的误差所致(22.38%),其次可能受到较多的转录后调控。这对以前把不同功能类别蛋白质二者相关性的差异笼统归结为受转录后调控程度不同的说法是一种补充。综上所述,本研究提出细胞器联合提取的策略,在此基础上形成中国人类肝脏蛋白质组计划中细胞器提取的标准操作规范(Standard Operation Procedure,SOP)。首次成功构建人类肝脏线粒体蛋白质表达谱,结合贝叶斯模型对所鉴定蛋白质给出了相对明确的定位判断,蛋白质新定位对其功能研究提供新的参考信息。在蛋白质组/转录组的数据对接中,首次提出RIPpro的技术指标,对影响mRNA/蛋白质丰度相关性的多种因素进行分析,将回归的定量研究方法引入到mRNA/蛋白质丰度相关系数影响因素的挖掘上来。这对于其它规模化数据的处理、不同层次数据的对接及相应的功能挖掘均有一定的参考意义。