论文部分内容阅读
背景和目的近年来,大规模的生物分子相互作用数据,特别是利用高通量手段研究并整理的蛋白质相互作用(Protein-protein interaction,PPI)数据库和海量数据的发布,对于疾病,特别是肿瘤的研究着眼于在病理状态下整个分子系统网络的动态变化;同时,开始从系统、全局的角度出发,研究疾病临床综合症群和内在的生物分子网络之间的关系,进一步改进疾病的分类标准,重新对疾病进行更准确的定义。肿瘤蛋白分子标记(Protein Biomarker)的应用对肿瘤的诊断、预后和靶向治疗有重要的作用;也为疾病的分类提供了有效依据。然而,由于肿瘤发生和发展过程中复杂病理机制,肿瘤Biomarker发掘的过程非常艰巨;到目前为止,只有9个肿瘤相关蛋白通过FDA认证,作为临床检测Biomarker用于癌症的诊断检测。在系统生物学蓬勃发展的背景下,作为候选的Biomarker应该从系统水平上进行研究,需要大规模收集数据,探讨肿瘤发生过程中关键的致病基因和其下游的效应基因,选择有效的诊断和治疗Biomarker,尽量避免Biomarker选择中高假阳性和假阴性等一系列问题。本课题,我们从系统生物学角度,探讨了肿瘤蛋白Biomarker发掘的一系列问题。1)首次,从人类分子相互作用网络、基因组、蛋白质组学,以及癌症的疾病临床综合症群的宏观角度,分析1000多个经验型肿瘤蛋白Biomarker的性质,为肿瘤蛋白Biomarker发掘计算模型的构建,提供了生物学依据;2)探讨肿瘤蛋白Biomarker发掘的算法,利用人类全局PPI网络的信息和疾病表型关联网络的信息,进行模型构建,较传统的有效的计算方法,效率进一步提高;3)以原发性肝细胞癌(HCC)和其重要的蛋白Biomarker-甲胎蛋白(AFP)为例,深入探讨AFP在HCC发生和发展中的关系,比较AFP阳性、阴性HCC临床样本中基因表达差异并推断了相关的分子机制;4)设计和研发面向多级(Muti-scale)生物网络的可视化数据发掘工具——ProteoLens,通过兼容SQL语句,改进了传统可视化工具的兼容性差,不能方便、有效的处理多样的系统生物学数据的弱点;能够更加有效的建立包含丰富注解信息的和多级生物学网络,来理解复杂的生物学网络的结构,从中挖掘有效的信息。我们的研究,旨在沟通生物学基础研究和临床医学研究;并构架计算分析的平台,使计算生物学家也能够有效的参与肿瘤的诊断和治疗这一重大问题中来。主要研究方法1、数据的收集和整理1)疾病基因,癌症基因,肿瘤蛋白Biomarker,必要基因,药物靶分子基因;2)PPI网络,TF-基因调节网络,Pathway,基因共表达网络;3)组织特异性数据,组织表达数据,Gene Ontology数据,健康人血浆蛋白肽的图谱数据;4)分子ID映射,疾病术语,分子注解信息;2、肿瘤蛋白Biomarker的性质分析1)PPI网络中拓扑性质比较;2)组织特异性比较;3)表达范围比较;4) Gene Ontology关键词比较;5) Co-Pathway统计;6)共表达统计;3、癌症表型特异性分子网络的构建1)PPI网络子网;2)TF-基因调节子网;4、肿瘤表型关联网络的定义与比较1)肿瘤疾病基因定义的疾病表型关联网络;2)肿瘤蛋白Biomarker定义的疾病表型关联网络;3) GWAS疾病相关位点定义的疾病表型关联网络;4)网络间通过构建相似性得分和邻接矩阵聚类进行比较;5、SW-RWR算法设计和评估1)覆盖率;2)敏感性;3)准确度;6、AFP分子演化的分析1)进化树构建;2)结构域分析;3)基因调节区序列分析;7、AFP+/-原发性肝细胞癌临床样本的基因表达差异分析1)肝细胞癌表达谱数据收集与整理;2) Meta-analysis;3)贝叶斯网络和PPI网络比较;4)基因功能分析;8、网络可视化软件ProteoLens的设计和实现1)基础框架;2)Java编程实现;3)系统生物学研究示例。研究结果第一部分肿瘤蛋白Biomarker的性质分析为评估肿瘤蛋白Biomarker的特性,我们选择疾病基因、癌症基因、药物靶蛋白和必要基因作为参照。1)各个功能集合之间的重叠的基因数目较少;2)肿瘤Biomarker在PPI网络中的节点的平均度数小于癌症基因和必要基因在PPI网络中节点的平均度数,但高于疾病基因和药物靶蛋白的平均数;3)肿瘤蛋白Biomarker包含较多的组织特异性基因;4)肿瘤蛋白Biomarker中基因平均表达的组织数目甚至多于必要基因集合中的平均水平;5)肿瘤蛋白Biomarker集中共有385个显著的GO术语,包括26个细胞模块术语,0个分子功能术语和359个生物过程术语;6)肿瘤蛋白Biomarker在以疾病基因为种子扩张的PPI和PPI-TF-调节基因网络中的分布:当选择更加精确的的种子蛋白(接近癌症基因的时候)进行PPI和PPI-TF-调节基因网络构建,与肿瘤蛋白Biomarker的交集占总肿瘤蛋白Biomarker集的比率显著增大;7)肿瘤蛋白Biomarker和相应表型的疾病基因易于共表达并参与同一Pathway。构建基于肿瘤蛋白Biomarker疾病表型网络(DBN)762个肿瘤蛋白Biomarker对应于59类不同的癌症表型中,包含820个“Biomarker-疾病表型”关联,平均两个癌症表型有8个相同的Biomarker;每个Biomarker出现在13个癌症表型中。所有59个结点,连接成一个联通图,没有孤立结点或子网。比较DBN和基于疾病基因的疾病表型网络(DAN)疾病基因和蛋白Biomarker描述的肿瘤表型之间关系具有等效性。第二部分SW-RWR算法是在随机行走算法(Random Walks Ranking,RWR)的基础上,利用肿瘤表型关联网络的先验知识,指导PPI网络中随机行走策略。SW-RWR是为解决肿瘤蛋白Biomarker发掘的问题对RWR算法的改进。SW-RWR算法对白血病蛋白Biomarker的排序1)从基于肿瘤Biomarker的表型关联网络中,依据相似性得分提取白血病相关的疾病表型;2)分析白血病与选择的表型之间的相关性:与白血病相关联的这5个癌症表型,其疾病基因与白血病疾病基因之间通过蛋白质相互作用紧密关联;3) SW-RWR选择的20个蛋白的生物学意义分析,显示出与白血病分子机制的强相关性;4)通过敏感性和准确率(使用阳性预测值,PPV)评估对白血病蛋白Biomarker的预测效力:SW-RWR优于RWR。SW-RWR算法对肺癌蛋白Biomarker的排序1)建立基于GWAS的疾病表型关联网络:分别创建了3个疾病相关网络(DAN),网络结点为疾病表型,网络关联分别定义为:疾病表型之间有相同的SNP位点(DAS)-DAN1,相同的DAS对应基因-DAN2,或相同的DAS对应的染色体区域-DAN3。共包含85个不同的节点,代表85个独立疾病表型。2)DAN中抽取与肺癌关联的子网:确定5个肺癌相关的疾病表型,这5个疾病和肺癌在遗传学上有相同的异常基因;这些疾病基因之间通过直接或间接地PPI相互连接,表示了疾病之间的分子机制的内在关联;同时,在病理研究上,这5个疾病也有与肺癌关联紧密的证据。3) SW-RWR选择的20个蛋白的生物学意义分析;4)通过敏感性和准确率评估对肺癌蛋白Biomarker的预测效力:SW-RWR优于RWR。第三部分AFP以及类白蛋白家族分子演化分析1)进化树显示,蛋白的进化与物种的进化是一致的,就AFP分支来看,鸡较人、狗、大鼠、小鼠同源性较低,而更相似于其旁系同源物——鸡ALB;大鼠与小鼠之间AFP同源性较高,人与狗之间AFP同源性较高。类白蛋白家族成员,在鱼类只存在一个,两栖类有两个,鸟类有三个,哺乳类有四个2)结构域分析。在七鳃鳗中发现了具有多个结构域的白蛋白,由此可以推测,在原索动物或无脊椎动物中存在单个的类似白蛋白结构域的蛋白。来自于同一个蛋白的不同白蛋白结构域之间较与其直系同源蛋白对应的白蛋白结构域差别较大,可以推测,基因复制事件是以蛋白为单位的。类白蛋白家族成员,第一和第二结构域较第三结构域更为相似,可推断最初的加倍导致原始的蛋白具有两个结构域的形状,之后经历了第三次的部分复制。3)基因调节区分析。从鸡、大鼠、小鼠、狗等物种中均找到与AFP增强子E1、E2、E3有较高相似性的原件。AFP+/-原发性肝细胞癌临床样本基因表达谱差异根据Meta-analysis共选择166个差异表达基因;使用MMHC构建贝叶斯网。这些基因构建成一个联通图,与AFP表达相关;关于这196个基因的平均PPI度数,相对于平均水平而言,要远远高于平均水平。通过基因功能分类可见,AFP低表达的样本较高表达样本,免疫基因表达高的相关基因参与炎症反应、补体激活、抗原呈递、T细胞激活等多种免疫反应;而在AFP高表达的病例中,免疫相关基因表达相对较高的数目少;AFP高表达的病例中,表达相对高的基因功能类群为与细胞黏附和增殖相关的基因;部分基因是与Wnt、MAPK等信号通路中的关键基因;18个基因编码转录因子;此外,一些基因参与其他肿瘤发生过程。第四部分ProteoLens构架ProteoLens使用Java语言编写,软件构架包含两个独立的功能层:前台的数据可视化层和后台的数据处理层,两个层之间通过数据关联引擎连接。数据处理层为提供了数据处理的能力,用户可以通过把ProteoLens和关系数据库(Oracle、PostgreSQL)相连接,利用数据库本身提供的SQL操作环境对数据表格进行操作。之后,通过创建数据关联连接数据可视化层,把已经处理好的数据表格构建网络可视化视图。这样的设计,方便和简化用户对数据处理和数据可视化的操作,不需要利用第三方软件。ProteoLens主要功能和特点ProteoLens的核心功能:1)ProteoLens支持数据源类型有:以分隔符为标识的文本文件、关系数据库、XML数据文件和GML文件;2)基于SQL的数据可视化分析,完全支持SQL语句块编程;3)灵活的网络可视化注解方式;4)用户能够在当前的生物网络中依据某种条件提取子网;5)丰富全面的自动网络布局。ProteoLens可以用来解决的生物学问题示例1)利用ProteoLens建立人类癌症表型关联网络;2)利用ProteoLens建立复合物-药物靶蛋白相互作用网络;3)利用ProteoLens建立蛋白质-肽关系网络。研究结论和创新性1.通过计算系统生物学的方法,从系统网络的观点,对具有潜在应用价值的1000多个肿瘤蛋白Biomarker进行系统的性质分析和评估。肿瘤蛋白Biomarker相对疾病基因、药物靶分子和必要基因而言,具有独特的生物网络拓扑性质、表达特征和GO谱系特征;肿瘤蛋白Biomarker和疾病基因之间,有直接或间接的相互作用关联。2.建立以肿瘤蛋白Biomarker为关联的疾病表型关联网络,量化了肿瘤蛋白Biomarker和疾病基因的内在联系,证实可以通过蛋白Biomarker联结癌症表型和基因型。3.首次,将“人类疾病网络”的概念应用到肿瘤Biomarker挖掘中,设计了新的计算框架和算法——SW-RWR,对于肿瘤蛋白Biomarker的预测和排序的效率有了显著提高。4.首次,使用将GWAS信息应用于疾病相关Biomarker的排序研究,证实GWAS信息的指导,可以显著提高肿瘤Biomarker的发现效率。同时,计算框架的提出有助于促进生物医学各方面研究的合作。5.研究AFP(原发性肝癌的Biomarker)与原发性肝癌(HCC)发生发展的联系,筛选196个差异基因,差异基因多为PPI网络中的Hub基因;提示AFP+/-HCC临床病例中免疫应答、细胞黏附和增殖、WNT等信号通路存在差异。6.设计研发ProteoLens软件。ProteoLens整合网络的创建、注解、分析和可视化于一体,是一个新型的面向多级生物学网络的软件分析平台。相对于传统的生物网络可视化软件,主要创新性有:1)全面支持关系数据库Oracle和PostgreSQL的连接,支持嵌入式SQL(Structure Query Language)语言;2)支持图、网络的标准建模语言—GML;3)数据可视化和数据注解设计为两个独立的模块,通过数据关联连结,网络注解设置方便。