论文部分内容阅读
随着几个大型人类肿瘤基因组项目(如TCGA、ICGC等)相继发起,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,为进一步挖掘有意义的基因组变化和发现影响肿瘤发展、分化等生物学内部机制提供了数据基础。然而传统的基础医学研究者和转化医学研究者缺乏信息学知识来处理如此空前规模的海量数据,因而在面对这些大型基因组项目提供的开源文本数据,往往望洋兴叹。作为医学信息领域研究者,我们需要将信息学和统计学技术运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个桥梁,帮助研究者去探索这些数据。为此,本研究提出构建一个在线的肿瘤基因组学分析平台(TCGA4U: http://www.tcga4u.org:8888),为基础医学和转化医学研究者提供面向大型肿瘤基因组资源TCGA的数据分析服务。本论文需要解决的问题包括:1、整合各类肿瘤基因组和临床数据构建一个可供上层应用的知识库。2、利用多种类型的肿瘤基因组学和临床数据进行联合分析,帮助研究者更深入认识和理解这些数据资源以及各种数据特征之间的关联。3、引导研究者使用平台展开更进一步的基因组数据分析、生物学过程和路径探究。为此本论文提出了肿瘤基因组学分析平台的系统框架构建。通过集成TCGA的体细胞突变、基因表达、DNA甲基化、拷贝数变异和临床数据,以及拓展基因本体(Gene Ontology)术语相关数据、人类基因组参考序列(CRCh37)、分子相互作用数据库(EBI-IntAct)等,构建了一个完整的肿瘤基因组学知识库,为上层提供了数据支持与服务。为了能够快速高效地处理海量数据和运用多种统计学算法,我们选用了R作为统计学计算引擎,为上层提供数据分析服务。同时实现了一些需要自实现的算法和一些文本处理模块供上层应用调用。针对上层数据查询和分析结果的显示模块,我们采用了基础数据显示和可视化呈现相结合的模式,帮助使用者能直观的查看统计学的分析结果。论文最后阐述了一个基于平台的研究案例,对利用平台开展研究工作做了示例。案例重点探讨了在乳腺癌中基因表达模式与病人存活的关系,并获得两个结果:1、线粒体核糖体在癌症发展中扮演着重要角色,线粒体核糖体和胞质核糖体表达总量相对平衡。2、与先前在其他癌症的报道相比,HSPA2在乳腺癌中对病人存活影响有着不同的表达模式,乳腺癌中拥有HSPA2低表达的病人具有相对低的存活率。并且利用Oncomine数据库的四种类型乳腺癌和荷兰癌症研究所的乳腺癌表达数据和存活数据进行了结果正确性的验证。本论文提出和构建了一个在线肿瘤基因组学数据分析平台,深入探究了基因组和临床数据的关系。让转化医学和基础医学研究者能够方便的浏览TCGA基因组数据和利用平台整合的基因组和临床数据挖掘其对癌症发展、转移等过程的影响。同时在平台上发布我们最新的研究成果,为挖掘潜在癌症驱动因子和制定个性化诊疗做出贡献。