基于整合的TCGA数据库探索基因组学与临床数据关系

来源 :浙江大学 | 被引量 : 0次 | 上传用户:cwfml9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着几个大型人类肿瘤基因组项目(如TCGA、ICGC等)相继发起,为肿瘤基础医学和转化医学研究者提供了海量的基因组数据和与其关联的临床数据,为进一步挖掘有意义的基因组变化和发现影响肿瘤发展、分化等生物学内部机制提供了数据基础。然而传统的基础医学研究者和转化医学研究者缺乏信息学知识来处理如此空前规模的海量数据,因而在面对这些大型基因组项目提供的开源文本数据,往往望洋兴叹。作为医学信息领域研究者,我们需要将信息学和统计学技术运用到癌症基因组学数据分析的研究当中,作为连接大数据与基础医学研究者之间的一个桥梁,帮助研究者去探索这些数据。为此,本研究提出构建一个在线的肿瘤基因组学分析平台(TCGA4U: http://www.tcga4u.org:8888),为基础医学和转化医学研究者提供面向大型肿瘤基因组资源TCGA的数据分析服务。本论文需要解决的问题包括:1、整合各类肿瘤基因组和临床数据构建一个可供上层应用的知识库。2、利用多种类型的肿瘤基因组学和临床数据进行联合分析,帮助研究者更深入认识和理解这些数据资源以及各种数据特征之间的关联。3、引导研究者使用平台展开更进一步的基因组数据分析、生物学过程和路径探究。为此本论文提出了肿瘤基因组学分析平台的系统框架构建。通过集成TCGA的体细胞突变、基因表达、DNA甲基化、拷贝数变异和临床数据,以及拓展基因本体(Gene Ontology)术语相关数据、人类基因组参考序列(CRCh37)、分子相互作用数据库(EBI-IntAct)等,构建了一个完整的肿瘤基因组学知识库,为上层提供了数据支持与服务。为了能够快速高效地处理海量数据和运用多种统计学算法,我们选用了R作为统计学计算引擎,为上层提供数据分析服务。同时实现了一些需要自实现的算法和一些文本处理模块供上层应用调用。针对上层数据查询和分析结果的显示模块,我们采用了基础数据显示和可视化呈现相结合的模式,帮助使用者能直观的查看统计学的分析结果。论文最后阐述了一个基于平台的研究案例,对利用平台开展研究工作做了示例。案例重点探讨了在乳腺癌中基因表达模式与病人存活的关系,并获得两个结果:1、线粒体核糖体在癌症发展中扮演着重要角色,线粒体核糖体和胞质核糖体表达总量相对平衡。2、与先前在其他癌症的报道相比,HSPA2在乳腺癌中对病人存活影响有着不同的表达模式,乳腺癌中拥有HSPA2低表达的病人具有相对低的存活率。并且利用Oncomine数据库的四种类型乳腺癌和荷兰癌症研究所的乳腺癌表达数据和存活数据进行了结果正确性的验证。本论文提出和构建了一个在线肿瘤基因组学数据分析平台,深入探究了基因组和临床数据的关系。让转化医学和基础医学研究者能够方便的浏览TCGA基因组数据和利用平台整合的基因组和临床数据挖掘其对癌症发展、转移等过程的影响。同时在平台上发布我们最新的研究成果,为挖掘潜在癌症驱动因子和制定个性化诊疗做出贡献。
其他文献
如今,电力变压器向着特大型超高压的方向发展,与此同时,变压器的热性能问题也日益凸显出来。然而,与变压器的迅猛发展形成鲜明对比的是对变压器内部发热、冷却问题的研究相对较少
建筑给水排水是一门专业课程,其教学的有效性需要理论与实践的结合,保证学生能够在专业知识的学习中进行实践应用,有技术水平和个人能力的提高.高职院校建筑给水排水工程课程
在学生学习期间,辅导员不仅要帮助学生完成相应的课堂学习,帮助他们提高学习成绩,同时也需要对他们进行思政教育工作,不断地提高他们的思想道德和政治素养.因此在教学的过程
随着人们生活水平的提高,人们对生活环境的舒适度提出了更高的要求,但是传统汽车尾气排放污染严重,石油过度消耗,其发展受到了制约,人们开始寻求清洁能源汽车。空气动力汽车在此背
打造高等教育强国是国家意志和国家工程,双一流高校和学科建设以及高职院校双高计划的颁布实施,都高度关注高等教育质量.文章重点提出了高等教育强国视野下稳步提升高等教育
高职大学生作为高等专业教育对象,其心理危机防范问题已经得到社会广泛关注,教育研究工作也针对高职大学生的心理危机防范和快速反应机制构建展开分析,旨在强化心理教育引导,