论文部分内容阅读
随着新一代测序技术的发展和千人基因组计划的进行,越来越多的个人基因组序列已经被检测出来,个人基因组的数据也在飞速增长,数据量非常庞大。如何完成对个人基因组数据的收集、存储、分析、管理和发布成为重要课题。本文细致地分析了个人基因组数据以及数据之间的关系,建立了一个统一的数据模型来描述个人基因组数据。由于各个实验室产生的个人基因组数据都有着自己的格式,针对个人基因组数据之间的异构问题,我们以XML格式来表达个人基因组的一些注释数据,解决了个人基因组数据的传输、发布以及整合的大部分问题。本文参考了BioSeg序列模型建立了一个个人基因组序列模型来存储个人基因组序列数据,将序列数据分为描述部分和多维数组两部分,描述部分表示生物序列注释和其他相关信息,多维数组表示具体序列。该模型提供了实现生物序列数据查询的代数操作,综合其代数操作能够实现一系列的序列查询问题,并讨论了多维数组的存储和管理,为实现新一代的数据库管理系统奠定基础。本文以数据仓库的思想,结合XML技术开发了一个个人基因组数据管理平台。在互联网上下载个人基因组数据,预处理为统一的数据格式。结合关系数据库(RDBMs)和Native XML数据库(NXD)作为后台数据库,存储和管理收集到的异构个人基因组数据。该平台可以完成个人基因组数据的提交、存储、管理、分析和发布。并安装UCSC Genome Browser镜像做为后台服务器,借助UCSC Genome Browser的强大功能,以图示的方式直观的显示出个人基因组的相关信息,在传统的注释系统中增加了个人基因组的SNP、插入删除、结构和拷贝数变异等信息。在此基础上我们还开发了一个Track和Session管理系统来管理浏览个人基因组的Track和Session数据,实现数据共享。