个人基因组数据管理研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:NO_IX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代测序技术的发展和千人基因组计划的进行,越来越多的个人基因组序列已经被检测出来,个人基因组的数据也在飞速增长,数据量非常庞大。如何完成对个人基因组数据的收集、存储、分析、管理和发布成为重要课题。本文细致地分析了个人基因组数据以及数据之间的关系,建立了一个统一的数据模型来描述个人基因组数据。由于各个实验室产生的个人基因组数据都有着自己的格式,针对个人基因组数据之间的异构问题,我们以XML格式来表达个人基因组的一些注释数据,解决了个人基因组数据的传输、发布以及整合的大部分问题。本文参考了BioSeg序列模型建立了一个个人基因组序列模型来存储个人基因组序列数据,将序列数据分为描述部分和多维数组两部分,描述部分表示生物序列注释和其他相关信息,多维数组表示具体序列。该模型提供了实现生物序列数据查询的代数操作,综合其代数操作能够实现一系列的序列查询问题,并讨论了多维数组的存储和管理,为实现新一代的数据库管理系统奠定基础。本文以数据仓库的思想,结合XML技术开发了一个个人基因组数据管理平台。在互联网上下载个人基因组数据,预处理为统一的数据格式。结合关系数据库(RDBMs)和Native XML数据库(NXD)作为后台数据库,存储和管理收集到的异构个人基因组数据。该平台可以完成个人基因组数据的提交、存储、管理、分析和发布。并安装UCSC Genome Browser镜像做为后台服务器,借助UCSC Genome Browser的强大功能,以图示的方式直观的显示出个人基因组的相关信息,在传统的注释系统中增加了个人基因组的SNP、插入删除、结构和拷贝数变异等信息。在此基础上我们还开发了一个Track和Session管理系统来管理浏览个人基因组的Track和Session数据,实现数据共享。
其他文献
随着计算机性能的发展和网络带宽的提高。数字电视,流媒体等多媒体应用逐步走入人们的生活。然而多媒体原始数据数据量巨大,需要对其压缩后进行传输或者存储。因此图像音视频编
随着Web服务应用的急剧增长和对实时性要求的提高,集中式的服务发现和注册机制面临系统瓶颈、单节点故障、查找效率低等问题,已难以满足用户需求。因此,由于具有分布性和可扩
码率控制是视频编码领域一个非常有研究价值的课题,由于视频标准并没有对码率控制模块进行详细的规定,所以可以有多种行之有效的问题解决方案。H.264码率控制问题的关键在于
随着计算机视觉技术、虚拟现实技术和多媒体技术的迅速发展,具有高度真实感的三维模型被广泛应用于计算机动画、影视娱乐以及军事训练等领域。目前主流获取三维模型的方法可
网络环境的改善,让视频的接受度不断抬升,图片和文字已无法满足用户的社交需求,普通用户越来越愿意通过原创视频来表达情感,如何快速有效的制作个性化的视频成为普通用户的迫
当前,容错计算已经在很多领域取得成绩如:微型机、航天、航空、舰船等专用微型容错机的普遍应用。然而,新的计算模式的发展,为容错提出了新的挑战。高性能容错计算机可以预测
随着数字信号处理技术和嵌入式技术的快速发展,数字信号处理芯片(简称DSP芯片或DSP)在通信、自动化等多个领域中的应用越来越广泛。DSP芯片应用的不断增长以及应用系统复杂性
优惠券是商家的一种重要促销手段,优惠券分为纸质优惠券、电子优惠券二种。目前比较传统也是使用最广的是纸质优惠券,主要通过人工散发,是一种粗放式的宣传手段,效率低下。随着互
目前主流的编码标准的压缩性能比以往的任何标准都提高了一倍以上。但是在网络带宽受限情况下,这些视频编码技术仍旧难以达到令人满意的效果。因此如何在网络带宽受限情况下
时间序列数据普遍存在于生活中各个方面的应用领域中。一般的,时间序列数据是一个包含时间戳及数值的有序序列。近年来随着传感网络等技术的发展,在金融、医疗、交通、环境监