论文部分内容阅读
随着基因组研究的深入和生物信息学的发展,对基因调控信息的分析和研究引起人们越米越多的重视。目前基因表达调控是分子生物学研究的一个重点,基因转录水平上的调控是最重要的环节。人类基因组计划的顺利实施和其它模式生物基因组测序工作逐步的进行,为研究人类基因及基因表达打下了坚实的基础。而基因芯片技术的迅速发展,已使大规模检测基因转录水平、研究基因表达时时空规律、分析基因之间的相互作用关系成为现实。
本文以建立一个完善、系统的基因调控信息平台为目标,分析了国际生物分子数据库系统的发展状况,研究了像GenBank、Transfac、EPD、SCPD、dbSNP等知名数据库系统的实现机制,对基因调控信息集成数据库系统GRID进行了后续设计、数据获取和融合、系统管理、复杂查询和数据可视化等工作。虽然我们的数据来源于这些知名的生物学数据库,可是我们并不是简单地将数据导入到GRID系统中,我们对这些数据进行了大量的分析和处理工作,并把这些不同来源的数据整合成为一个生物数据系统。
GRID数据库系统数据主体是基因调控信息数据,主要包括从DNA到RNA的转录过程的信息以及其他过程中与基因调控相关的所有信息。具体到数据类型,主要是启动子区域数据、转录基因数据、转录因子数据、调控元件数据、保守序列数据、矩阵数据、调控信息数据、单核苷酸多态性数据、下游区域数据。所有类型的数据之间都存在着联系,并且这些联系不是单向、单一的,而是双向、多重的、有机的。并且我们还给出了相应的动态联接将某些本系统尚未涉及的数据联接到一些相关生物学数据库,使用户的视野更加开阔。
GRID数据库系统不仅能够容纳各种类型的基因调控信息,还能对不同数据源的数据格式进行兼容,完成多种相关数据库数据源的分析和整合。在这个基础上,我们对数据库进行了后续表的设计并添加了新的数据类型,有机地扩充了数据库系统。总之,GRID是一个不断发展的系统,我们需要不断的对它扩充和丰富。在数据库的开发之余,作为数据库的设计和管理员我们对整个数据库的物理结构进行了有效的管理和优化,完成了不同用户间的权限管理。
GRID数据库系统在设计完成后,一项非常重要的工作就是将来自于各种数据源的数据导入到GRID数据库当中,这是一项非常复杂的工作,因为数据导入具有较强的连续性。在数据不断的导入过程中,前一条数据的错误导入或终止可能会对下面所有数据的正确性产生影响,导致后面所有数据的错误,进而影响到相关的GRID连接表,从而导致整个GRID数据库系统数据的错误。因此,如何保证导入数据的正确性和安全性,是我们着重需要解决的问题。出于这一点考虑,我们完成了一种新的安全准确的导入方案。
本文在现有数据的基础上,根据生物信息学研究的需要,开发了相关复杂查询的功能。我们还详细分析了单核苷酸多态性数据并完成了相关数据的可视化工作,使用户对数据库所提供的信息有一个直观的理解后再根据自己的需要选择感兴趣的信息进行进一步的查询、下载和分析,并且可以方便的从一种信息数据得到在转录和翻译过程中牵涉到的其他所有的信息数据。在实现中,没有盲目采用国外生物信息数据库的可视化方法,而是根据本系统的实际情况,提出并实现了全新的Servlet+Applet可视化方法,大大节省了服务器的资源并且快速安全。将来我们还要在GRID系统的基础上从事更多的基因调控信息分析和数据挖掘等方面的工作。
目前GRID数据库系统已经初具规模并进入试运行阶段。总之,GRID数据库系统是一个真正自主开发研制的基因调控信息数据库系统,它不是单纯的国外数据库的镜像,而是一个能够兼容不同数据,可以从不同数据源自动下载和更新数据的集成型数据库系统。它采用了先进的Oracle以及Java的相关技术,具有强大的性能以及广泛的跨平台能力;它友好的界面和良好的设计,能够真正的在数据库的层次上为用户提供不同数据间的关系查询,并且还具备一定的数据可视化和分析的能力。可以说,GRID真正的能够存储基因转录以及翻译的整个调控过程,并且为生物学专业用户提供研究所需的所有材料。