论文部分内容阅读
随着高通量数据分析数据的大量产生,生物信息数据库及系统生物学在生命科学研究中越来越重要。大量的数据库和网络服务又使得使用者面临被数据淹没的危险,此外如何有效的组织和利用这些信息也成为生物信息研究的重点。为了构建一个统一的生物信息框架来有效的统一和组织以及分析这些不同来源、类型的数据和信息,我们对生物信息的数据结构和信息构成进行了基础的分析。在对原始数据处理的基础上,本研究设计了以概念为节点,以关系为连线的数据框架。对海量生命科学概念构建统一的本体库,构建了新的基于语义的文献搜索引擎。我们还开发了一套新的网络分析算法,结合我们标准化后的信息分值,我们可以快速的计算并排序最相关的概念和可能的信息通路,最终提供可能的生物学解释。在进行的基础研究和数据处理基础上,我们开发了名为BioPubInfo(http://www.biopubinfo.org)的生命科学知识引擎,包含文献相关搜索引擎和网络知识分析引擎。目前网络知识分析引擎已初步完成了界面的开发和后台的设置,文献相关搜索引擎还在进一步完善中。在对生命科学海量数据的分析处理过程中,我们设计和摸索出了一套分析和处理海量数据,并利用数据的网络结构搜索和预测新知识的算法。新的算法在充分利用图形数据库与图形数据结构框架优势的基础上实现了对亿级数量概念关系网络的实时分析,并在此基础上对人类疾病和拟南芥、水稻相关性状的候选基因进行了预测。基于获得概念网络及其理念,我们对水稻的表型与基因的关系进行了预测,并整合其他信息建立了QTXtoGene的分析平台,后续将加入更多的物种和性状。在对全局数据整合的过程中,我们还分析了拟南芥的盐胁迫表达调控网络以及基因组进化和水平转移等几个方面的问题。构建了拟南芥根部在盐胁迫下不同时间的表达调控网络,采用了新的水平基因检测方法,分析并找到了家蚕基因组中10个水平转移基因。同时将共有信息的方法用于分析流感病毒受体蛋白不同位点之间的关系网络。