论文部分内容阅读
染色质结构在真核生物基因表达过程中发挥着重要作用。染色质的基本单位是由组蛋白和基因组DNA组成的核小体。核小体上的组蛋白会影响其它蛋白质因子与基因组DNA的结合,从而在转录和转录后水平上调控真核基因的表达。而核小体定位和组蛋白修饰是影响染色质结构的两个重要因素。随着ChIP-Seq和ChIP-ChIP技术的迅速发展,产生了大量的核小体实验数据以及组蛋白修饰数据,这些数据背后隐藏着丰富的生物信息,隐藏着基因表达调控规律。如何收集、管理、分析和挖掘这些海量数据是生物信息学面临的巨大挑战。
围绕染色质结构实验数据的集成和分析,本文开展了深入的生物信息学研究。本文首先构建了一个核小体定位和组蛋白修饰数据的数据库。该数据库整合了近300GB核小体定位数据以及部分组蛋白修饰数据。该数据库不仅为用户提供了基本的染色质结构信息查询功能,相对于其他类似数据库,还开发了更多的数据分析工具,包括染色质数据相互对比、功能位点分布与染色质数据关系对比、统计某类型功能位点周边染色质数据分布等,并且提供染色质结构数据的可视化手段。
在建立染色体结构数据库的基础上,本文发展了组蛋白修饰与基因表达关联关系的分析方法。贝叶斯网络常用来预测多个因素间的因果关系。本文使用四种不同的贝叶斯网络算法来预测20种组蛋白修饰与基因表达间的因果关系。尽管四种方法得出的结果存在异同,将四种贝叶斯方法预测的结果进行统计,所得结果中H3K36me3对于基因表达的直接影响作用,以及H3K27me3与H3K27mel等几组组蛋白修饰之间相互干预的影响的预测得到了实验的证实。证明了贝叶斯网络用于预测组蛋白修饰与基因表达间关系的可行性,并为进一步研究组蛋白修饰与基因表达间关系提供了参考方向。