论文部分内容阅读
表观遗传特征的研究在表观遗传学的领域中是一个热点问题。其中特征的提取量化是一个关键步骤,然而目前各文献采用的方法不同,所使用的特征也不相同,导致特征量化的具体过程计算繁琐。同时,由于DNA序列模式特征计算的特殊性,常规的模式匹配算法的应用并不理想。另外,在对DNA甲基化的研究中,各方法所使用的特征存在差异,DNA甲基化的重要特征并不明确。最后,表观遗传特征间是如何相互作用来调控基因表达的原理还并不明确。本文针对上述表观遗传学研究中存在的问题,开展了对表观遗传特征相关算法工具及其与基因表达关系的分析研究,论文的主要研究内容和创新点如下:(1)集成文献中的重要特征,设计并实现了一个DNA序列的特征提取软件工具。该软件封装了特征的计算过程,可以方便地批量计算目标序列的相关特征,为后续的数据分析和挖掘提供便利。(2)分析了DNA序列特征计算过程中的特殊性,提出了一种基于“空间换时间”的DNA序列模式计算算法,设计了以map数据结构来存储中间结果的方案,使得扫描DNA序列一次即可同时计算所有元组模式在该序列中出现的次数。实验结果及分析表明,该算法提升了DNA序列模式特征计算的效率,较好地解决了计算DNA序列模式特征的问题。(3)集成DNA甲基化的主要特征,对CpG岛和非CpG岛序列进行分析,鉴别特征的重要性,并利用特征选择技术识别紧凑的特征子集。结果表明,序列模式和组蛋白修饰都是关联DNA序列甲基化的重要特征但并不独立,两者结合共同参与维持序列的甲基化模式;H3K4me3同时是CpG岛序列和非CpG岛序列最重要的组蛋白特征,具有最高的识别频率。本文标识DNA甲基化的重要特征在生物学上具有重要功能,可以作为线索来研究DNA甲基化、组蛋白修饰和基因调控间的关系。(4)通过组合偏相关系数和皮尔逊相关系数,构建了一个基因表达、DNA甲基化以及组蛋白修饰的表观遗传相互作用网络(EIN),并从EIN中挖掘出关键模块。通过对挖掘结果的分析,得出表观遗传修饰调控基因表达的原理,例如,H3K27me3,H3K27me2,DNA甲基化,H3K9me2和H3K9me3主要在基因表达的调控中起着抑制作用,而与基因表达的激活关联很弱。我们提出的这个方法可能会帮助揭示表观遗传修饰与基因转录之间内在关系。