论文部分内容阅读
高通量实验手段,特别是基因芯片技术极大地促进了功能基因组学的研究。基因调控网络的重构是功能基因组中最具挑战性的课题之一。由于基因表达数据本身具有的独特的复杂性以及生命科学研究先验知识的不足,针对基因表达数据的分析至今仍没有很成熟而较为统一可行的方法。不非确定性人工智能领域的概率图形模型——贝叶斯网络模型以其坚实的理论基础,知识结构的自然表述,灵活的推理能力以及方便的决策机制使其应用范围越来越广泛,成为构建基因调控网络的一种有力工具。利用贝叶斯网络构建基因调控网络也是目前生物信息学研究的一个热点。本文的主要内容如下:(1)贝叶斯网络的概述。全面介绍和分析了贝叶斯网络的研究背景、研究现状和研究趋势;贝叶斯网络的基本原理;贝叶斯网络的典型学习算法。(2)K2算法是学习贝叶斯网络结构的重要方法,在正确指定节点次序的情况下,K2执行效率和精度都较高;然而,在实际中节点次序通常是未知的。本文提出一种构建基因调控网络的IE_K2算法,该算法首先基于两个节点互信息构建无向图,然后引入联合信息熵来获得最佳的节点次序。在alarm网中的实验结果表明,其预测的准确率优于爬山算法和随机节点顺序的K2算法。进一步,将IE_K2算法用于构建酿酒酵母的基因调控网络,通过现有文献证明了调控关系的正确性,显示了该算法的有效性。(3)许多基因网络构建方面的研究都是假设基因表达之间没有时延或者有一个不变的时延。生物文献表明不同的基因对之间有不同的调控时延。因此本文提出一种构建多时延的调控网络构建方法——TD_GN算法。首先转换基因表达数据矩阵,基于互信息、联合信息熵和KL分离值得到每个基因的候选父亲节点集合,然后基于K2算法提出一种基于改进的学习算法LM算法,构建多时延的基因调控网络。在随机生成的网络(10和50个基因)和由真实网络产生的数据集合中实验,结果表明TD_GN算法优于K2算法、DBmcmc和REVEAL算法。将其用于酿酒酵母菌细胞周期表达数据时,可构建出多时延的基因调控网络,显示了算法的有效性。