论文部分内容阅读
随着许多物种的基因测序工程的完成和生物技术的发展,人类拥有了大量的生物数据。本世纪一个具有挑战性的问题就是挖掘这些数据中的生物信息,其中发现生物序列中的保守片断是一个重要的问题。这些保守片断被称为motif。Gibbs抽样是在生物序列中的motif识别中应用最广泛,最成功的算法。以往的研究都把motif的长度视为固定的,而实际情况是事先并不知道motif的长度。本文通过把motif的长度看作缺失数据,通过算法来确定这个长度。实验结果表明,这个算法是可行的。Bailey和Elkan在1994年通过二元混合模型把EM算法用于生物序列中的motif识别。这个方法首先把原来的生物序列截断,然后用二元混合模型来拟合新的数据集。注意到新的数据集中有很多数据并不能由这个二元混合模型来生成。本文通过引入多元混合模型来拟合这个数据集,从而使每个数据都能由这个多元混合模型生成。由于我们的模型能更准确地描述数据,从而能够使参数更快、更准确地收敛于真正的参数值。