论文部分内容阅读
生物系统的复杂性使得基因之间的关系呈现出多样化,其中一种关系为活化关系,即某些基因(调控基因)可能控制或活化别的基因(被调控基因),这样后者的表达将滞后于前者。通过比较基因随时间变化的表达模式,我们便可以推断出调控基因与被调控基因之间的关系,同时还可以解释基因在细胞中的调控过程。
以前的研究工作主要研究基因在相同的时间子集中的表达模式,而具有活化关系的基因,其表达模式将在不同的时间子集中存在相似性,即这些基因的表达模式之间存在着时间差,或者说一些基因的表达模式滞后于另一些基因。为了在微阵列数据集中找到这种模式,本文首先提出了一种称为td-cluster(time-delayed cluster)的聚类模型,该模型定义了一种基于时间滞后的缩放(scaling)模式的聚类,同时td-cluster模型还可以很容易地扩展到时间滞后的平移(shifling)模式等其它模式。而当前基于模式的双聚类(biclustering)算法发现的在相同时间子集中的缩放模式或者平移模式,只是td-cluster模型在滞后时间等于零时的特例。
为了发现符合td-cluster定义的聚类,本文设计了一种称为TG-tree的数据结构,然后实现了一种基于TG-tree的算法。初始TG-tree去除了数据集中的噪声以及不相关信息,然后我们基于时间点来扩展TG-tree,从而使得搜索深度大大减小,因为在微阵列数据集中,时间点的数量远远小于基因的数量。同时,本文还运用了一些削减策略以提高算法效率,并将td-cluster模型及算法扩展到更高维的微阵列数据集中。
我们在合成与真实的微阵列数据集上都进行了实验,结果表明我们的算法能以较高的效率找到具有重要生物学意义的聚类。