论文部分内容阅读
随着人类基因组计划的进展,对于基因的功能和基因组内各基因的研究逐步深入,研究基因在不同时间和条件下的表达情况,是认识基因功能的一个主要途径。为了确定某个基因的功能,我们需要捕捉基因表达过程,这个过程描述了遗传信息如何通过转录和翻译转换成为功能基因产品。功能基因组学是通过采用微阵列技术,测试某种条件和环境的限制下的基因表达水平,在近几年的科研领域,微阵列技术已经成为生物研究的主要手段。因此,相应的数据分析成为生物信息学的重要工作之一,于是产生了许多探究性统计方向,包括双聚类算法。在生物信息学这一领域中,一个很关键的问题就是对基因表达数据进行双向聚类,将基因通过在多种不同实验环境下的表达数据进行双向的聚类,能够分析和识别同一类基因所共同具备的基因功能和转录调控元件。本文通过对传统的聚类方法的阐述,将双聚类的基本原理作为线索,对其研究现状进行了完整系统的介绍,并且提出了一种新的算法——ICQUBIC(Information ContentQUBIC),本算法是在QUBIC算法的基础上进行了改进,引入“信息量”来计算基因表达数据矩阵的某一行或某一列的一致性,以期使其聚类效果更佳。