论文部分内容阅读
起源于理论物理的图模型,近些年被越来越多地应用于高维数据集和复杂系统的研究中。比如:图模型被引入到系统生物学领域,用来描述带有成千上万个变量的基因表达数据和基因间的关联网络。本文关心的图模型主要是多项图模型、高斯图模型和条件高斯图模型。多项和高斯图模型都是用一般的无向图刻画的,而条件高斯图模型是用标示图刻画的。可压缩性是图模型进行结构降维和模型选择的重要方法。通过指出图模型能够压缩到的变量子集,我们可以避开不可观测或缺失的变量。而且,直接在子模型上进行估计和检验,在很大程度上降低了对样本量的要求。我们最关心的问题是:在多项图模型,高斯图模型和条件高斯图模型下,给定关心的变量集A,如何寻找包含A的最小的变量集B,使得模型能够压缩到B所诱导的子模型上。Asmussen和Edwards及Frydenberg都曾指出过可压缩性和图的分解的某种等价关系。Madigan和Mosurski对于可分解图上的多项图模型,给出了一个寻找变量集B的算法。他们的算法对于可分解图上的高斯图模型也有效。但是,对于一般无向图上的图模型他们的算法无法找到极小子集B。在本文中,我们提出的方法将面向最一般的情况,即:对于一般无向图上的多项和高斯图模型,寻找包含关心变量的极小可压缩子集。进一步,标示图上的条件高斯图模型也可以得到相应的处理。本文的目的就是基于图的带有统计意义的分解,对图模型的结构给出精细的刻画,从而进一步研究图模型的压缩降维问题。除了上述三种图模型外,我们还会讨论层次模型的压缩性和条件高斯贝叶斯网的传播计算问题,同样的,模型结构的精细刻画能很好地帮助我们对这两个问题进行研究。为了研究多项图模型和高斯图模型的压缩降维,我们需要从无向图的分解入手。这种分解结果的存在唯一性及相应的分解算法已由Leimer给出。我们将指出分解后的图的基本单元-素块组成的集合族,会构成树状结构-连接树,并给出这种树状结构的多个等价刻画。利用这种结构,我们可以研究这两个模型的压缩降维问题。并且,我们提出的方法可以进一步应用到层次模型上去。对于条件高斯图模型,为了研究它的可压缩性问题,我们需要建立标示图的m-分解和星图的分解之间的等价关系。这种关系能够帮助我们将条件高斯图模型的可压缩性问题转化到一般无向图上进行处理。另外,我们也研究标示图的基本单元m-素块,与一般无向图相似,m-素块形成的连接树同样可以被建立起来。并且,通过引入标示图的极小m-三角化和星图的极小三角化的关系,我们可以将条件高斯贝叶斯网的道义图进行极小m-三角化,从而得到一棵m-连接树。这样得到的树能够尽可能多地体现出条件高斯贝叶斯网上的整体上的条件独立关系,从而,利用这棵树进行概率传播计算,能有效降低计算量和复杂度。