论文部分内容阅读
高斯混合模型能够用参数化的方法描述样本空间中的数据分布,将高斯混合模型的参数作为图像的特征具有简洁高效的优点。层次性图像检索在图片高斯混合特征的基础上通过聚类得到类的高斯混合特征。层次性高斯混合聚类算法能将复杂的高斯混合特征聚类成比较简单的混合模型,检索的时候可以先查找类,然后在类中查找目标图片,这样可以大大降低时间复杂度。层次性图像检索的核心是高效的层次性聚类算法。聚类分析用来探索未知数据的内部结构,为决策服务,在各个领域有着广泛的应用。高斯混合聚类将高斯成分当作样本空间中的基元,借鉴经典聚类算法的思路,将复杂的高斯混合模型聚类成简单的高斯混合模型,适合于处理高维空间中的大样本数据集,是对经典聚类算法思想的推广。本文主要研究了如下两种混合聚类算法:一种是由N.Vasconcelos提出的层次性期望最大(HEM)算法。HEM算法是EM算法的推广,但是HEM算法没有充分考虑混合成份之间协方差的差异,使得聚类的时候出现协方差大的混合成份过度扩张,导致最后聚类得到的混合模型不能很好的反映类的内部结构。本文提出一种改进的HEM聚类算法—cov-HEM,摒弃传统的分裂算法,采取引入协方差因子平衡后验概率即隶属度的方式,增强小协方差成分的影响,抑制大方差成分过度膨胀。另一种是Slonim提出的一种基于信息论的凝聚式信息瓶颈(AIB)算法。AIB算法是凝聚算法的推广,但是AIB算法在聚类时采用的Monte-Carlo仿真公式却是值得商榷的。本文证明了此Monte-Carlo仿真公式与信息瓶颈原理的矛盾性,并提出了概率密度满足高斯混合分布时的解决方案,即将高斯混合分布时的概率距离度量引入到AIB中的相似性度量;同时将HEM算法中期望步骤中更新高斯混合成分参数的思路引入AIB算法,用来求每次合并得到的新的高斯成分的参数。利用类似的思路还可以将其他经典聚类算法进行推广。图像检索实验验证方案的合理性和有效性。