论文部分内容阅读
模式识别是一门以应用数学为理论基础,利用计算机应用技术,解决实际分类及识别问题的学问。统计和微分几何规范理论和技术在模式识别中有着广泛的应用,尤其是在形状分析以及混合模型的无监督学习问题中。本文以统计理论和微分几何为理论基础,重点研究两方面的内容:(a)对基于微分流形的形状分析相关问题进行了较为系统的研究;(b)对于混合模型的无监督学习的理论和方法进行研究,尤其是模型分支数目的选择问题。在基于微分流形的形状分析方面,以平面上的简单闭合形状为研究对象,深入研究基于该理论框架下的形状分析。在传统的方法中,统计形状分析主要是使用地标点(landmark)来建立形状特征关键点的数学模型,通过主成分分析来学习其关键点的参数,或水平集的方法来建立形状模型。但是这些方法都存在需要人工干预、不能实现拓扑变形等缺陷。因而,针对这些缺陷,我们需要构建一个统一的、具有拓扑不变性的形状空间。在此空间下,借助合适的概率模型,通过从训练集中学习到的关键参数,推导和演绎出其他未知形状,进而对形状进行识别。本文以微分几何为分析工具,利用弧长为参数的函数去描述平面简单闭合形状,建立了一个无限维的微分流形。形状之间的变化被表示为这些流形上的李群作用。旋转,平移,缩放的不变性通过低维的群作用实现;形状平滑的连续变化模型可以通过高维的微分同胚群来建立,即借用微分几何中直线沿曲面上的曲线平行移动的方法,在形状空间中给出两个形状连续变化的测地线路径。混合模型作为统计形状分析有力工具而备受关注,本文对混合模型的无监督学习理论和方法进行了深入研究。混合模型中一个关键的问题是模型中分支数目k的估计,一些经典的混合模型拟合方法(比如极大似然方法、Bayes方法)都是在固定k的情况下进行的。而实际应用中k的值多数是未知的,一般从数据集对其进行估计。估计k的值是期望最大化算法拟合有限混合模型的主要困难,只有获得正确的k后才能对模型其它参数进行估计。传统的模型选择方法是在原有的参数估计算法后加入一个准则函数,尝试多个可能的k(kmin—kmax),并比较不同k下基于似然函数的某种准则函数的值,再根据某一检验准则对它们进行检验,选择检验结论好的那一个k作为最优分支数。这种方法需要估计多个k值下的参数,当混合模型的密度函数为t分布时,计算复杂度会变得异常的高。为了解决这个问题,本文提出了t混合模型的次胜者受罚的期望值最大化(RPEM)算法,其思路是在期望最大化算法中加入惩罚项,在似然函数里设计出特殊的加权项,使EM算法在初始类中心的位置参数更新时,分成获胜点和次胜点分别更新,获胜者取正的学习率,次胜者取负的学习率,将初始的部分种子点逐渐收敛到数据集的实际类中心,其余的种子点则被“推到”远离数据集的位置。该算法能够在一次参数估计中就实现对t混合模型的分支数的估计,具有良好的性能。