论文部分内容阅读
在许多模式识别和机器学习应用中,降维是一个基本的问题。近年来,为了解决类的分离问题,出现了应用最大最小思想降维的方法。这些方法特别强调类间的分离,但仅仅只明确考虑了类内的紧密性和类间的分离性,完全忽视了类中心的分布,可能不能获得优化的分类性能。在本文中,基于现存的工作,提出了三种新颖的监督降维方法,不仅考虑了类内的紧密性和类间的分离性,而且也考虑了类中心的分布,通过使类中心大致均匀分布,获得更优的分类性能。另外,提出了一种拓扑限制半等距嵌入降维方法。具体研究成果如下: 1.提出了分步的最大最小距离分析的降维方法。在最大最小距离分析降维方法的基础上,通过松弛类间最大最小距离以改变这一距离唯一决定类中心分布而可能导致类中心非均匀分布这一状况,从而使得类中心大致均匀分布。采用分步松弛和每一步小比率松弛以近似保持类间良好的分离性。提出了本方法的加速形式,以降低优化过程中的计算量。同时,也提出了本方法的核化形式,以解决训练样本不满足高斯同方差分布这一实际问题。在人工和实际数据上的实验结果表明了本方法的有效性,证实了使类中心大致均匀分布能显著提高分类性能。 2.提出了使用Fisher准则调整的最大最小距离分析的降维方法。先重新阐述了Fisher准则,再应用这一准则来调整最大最小距离分析的降维方法。通过适当的调整,在两种降维准则的共同作用下,原先子空间中近的类对变得更加分离,远的类对变得靠拢,这样既能实现类中心大致均匀分布,又能近似保持类间良好的分离性。本方法避免了迭代优化,因而计算量相对较小。提出了本方法的加速形式和核化形式,以进一步减小计算量和解决数据分布的问题。实验结果表明了本方法能使类中心大致均匀分布从而提高分类性能。 3.提出了熵调整的最大最小线性判别分析的降维方法。针对最大最小距离分析的降维方法不能保证类内紧密这一不足,首先提出了最大最小判别分析方法,这一方法通过最大化两类的类间分散度量与全部类的类内分散度量之间的最小比值来实现类内的紧密性和类间的分离性;接着,将Shannon熵调整项和相应的距离差值调整项引入目标函数,以精确地控制所有类对距离趋向相等而实现类中心大致均匀分布。这样能解决近似优化计算造成处理低维数据时分类性能下降的问题,并且进一步提高分类性能。本方法只涉及解决二次规划问题而不是半定规划问题,极大地减少了计算量。在人工和实际数据上的实验结果表明了本方法的有效性,证实了使类中心大致均匀分布能有效提高处理低维数据或子空间的维数低时的分类性能。 4.现存的流形学习方法中,那些依赖邻近点间距离来估计流形全部点间距离的方法,由于流形的非凸性,从而不能可靠地得到流形点间的真实距离。虽然通过去掉与边界相交的长测地线能够解决这一问题,但是这一做法有两个不足。首先,去掉那些仅包含少数边界点的长测地线,降低了对噪声的鲁棒性而对消除流形的扭曲几乎不起作用;其次,短测地线对噪声敏感,将它们与长测地线同等看待,可能不利于抗噪性能。为了更大程度实现等距映射,本文给出了非线性降维的调整框架。这一框架保留仅包含少数边界点的长测地线,同时降低短测地线的权重,因而对噪声具有更强的鲁棒性。而且,改进了边界点侦测并提出了补充的方法。实验结果表明了所提出的拓扑限制半等距嵌入降维方法的有效性和鲁棒性。 最后,本文对所做的工作进行了总结,并结合本文的不足之处,指出了将来可能开展的工作。