论文部分内容阅读
数据降维技术是缓解维数灾难问题的关键技术,具有重要的研究意义。近年来,流形学习作为一种新型的非线性数据降维方法,其主要目标是获得高维数据的低维紧凑表示,以寻找数据的本质信息,是目前降维技术研究的热点。等距映射(ISOMAP)降维算法是流形学习算法的代表之一,其因具有能保持非线性数据降维后空间全局结构完整的良好特性而受到了广泛关注。本文在ISOMAP算法的基础上,针对ISOMAP算法在测地距离计算过程中对噪声敏感和不适用于多流形数据这两个问题,利用数据的密度信息进行展开研究。基于密度思想,提出了处理噪声问题的基于密度缩放因子的ISOMAP(D-ISOMAP)算法和处理多流形数据的有监督的ISOMAP(DMM-ISOMAP)算法。大量实验结果展示了提出算法的有效性和在实际应用中的良好性能。本文主要工作总结如下:(1)经典降维算法分析与比较。将降维算法分为线性降维和非线性降维这两类进行介绍,从算法的思想、算法流程和算法分析三个方面对介绍的降维算法进行详细的分析,比较各类降维算法的优缺点,最后针对非线性降维算法ISOMAP提出两个改进的方向。(2)针对ISOMAP算法在测地距离计算时对噪声敏感的问题,提出了一种基于密度缩放因子无监督的ISOMAP(D-ISOMAP)算法,减少了噪声对降维的影响,增强了算法的鲁棒性,并使通过该降维算法后的数据有利于数据的聚类任务。实验结果表明,提出的D-ISOMAP算法相比于其他降维算法鲁棒性强,并能提升聚类任务的性能。(3)针对ISOMAP算法是一种无监督的降维算法对于处理存在多流形的数据时容易产生短路边的问题,根据数据的密度信息和标签信息,提出了一种有监督的基于多流形的ISOMAP(DMM-ISOMAP)算法,以消除ISOMAP算法在处理多流形数据时出现短路边的情况。实验结果表明,提出的DMM-ISOMAP算法能消除降维过程中出现短路边的情况,能使降维后的数据更具有判别性能,相比其他降维算法提出算法在数据分类任务上取得了明显的优势。