论文部分内容阅读
在信息时代,人们常要面对海量数据进行处理,且这样大量的数据仍在以几何级的速度增长。这些海量数据中往往存在着大量的冗余,因此如何对数据进行有效处理,找到数据间内在的规律并有效减少数据量,提取隐含信息,成为人工智能、机器学习、数据挖掘等领域的核心问题之一。流形学习算法可以有效的发现高维数据集的内在维度,对高维数据去粗取精,从而提高海量信息的处理效率。本文主要关注于适用于海量数据的快速流形学习算法及其应用。主流的流形学习算法分为线性和非线性两大类。出现较早的以PCA算法为代表的线性流形学习算法,其实现简单,但只适合具有线性流形结构的数据集;以Isomap、LLE等为代表的非线性流形学习算法可以有效的发现非线性数据中的流形,但这些流形学习算法的时间复杂度普遍较高,不适合处理海量的数据集。基于锚点集的最小平方误差等距嵌入算法AIE具有O ( nlog(n))的时间复杂性,而在获得测地线距离后的计算时间复杂度达到对嵌入点数线性,且可以完全并行实现,所以AIE可以有效提高海量数据的处理速度。传统搜索引擎技术主要依赖于用户输入的查询词提供搜索结果,这种方法在查询词较短含义模糊的情况下无法准确把握用户需求所属的领域,因而降低了搜索结果的质量。基于点击数据的查询扩展系统,通过对用户点击行为的捕获实时判别用户需求,并采用AIE压缩点击数据中隐含的网页差异性信息,大幅减少了搜索引擎调用网页差异性信息的空间开销。