等距映射流形学习算法中的若干问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:luowencheng7758258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,大数据(Big data)吸引了各领域越来越多的关注。实际应用中的复杂高维数据,不仅对于计算复杂度和空间复杂度产生很高的要求,还会产生维数灾难(the curse of dimensionality),对数据分析和应用带来严重的问题。在尽可能保持原始数据信息的基础上降低数据维度,是解决上述问题的重要手段之一。流形学习作为非线性数据降维方法,凭借其能够学习原始数据在高维空间中的非线性结构、发现其本质维度的优势,近年来取得很多关注,出现了大量研究成果。然而当前的流形学习方法还存在一些普遍问题,如面对海量数据的计算效率问题、无法处理新数据导致的监督学习问题等。其中经典的等距映射流形学习算法Isomap具有计算效率低、邻域难以确定、无法处理新数据等内在缺点,限制了其进一步的实际应用。本文从Isomap算法存在的问题出发,研究Isomap及其改进算法产生的背景,针对它们存在的缺点提出了两种有效的流形学习算法,并和现有的相关研究成果进行了计算复杂度、空间复杂度和实验结果的比较。本文的主要贡献概括如下:1.梳理了Isomap算法的发展经历以及改进算法,介绍了相关算法的产生以及主要思想。2.提出了基于自组织神经网络的SoinnLandmark-Isomap(下称SL-Isomap)算法,具有同时确定基准点数量和位置的优势,解决了现有基准点Isomap算法中难以确定合适数量基准点的问题,同时实现了数据压缩与非线性降维。3.提出了基于自组织神经网络的拓扑学习与在线映射算法(Topology Learning and Out-of-sample Embedding, TLOE),同时解决了传统Isomap及其改进算法中计算效率低、邻域难以确定、无法处理新数据的三个内在缺点。更重要的是,由于TLOE能够对新数据进行在线降维映射,而不用重新训练整个数据集,使得TLOE的实际应用扩展到了监督学习。因此解决了流形学习中的计算效率和监督学习两大普遍问题。
其他文献
该文针对工程设计的特点,对工程智能CAD系统中的实例类知识进行了研究.首先,在分析了实例类知识的设计方法后,对实例类知识的表达进行了研究和探讨.第二,以西南交通大学CAD工
该文主要研究了电子商务应用中所涉及的若干关键技术.通过设计和实现一个电子书店模型,重点对Web数据库技术、商务智能技术和安全交易技术等方面进行了探讨.主要包括以下内容
在软件开发过程中,每收到一个bug报告,开发人员通常需要花费大量的时间和精力来找出bug可能发生的位置。近年来,为了减轻开发人员的负担,学者们提出了一些自动化的基于信息检索或
该文介绍了远程教育发展的概况,讨论了基于Internet的远程教学组织形式和模型,研究了网络在线教学系统和智能学习系统(ICAI).在网络在线教学系统中,着重分析了在线教学系统的
目前的防火墙大都是通用型防火墙,对于专用业务的防护能力不强;同时,现有的一此安全传输协议没有访问控制能力.针对以上问题,该文依靠密码学中的成熟理论及类防火墙访问控制
自21世纪以来中国经济迅速发展,大额支付系统的上线满足了中国经济国情。金融机构不断壮大以及它们之间业务量的不断剧增使得一个具有低流动性风险、高支付结算效率的大额支付
本文主要研究面向对象建模技术,并对面向对象建模语言UML进行了探讨,介绍了UML建模过程。阐述了模拟简单计算机系统的设计方案,并在模拟简单计算机系统的建模过程中应用UML建模
该文论述了一个公安业务处理、档案管理和办公自动化相结合的公安数字档案系统设计方案,为未来公安内部管理信息系统全面解决方案提供了基础.该方案突破传统的客户/服务器结
该文主要对系统中的以下几个关键问题进行了探讨:1、该文对移动漫游话单的几种数据分发的方式进行了探讨.考虑到网络阻塞的现状和系统实时性的要求,该文提出了缓冲池的概念,