流形学习中非线性降维方法的研究及在烟草数据中的应用

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:euufhuhfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对机器学习和数据挖掘等领域进行研究的目的之一是通过对高维数据的分析和处理来探寻隐藏在其中的内部规律;但是由于现实世界的复杂性,越来越多的数据呈现出维数过高、数据量过大、结构呈非线性、高增长率等特点;这对传统的机器学习和数据挖掘分析方法提出了严峻的考验,而流形学习作为机器学习一个新兴的数据分析方法,可以很好的发现高维数据分布的内在几何结构,挖掘出高维数据内部规律及本征信息,有效结合可视化技术在低维空间来观测高维数据内部特性。目前流形学习已经广泛应用于各个领域并取得了良好的效果。本文分别对当前流形学习中主流的线性降维方法和非线性降维进行了理论和应用的详细介绍,通过深入分析线性方法在处理某些高维数据所存在的局限性的基础上恰当地引出非线性降维方法;本文重点研究和分析了非线性降维方法中经典的LLE算法、ISOMAP算法,对两种算法在部分烟草数据集和人工数据集进行了对比、分析和总结,发现了算法存在的共性问题---邻域内样本点个数的如何正确选择。为更好的解决这个问题,本文主要做了以下几个方面的工作:1、针对高维空间数据分布有可能呈现非线性的特点,本文适时地引入了核变换思想,将原始数据空间通过某种映射变换到一个线性或近似线性的更高维的空间,在这个空间来研究对数据进行规律性的挖掘和分析;这项研究工作主要目的是有效解决烟叶原料质量数据样本点稀疏、局部非线性等难题;为下一步算法的提出和实验验证奠定基础。2、影响LLE算法执行效果的关键因素是近邻个数K的选择,确定自适应近邻个数K的重要前提是搞清楚高维数据的空间分布是否符合某个特征分布;针对此问题,本文引入并简述了高斯分布(正态分布)的概念性特征,对烟叶质量数据各个质量指标属性(随机变量)进行分析,分析结果表明烟叶质量数据具有正态特性。分析烟叶原料质量数据的正态性之后,本文给出了在此分布下自适应确定近邻个数K的具体实现方法。3、在用核方法解决了烟叶原料质量数据点稀疏、局部非线性问题,并在分析烟叶原料质量数据符合正态分布的情况下融合了自适应近邻的思想的前提下,本文提出了基于核变换的自适应近邻的LLE改进算法(KANNLLE),详细分析并给出了算法的设计流程。4、通过结合聚类技术对KANNLLE算法进行了实验验证和分析;结合二维可视化技术通过对比LLE、KANNLLE处理后的数据的聚类效果,以直观的视觉角度证实了改进算法的有效性;同时从对聚类结果的数值统计的角度分析了算法的优越性。这也为流形学习算法同其他相关领域技术相结合提供了一种研究思路。5、总结了本文的主要工作,并从算法实际应用、算法同其他聚类算法优化结合以及将该算法思想同其他流形学习方法如ISOMAP有效融合等方面展望了今后的研究方向。
其他文献
说话人确认技术用于判断给定语音是否属于某个说话人,它作为一项关键的语音辅助应用技术,现阶段已经受到广泛的重视,并作为身份认证技术普遍应用于各种相关领域。而在已有的
软件测试是保证软件质量的关键性工作,在软件开发周期中占有非常重要的地位。软件测试的工作量随着软件产品规模不断扩大以及软件复杂性越来越高而迅速增长。为了降低软件测
随着网络应用范围的越来越广,其在人们的生活和社会中扮演越来越重要的角色,但是网络的安全问题也随之而来。自1996年初发现分布式拒绝服务攻击(DDoS)以来,DDoS攻击被广泛用
近年来,无线传感器网络技术得到了快速发展,被广泛应用于军事国防、医疗卫生、环境监测、智能家居、公共安全、抢险救灾等诸多领域。传感器节点的定位是无线传感器网络应用的
交通事故现场绘图系统是用来辅助中国及世界上其他国家交通警察处理交通事故现场勘查和绘图的系统软件。本系统的目的是建立一个基于矢量图的图形绘制系统,通过基本图元的绘
当今,3G技术迅猛发展,本文主要是在研究了移动增值业务之后,借鉴彩铃业务的成功应用,给出了一种将移动通信与Internet相有机结合的多媒体彩像业务的实现方案。多媒体彩像业务
随着科学技术的发展迅速,人脸表情识别近年来突飞猛进,人脸表情识别越来越受到关注,如何方便有效地实现人脸表情识别,已经成为人们日益关心的问题。人脸表情识别的能够自动识
随着人工智能技术、计算机技术、电子技术和信号处理技术的飞速发展,机器人技术在近些年取得了巨大的进步,机器人技术的应用领域也非常广泛。目前,在工业、农业和军事已经研
语音情感识别是指利用计算机分析说话人的情感状态及变化,进而确定其内心情绪或思想活动,实现人机之间更自然更智能化的交互一种技术。语音情感识别的研究对于增强计算机的智
无线传感器网络中传感器节点体积小,采用电池供电,因此造成了单个节点处理和存储能力有限、通信范围有限、能量有限等问题。然而,相邻节点间共享信道极易引起收发数据的冲突,