流形学习算法的研究与应用

被引量 : 0次 | 上传用户:A5151
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,人们常要面对海量数据进行处理,且这样大量的数据仍在以几何级的速度增长。这些海量数据中往往存在着大量的冗余,因此如何对数据进行有效处理,找到数据间内在的规律并有效减少数据量,提取隐含信息,成为人工智能、机器学习、数据挖掘等领域的核心问题之一。流形学习算法可以有效的发现高维数据集的内在维度,对高维数据去粗取精,从而提高海量信息的处理效率。本文主要关注于适用于海量数据的快速流形学习算法及其应用。主流的流形学习算法分为线性和非线性两大类。出现较早的以PCA算法为代表的线性流形学习算法,其实现简单,但只适合具有线性流形结构的数据集;以Isomap、LLE等为代表的非线性流形学习算法可以有效的发现非线性数据中的流形,但这些流形学习算法的时间复杂度普遍较高,不适合处理海量的数据集。基于锚点集的最小平方误差等距嵌入算法AIE具有O ( nlog(n))的时间复杂性,而在获得测地线距离后的计算时间复杂度达到对嵌入点数线性,且可以完全并行实现,所以AIE可以有效提高海量数据的处理速度。传统搜索引擎技术主要依赖于用户输入的查询词提供搜索结果,这种方法在查询词较短含义模糊的情况下无法准确把握用户需求所属的领域,因而降低了搜索结果的质量。基于点击数据的查询扩展系统,通过对用户点击行为的捕获实时判别用户需求,并采用AIE压缩点击数据中隐含的网页差异性信息,大幅减少了搜索引擎调用网页差异性信息的空间开销。
其他文献
本文介绍了三坐标测量机测量结果的不确定度评定方法。
<正>果料酸奶是指在乳中加果肉,果味或果酱等原料,接种保加利亚杆菌和嗜热链球菌,经过乳酸发酵而成的乳状产品,成品中必须含有大量相应的活菌。随着人们生活质量的提高,人们
现代意义上的调查性报道起源于西方。它不论是萌芽在英国还是后来兴盛于美国,都是所处社会政治经济环境发生急剧变革阶段的产物。中国电视领域里真正意义上的新闻调查性报道
目的:1、了解江西省人群中白介素(IL)-16和白介素(IL)-18基因多态性分布的特点。2、探讨IL-16启动子区-295T/C基因多态性与江西汉族人群支气管哮喘(简称哮喘)的关系。3、探讨
随着经济全球化和科学技术的迅猛发展,建设项目的规模越来越大,内容越来越复杂,要求越来越高,涉及面越来越广,工程总承包模式因能提供社会化、专业化和商品化的服务,日益受到
本课题分别从载体和助剂两方面研究了对降低镍基氨分解催化剂使用温度的影响,探寻降低氨分解催化剂使用温度的方法和机理,同时考察了硫中毒对镍基氨分解催化剂催化性能的影响
<正>六味地黄九源自《金匣要略》的肾气九,人减去原方中的桂枝、附子就成了传统的六味地黄丸。传统方剂由熟地249,山茉莫门g,于山药门z.怪泻如.
本文主要阐述白酒中的营养成分和危害成分。
天津市是我国自行车产业的摇篮,在将近一个世纪的发展历程中由兴而衰而又兴起,年产量已逾3000万辆,连续四年其产量高居我国各产业榜首,天津市成为我国最大的自行车生产基地。
目前合成均三甲苯工艺已经取得了一定的进展,但由于各种工艺在技术、成本、质量等方面的原因,尚未有一种路线显示出明显的市场竞争优势。本文综述了多年来合成均三甲苯各种工