基于最优给分的稀疏无监督学习算法研究

来源 :浙江大学计算机学院 浙江大学 | 被引量 : 0次 | 上传用户:yaoyao1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主元分析作为一种多元统计分析方法,广泛应用于数据处理和简化中。这种方法试图通过对数据协方差矩阵进行对角化,从而找到数据中最主要的元素和结构,去除噪音和冗余,对原数据进行简化处理。然而,在多元线性分析方法中,当求解因变量对自变量的回归时,得到的组合系数往往均不为零,因此这种回归模型的主要缺点是缺乏可解释性。主元分析中的主元作为从数据中提取出来的主要信息,是所有自变量的线性组合,因此也存在这样的缺点。Tibshirani在1996年提出的lasso方法,通过对回归系数加上e1范式约束,使得其中的某些系数自动退化为零,在提高了回归精度的同时也产生了可解释的模型。Zou等人在此基础之上,于2005年提出了elastic net的方法,对回归系数同时加上e1和e2范式约束,解决了lasso方法中不能解p>n类型的数据等其他缺点。Jolliffe等人将对回归系数的约束延伸到主元分析中,各自提出了得到稀疏负荷系数的方法。这些方法主要思想都是在回归模型或特征值分解中,对负荷系数加上e1和(或)e2范式约束。本文从另一个角度,借鉴Zhang在09年提出的最优给分无监督学习框架的基础上,提出SPCA—OS稀疏主元分析方法,实验结果表明,和其他稀疏方法相比,在累计方差大致相同的情况下,SPCA—OS负荷系数更加稀疏。另外本文还提出了与主元分析相对应的稀疏主坐标分析(SPCO),这种方法在降维的同时直接对降维坐标进行稀疏,区别于负荷系数的稀疏。实验结果表明,SPCO能够有效对降维坐标进行稀疏,并能解决如基因微阵列p>>n情况下的数据。两种方法的有效性在数个UCI数据集上得到了验证。这两种方法的提出,为如何解决数据降维的同时,得到一种可解释模型提供了新的思路。
其他文献
互联网时代,web中的文本数量和访问这些文档的人数一直在海量增加,对这些数量巨大的文本信息,人们要想找出一些相关主题的内容,仅靠人工的分类方法已经不能符合实际需要了。
随着信息技术的不断发展,信息推送技术成为了即时发布和获取信息的一种重要方式。它不同于传统的信息拉取方式,能够将信息主动实时推送给用户,满足人们及时获取有用信息的需
随着移动终端和地理位置服务的普及,互联网用户的位置信息更容易被获得和积累。分析潜藏在大量用户数据中的区域信息能使企业更好地实现资源管理、人员分配和服务站点建设,减
随着信息社会的发展,互联网上的信息飞速的增长并开始呈现出复杂性和多样性。这时传统的基于关键字的信息检索技术再也不能满足人们的信息查询需求。其问题主要表现在,传统的
随着数据挖掘技术的发展,人们尝试将该技术运用于Web,形成了Web挖掘技术,Web使用挖掘就是其中一个重要的分支。Web使用挖掘通过对Web日志的分析,获取Web上隐藏的用户感兴趣的
图像分割在图像处理领域中是一种基本且重要的技术,也是进行目标识别和图像分析的前提和关键,其结果的好坏对后续的识别和分析过程有很大的影响。图像分割被广泛应用在人脸识
为了让CPU更快,人们设计的CPU变得越来越复杂且不规整,如增加乱序执行单元、超流水线、分支预测和投机等等技术;不幸的是,这些技术已经基本没有潜力可挖掘,而且也无法很好的控
大规模的人群仿真在电影特效、电脑游戏等有大量的应用,但是人群规模达到一定数量后很难实现其实时性,单纯依靠串行算法进行大规模人群仿真已经无法满足当前各种应用的需求,
随着通信业的发展,人们已经逐渐习惯了随时联上网络了解最新资讯,分享工作成果,购买心仪产品的生活。从以单个计算机为主的远程通信系统,到多个主计算机通过通信线路互连起来
人体跟踪是运动人体视觉分析中非常活跃的一个课题,其在智能监控领域中广泛的应用前景和潜在的经济价值激发了广大科研工作者的浓厚兴趣,也使它成为研究的热点问题之一。本文