特征降维算法在股价预测中的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:greenranqingiqng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,数据的获取更加便捷,不论是在维度上或样本数目上都呈现爆炸性的增长。各大行业利用互联网快速便捷的优势不断地吸收、获取、交换着数据信息,这些数据信息能够帮助人们从不同的角度、不同方式详细地描述和理解事物,但同时也出现维度过高、信息冗余、计算困难等问题,这些问题反而容易导致对信息描述的不准确。虽然高维大量的样本数据能带给我们更多更丰富的信息,但是如何把握信息中关键的内容,如何处理和摒弃掉冗余的信息仍然是需要广泛深入研究的问题,现今已有一种处理方式即是对高维数据进行降维处理。无论是线性或是非线性的降维方法都已多种多样,其中运用较为广泛的一种方法是主成分分析(PCA)算法,它的优异之处在于无特定限制的参数以及算法简洁明了,但其本身是一种无监督的特征提取算法,不能充分考虑到标签带来的先验信息。其次是算法提取主元个数的关键步骤缺乏客观性,过多或过少的主元信息都容易使得模型精度降低,且前人对此的研究也较少。针对上述所提到的问题,本文主要研究工作如下:(1)考虑到很多研究在利用PCA算法进行降维之前未考虑特征与标签之间的关联性,即标签的先验信息,本文提出在PCA进行降维前,利用互信息(MI)来度量特征对于标签的重要性的办法,并提出按互信息值将特征重要性划分为弱、中、强三个部分,过滤掉较弱部分的特征,再进行PCA降维处理。(2)针对PCA算法中选取主元个数的累计贡献率方法判断过于主观,本文提出了改进PCA算法(IPCA),即利用平均复相关系数对主元数目递增时与原始数据的相关性进行衡量,从而辅助累计贡献率共同对主元个数的选取进行判断。(3)本文采用较长时间范围的实际个股和指数数据,及较多的共17个影响股价的因素,对上述改进前后的降维方法进行分析,利用神经网络预测器的最终预测结果对比PCA与IPCA判断出的主元个数的均方误差值的大小,从而比较PCA改进前后的差别,以及对比MI-IPCA双重降维与IPCA降维后的预测结果来判断引入互信息判断的有效性。
其他文献
[目 的]利妥昔单抗(Rituximab,RTX)是儿童免疫性血小板减少症(Immune thrombocytopenia,ITP)的二线治疗方案之一。该药在成人ITP中疗效相对较为确切。近年来也相继发表了一些
在现今的生产活动和日常生活中,电机已是非常重要的生产动力和驱动装置。如果电机发生任何故障或是无法正常运行,会对电机本身会造成损害,也会对整个运行系统造成一定的影响,甚至会引发人员伤亡等各种社会性问题。电机故障诊断技术可以在故障的初期发现电机故障问题,从而能够及时进行针对性的检修,节省了大量时间以及用于故障维修的资金,在避免发生生产停顿的同时也提高了经济效益。特征优化作为故障诊断的一个有效的预处理步
基于黑龙江省2000—2010年统计年鉴公布的数据,定量分析了金融对科技创新的支持作用,构建了黑龙江省金融对科技创新支持的动态模拟流图及系统动力学模型,并通过VensimV5.9仿
与中国尊祖敬宗传统和农业社会现实相适应,孝作为一种文化现象在中国有着久远的历史,在长期的历史发展中,其中有精华也有糟粕。社会发展到今天,出现了新的形势和问题,崇尚孝道,取其