基于机器学习的中国股票市场收益率预测研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:xinshuai99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长期以来,人们认为股票价格的变化是不可预测的,随机游走假说和有效市场假说指出市场如果是有效的,那么在这个市场上无法取得经济收益。由于中国股市尚未达到强式有效市场,因此收益率存在一定的可预测性。预测股市价格的趋势是一项具有挑战性的任务,提高预测表现会带来很高的回报。过去,国内外学者多采用统计学和计量经济学的模型用于股票价格序列收益率预测的研究,但是当预测变量数接近观察计数或预测变量高度相关时,传统预测方法会中断。Gu et al.(2019)发现使用机器学习方法时,可以从大量现有变量中选择出有效的变量进行股票收益预测。这意味着机器学习方法能够弥补计量方法在处理过去20多年中积累的大量预测变量时能力的不足,能够联合现存预测变量(或相关地处理多重比较和错误发现问题)的同时,评估新提出的预测变量所带来的预测增量。在中国,机器学习还属于新兴领域,真正实现机器学算法预测股票收益的机构较少。由于中美法律制度、上市公司结构、资本市场发展程度和投资者结构有显著差异,机器学习算法是否适应中国股票市场有待验证。本文研究机器学习算法在中国股票市场的适用性,分析其能否提高国内股票市场预测力。除此之外,随着新兴机器学习算法的兴起,本文在Gu et al.(2019)的多种经典机器学习方法(简单线性模型、主成分回归模型、惩罚线性模型、增强回归树、随机森林和神经网络模型)的基础上,加入了新兴的机器学习算法——LSTM、Xgboost和Adaboost,探讨新兴机器学习方法是否能够优于经典机器学习方法,进一步提升预测能力。本文发现,机器学习方法相较于简单的线性模型,能够显著地提升中国股市收益率预测效果,且新兴机器学习算法相较于传统机器学习算法有更好的表现。研究结果显示,Adaboost预测表现最佳,明显优于其他所有模型。神经网络算法可能由于训练样本量规模、参数设置等原因,表现不如Adaboost和Xgboost,甚至略差于随机森林模型,但是依然优于线性模型,其中NN2的表现最佳,仅次于Xgboost;NN5的表现最差,说明采用神经网络算法的时候,浅学习优于深学习;LSTM优于NN4、NN5和线性模型而劣于其他模型。线性模型的改进(降维、添加惩罚项)都没有显著提高简单线性模型的预测表现。非线性模型的预测表现表明非线性函数预测表现显著超过了线性模型,更能有效的预测股票收益。本文还识别了最重要的预测因子,借鉴Mc Lean and Pontiff(2016)分为四类。第一类事件因子:总资产周转率变化、意外盈余、息税前利润率变化和研发成本变化指标。第二类为市场因子,9个月动量、总波动率和相对价格。第三类估值因子:市净率的企业价值成分、市盈率、企业估值倍数、广告费用市值比和现金流量市值比;第四类因子是基本面因子,公司年龄、应计项目、盈利持续性。线性模型和树形算法产生了非常相似的最具信息量的股票收益预测指标的排名,但是神经网络算法中的变量重要性毫无规律,本文认为原因在于神经网络内在逻辑存在“盲点”,无法用其进行类似的变量重要性分析。本文结论有一定的理论意义与现实意义:本文尝试将新兴的机器学习算法(LSTM、Xgboost和Adaboost)应用于股票市场收益率研究,对比新兴机器学习与经典机器学习算法在中国股票市场的预测能力,借此探讨新兴机器学习算法的先进性,有助于促进机器学习与金融学科的交叉融合研究,帮助学术界与业界提升对股票市场的预测精度。
其他文献
<正>豫丰黄兔属于中型肉皮兼用兔。由河南省清丰县科学技术委员会、河南省农业科学院畜牧兽医研究所及清丰县畜牧开发总公司等单位培育,于1994年12月通过了河南省科学技术委
一、不断袭用的老谱$$ 在21世纪仍在辩论鲁迅是不是“汉奸”,这似乎是天方夜谭,令人难以置信。但当下中国偏偏有些人热衷于颠覆圣人,质疑经典,鲁迅首当其冲,而其罪名之一就是
报纸
为了有效地开展内部审计活动,获得有关人员的支持和理解,内部审计人员应当与相关人员进行充分的沟通并保持良好的人际关系,尤其是与被审计单位的人际关系,这是内部审计取得成
社会保障制度是现代国家最重要的社会经济制度之一,是保障人们生活最低的标准的制度。社会保障制度包括社会救助、社会保险、社会福利、社会救济四大层次,其中社会保险则涵盖