论文部分内容阅读
传统的股票波动预测方法主要依靠量化交易数据。随着大数据时代的到来,研究者开始从网络中提取有效的特征(例如事件和情感)来提升预测性能。融合异构的多源数据来更加准确的预测股票波动仍是一项充满挑战的工作。现有的解决方案大多采用传统的机器学习模型,受限于模型的容量,可能无法有效地建模多源数据之间的复杂交互。为此,本文充分利用股票市场的多源数据,提出了有效的数据融合模型以提高股票波动预测的准确性。本文提出量化数据与文本数据特征提取与融合预测方法。首先使用小波变换来捕获量化时间序列数据高频和低频的波动趋势。具体来说,先利用离散小波变换分解得到高低频子序列,再使用小波神经网络分别拟合子序列。此方法可以充分挖掘时间序列的特征。其次,面向股票相关的文本数据建模一个多任务模型,用于提取高质量的文本特征。先分别训练基于深度双向预训练语言理解模型的新闻表示和社交网络帖子情感分析的单任务模型,再使用单任务模型的输出结合真实标签去训练多任务模型,此方法相较知识蒸馏和标准多任务训练方法更能提升文本特征的质量,进而提升模型的预测性能。接着,融合量化特征和文本特征进行股票波动预测。为了探究特征之间的关联关系,本文提出了一种基于多源数据特征交互的股票波动预测方法,分别使用因子分解机和深度神经网络对低阶和高阶特征的交互关系进行建模,并通过注意力机制将股票之间的关联关系纳入模型。最后,在2015年至2017年的中国股票市场数据上进行实验,结果表明了我们模型的有效性。