论文部分内容阅读
股票收益趋势的预测是现代金融理论和资本市场的热点问题,也是一个极具挑战性的难题。随着信息技术和网络的发展,数据挖掘技术由于能够处理海量、半结构化或结构化的文本形式的股评,机器学习技术能够预测股票收益的变动,均被广泛应用于股票市场的研究。这不但能够解决股票投资者过去由于数据获得技术的限制、无法处理文本格式股评的困扰,而且可以发现潜在的更多信息,对股票投资者的投资决策起到一定的指导作用,从而更加准确的预测股票收益的变动趋势。 本文以2015年4月1日至2016年9月30日期间的上证180的股票数据为研究对象,该数据由股票价格数据和股评文本数据组成。其中,股票价格数据来自于 Wind 数据库,相对应的股评文本数据来自于东方财富网。首先,运用文本数据挖掘技术挖掘和处理了600多万条股评,将非结构化文本数据转化为结构化特征向量矩阵,构建了投资者情绪指标;然后,运用三种实验方法验证股评文本数据可以预测股市收益的可行性。具体内容如下: 1.采用网络爬虫技术抓取大量股评文本,将其经过预处理后,采用中文文本挖掘技术将非结构化文本数据转化为结构化特征向量矩阵;采用支持向量回归算法(SVR)和随机森林算法建立了股评数据与上证180指数收益率之间的回归模型,用所建模型对股票收益率进行预测。经试验对比发现,支持向量回归算法的预测效果更好。 2.利用基于情感词典法对股评文本数据进行情感倾向分析,用 Pearson 相关系数检验两者之间的相关性;再用 Granger 因果检验分析投资者情绪与股票价格之间的因果性,检验结果发现,投资者情绪与股票价格存在一定的正相关关系,且投资者情绪变动是股票收益率波动的格兰杰原因,因此,情绪值变动可以在一定程度上解释收益率波动。 3.采用事件研究法和多元回归模型法来验证某些时间序列中股评文本数据包含的情绪对股票市场价格的影响。首先,用事件研究法去测度个股新闻对个股收益率的影响,并使用资本资产定价模型(Capital asset pricing model,CAPM)来计算新闻报道给相关股票带来的异常收益(Abnormal returns, AR)、累计异常收益(Cumulative abnormal returns, CAR);然后,采用多元回归模型,依据 t-检验(t-test)来分析投资者情绪是如何影响股市的波动,即股评文本发布后,研究其对股市影响哪一天最为显著,影响时间多长等显著性问题。具体而言,本文将股评文本数据包含的情绪对股票市场价格的影响的因子作为多元回归模型的解释变量之一,将股票累计异常收益率作为被解释变量,采用统计检验方法来检验多元回归模型的拟合优度、方程显著性和投资者情绪等因子的显著性问题,从而具体分析情绪因子与股市波动之间的关系。通过实验发现:第一,股评文本发布之后相应股票确实产生了异常收益率,说明其对个股的股价确实有显著的影响;第二,无论是从平均异常收益率(Average abnormal return, AAR)还是累计异常收益率来看,个股股价对利空事件的反应强度都要大于利好事件。结果证实投资者情绪会对股票价格快速产生影响,且影响强度很大,市场中投资者情绪影响股票收益率亏损比收益更多一些。