数据挖掘技术在股票市场分析与预测中的研究

来源 :西安理工大学 | 被引量 : 1次 | 上传用户:su9989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
股票收益趋势的预测是现代金融理论和资本市场的热点问题,也是一个极具挑战性的难题。随着信息技术和网络的发展,数据挖掘技术由于能够处理海量、半结构化或结构化的文本形式的股评,机器学习技术能够预测股票收益的变动,均被广泛应用于股票市场的研究。这不但能够解决股票投资者过去由于数据获得技术的限制、无法处理文本格式股评的困扰,而且可以发现潜在的更多信息,对股票投资者的投资决策起到一定的指导作用,从而更加准确的预测股票收益的变动趋势。  本文以2015年4月1日至2016年9月30日期间的上证180的股票数据为研究对象,该数据由股票价格数据和股评文本数据组成。其中,股票价格数据来自于 Wind 数据库,相对应的股评文本数据来自于东方财富网。首先,运用文本数据挖掘技术挖掘和处理了600多万条股评,将非结构化文本数据转化为结构化特征向量矩阵,构建了投资者情绪指标;然后,运用三种实验方法验证股评文本数据可以预测股市收益的可行性。具体内容如下:  1.采用网络爬虫技术抓取大量股评文本,将其经过预处理后,采用中文文本挖掘技术将非结构化文本数据转化为结构化特征向量矩阵;采用支持向量回归算法(SVR)和随机森林算法建立了股评数据与上证180指数收益率之间的回归模型,用所建模型对股票收益率进行预测。经试验对比发现,支持向量回归算法的预测效果更好。  2.利用基于情感词典法对股评文本数据进行情感倾向分析,用 Pearson 相关系数检验两者之间的相关性;再用 Granger 因果检验分析投资者情绪与股票价格之间的因果性,检验结果发现,投资者情绪与股票价格存在一定的正相关关系,且投资者情绪变动是股票收益率波动的格兰杰原因,因此,情绪值变动可以在一定程度上解释收益率波动。  3.采用事件研究法和多元回归模型法来验证某些时间序列中股评文本数据包含的情绪对股票市场价格的影响。首先,用事件研究法去测度个股新闻对个股收益率的影响,并使用资本资产定价模型(Capital asset pricing model,CAPM)来计算新闻报道给相关股票带来的异常收益(Abnormal returns, AR)、累计异常收益(Cumulative abnormal returns, CAR);然后,采用多元回归模型,依据 t-检验(t-test)来分析投资者情绪是如何影响股市的波动,即股评文本发布后,研究其对股市影响哪一天最为显著,影响时间多长等显著性问题。具体而言,本文将股评文本数据包含的情绪对股票市场价格的影响的因子作为多元回归模型的解释变量之一,将股票累计异常收益率作为被解释变量,采用统计检验方法来检验多元回归模型的拟合优度、方程显著性和投资者情绪等因子的显著性问题,从而具体分析情绪因子与股市波动之间的关系。通过实验发现:第一,股评文本发布之后相应股票确实产生了异常收益率,说明其对个股的股价确实有显著的影响;第二,无论是从平均异常收益率(Average abnormal return, AAR)还是累计异常收益率来看,个股股价对利空事件的反应强度都要大于利好事件。结果证实投资者情绪会对股票价格快速产生影响,且影响强度很大,市场中投资者情绪影响股票收益率亏损比收益更多一些。
其他文献
近年来,以智能手机等移动设备为载体的移动应用得到了广泛使用,并逐步影响人们的生活方式。人的移动性带来的位置行迹不仅记录了人的行为历史,也记录了人与社会的交互活动信
词法分析是自然语言处理中最基础、最关键的步骤。在中文信息处理领域,词法分析的一般做法是通过分词给词和短语划定边界,从而使汉语的后续处理过程跟英语等西方语言基本一致。
RFID技术作为一种非接触式的自动识别技术,近年来广泛被应用到供应链管理、智能物流管理、智能交通监测、资产管理等领域。随着RFID的广泛应用,RFID系统产生海量的实时数据,这些
蛋白质复合物在生物体内起到信号传导、物质输送等很多生理功能。由于蛋白质的三维结构决定其功能,故通过计算手段预测蛋白质结构可以帮助在实验结构未知的情况下对其功能的理
随着网络技术的迅速发展和网络应用业务的逐渐丰富,网络影响到生活的各个领域,用户对网络的稳定性、可用性和响应时间的要求逐渐变高。为了提高网络服务质量(Quality of Service
软件自愈作为一种预防性的故障处理技术,它通过在合适的时机暂停软件的运行,采用适当的方法清除持续运行系统的内部状态,使之重新恢复到初始状态或相对健康的中间状态,以预防
随着计算机网络的普及和发展,网络技术越来越成熟,网络已经成为日常生活不可或缺的一部分。因此,网络安全监控与管理就显得特别重要。为了确保网络的安全与可靠,尤其是在超大流量
随着信息化技术的普及,信息正在以飞快的速度增长,在带来生产效益的同时又面临着巨大挑战,企业之间的竞争不在仅仅依赖于规模,而是处理信息化技术的能力、速度以及企业的创新
云计算作为效用计算,并行计算,网格计算等计算模式融合的产物,它通过资源池化的方式,弹性的对外提供计算、存储以及网络服务。但日益膨胀的大规模云计算数据中心导致了管理困难以
SAR(Synthetic Aperture Radar,合成孔径雷达)是一种主动式微波传感器,在成像雷达中占有十分重要的地位,已被广泛应用于国民经济、国防和科学研究等诸多领域。目前,基于SAR图像数