论文部分内容阅读
股市是个动态的经济环境,投资者在股市中博弈的结果往往取决于对信息的掌握数量和解读质量。随着互联网的发展及计算机技术的进步,数据的获取和经验的积累更加便捷,投资策略逐渐从定性研究拓展到定量分析。基于此,量化投资研究得到广泛关注,不断发展壮大。相比传统的定性投资方式,量化投资具备快速有效、客观理性、收益与风险平衡以及个股与组合平衡的优势。作为数据挖掘的一个重要分支,文本挖掘是指在大规模文本集合中发现隐含的、以往未知的、潜在有用的模式的过程。近些年,很多研究也将基于语言学、金融学、计算机技术等方面的文本挖掘技术作为量化投资研究的一个重要手段,如从文本数据中构造情绪指数,分析其对股市的影响等。本文主要是通过Python爬取新闻、研报、论坛文章数据,然后通过基于类的隐马尔可夫中文算法对中文文本进行分词、TF-IDF算法对文本进行向量化、层次聚类算法对文档进行聚类、LDA算法和基于邻接熵的关键词提取算法对文档主题进行识别抽取和基于词典对文章进行情感分析,最后基于行为金融的前提和量化投资的策略理念,构造关注度因子、情感因子、关注度与情感交互因子,分析这些因子与概念板涨跌幅之间相关关系。通过研究,我们发现:(一)投资者关注度与股市概念板涨跌幅有显著的相关关系;(二)投资者情感倾向与股市概念板涨跌幅有显著相关关系;(三)关注度与情感的交互作用与概念板涨跌幅有显著相关关系;(四)不同概念板块的相关关系存在差异。基于以上结论,本文试图从新的角度来诠释量化投资策略可参考的因素,在传统的数值数据挖掘基础上,从互联网的文本大数据中提炼新的影响因素,反应投资者的直接情绪,使量化投资策略更有效,对股市中的量化投资者有一定的现实指导意义。