论文部分内容阅读
股票市场作为一种资金融通的重要渠道,其一举一动都受到各类新闻媒体的广泛关注。新闻媒体通过提供权威、客观、真实的新闻报道,对与市场相关的政治、经济、法律等各方面的宏观信息以及与公司经营状况相关的微观信息进行详细的反映,一方面向投资者传播消息,另一方面也引导舆论走向。随着我国信息化进程的不断加快,新闻媒介在知识传播、疑难解答以及舆论监督等方面都呈现出愈加重要的作用,推动着社会的发展。新闻能够对股票价格造成影响,已经成为学术界所公认的事实。以往学者的研究表明,不论是国外市场,还是国内市场,新闻对股票价格的预测能力都已经得到证实。股票市场是一个风险性极为复杂的市场,参与股票交易的投资者数量众多,各投资者对于风险的承受能力以及投资的理性程度均不相同,因此,任何消息的报道都可能引起市场迅速而过度的反应,投资者想要在股票市场中获得生存,就必须学会如何快速地捕获和分析一则新闻中能够引起股市波动的信息。互联网的诞生带来了信息传递的及时性和便捷性的飞跃,给传统新闻媒体带来了巨大的挑战,越来越多的投资者通过互联网来获取信息。传统的新闻媒体逐渐将其重心转移到互联网,通过互联网发布新闻,同时,新兴的互联网新闻媒体也如雨后春笋大量兴起,互联网新闻媒体开始以一种不可阻挡的趋势推动着股票市场的发展。随着全球信息大爆炸的到来,互联网新闻媒体给股票市场带来了巨大的社会信息量,这种信息量以指数函数的速度急剧增加,根据摩尔定律和梅特卡夫定律,网络信息在传播过程中不但可以被无损耗的消费,同时还能够生成新的信息,对投资者产生巨大的外部性效应,投资者被淹没在信息的洪流之中。信息的迅速膨胀在给投资者带来便利的同时,也带来了严重的危机。投资者所面临的信息量远远超过了个人或组织的承受范围,大量无关和冗余的信息也严重干扰了投资者对有用信息的分辨和选择,他们不得不耗费时间和精力来对这些过多的信息进行处理,以免造成有效资源的浪费或是被无效的信息所误导。与传统的纸质新闻媒体相比,提供互联网新闻的网站数量更加众多,竞争也更加激烈,各互联网新闻媒体为了争夺用户纷纷采取多样化的宣传措施和提供各种综合性的服务。然而,不同的互联网新闻媒体之间具有较大的差异,例如,不同的新闻网站具有不同的用户数量,并且对新闻的采编能力和对事件的表述风格等各不相同,在提供新闻相关服务方面也具有不同的水平,不同网站的新闻对同一股票市场应当具有不同的影响效力,因此,以往学者在研究中对所有新闻的来源不加区分,将它们看作具有同等影响力度的因子是不合理的。本文以此为出发点,充分研究了不同来源的互联网财经新闻对我国股票价格的影响。投资者在面对浩瀚的互联网媒体新闻时,该如何高效地识别出与投资相关的重要信息呢?以Google为代表的大型互联网搜索引擎通过对网站链接结构的分析,建立了一套基于网页链接数量的PageRank打分机制,根据每个网站的得分来对它们的重要性进行排序,将最具有重要性的网站反馈到搜索列表的最上端,这样用户就能够有效地获得最具有重要性的网站所提供的信息。受到搜索引擎网站排名的启发,本文期望建立一套对所有互联网财经新闻网站影响力进行排名的机制,使得最具有影响力的网站发布的新闻对我国股票市场具有最大的预测作用。当一篇新闻发布时,投资者就能够迅速判断出该新闻是否具有重要性,对股票市场能够具有多大的影响效力,从而在第一时间做出正确的投资决策。在这里,我们提出疑问,搜索引擎所使用的表示网站通用社会影响力的RageRank值是否能够直接用于衡量财经新闻网站对股票市场的影响力呢?以往的研究证实,一篇新闻对股票价格的影响不仅仅是新闻的标题或者新闻的数量能够涵盖的,新闻的文本内容还具有相当的影响股票市场的“软实力”。这种“软实力”一方面体现在新闻对上市公司基本面情况的报道,另一方面体现在新闻文本所中隐含的情感以及这些情感对投资者决策的影响上,随着金融智能技术的不断发展,越来越多的学者将新闻的文本纳入了研究范围,并且通过实证研究验证了新闻文本对股票市场的影响。Google搜索引擎所使用的PageRank算法一方面代表的是一个网站相对于所有互联网用户而言的通用社会影响力,另一方面也并没有将新闻的文本内容纳入考虑范围,因此,我们认为简单地使用PageRank值来衡量互联网新闻媒体的重要性排名是有偏差的,我们必须寻找更为科学和准确的方法。本文的研究内容主要包括以下两个方面:(1)通过分析财经新闻文本对股票价格的预测能力,深入地研究互联网财经新闻对我国股票市场的影响力度。在这一部分中,本文从如何构建基于互联网新闻的股价预测模型,如何选择模型的预测时间参数,模型有效性的验证,以及量化新闻方式的验证四个方面进行了探讨。(2)互联网财经新闻网站排名机制的构建。在这一部分中,本文充分利用上一步骤所构建的互联网财经新闻对股价的预测模型,首先将互联网新闻按照不同的网站来源进行区分,分别探讨了不同网站发出的新闻对股票价格的预测能力。接下来,本文使用不同来源的新闻对股价预测能力的高低构建了互联网新闻媒体的影响力指标,并与通用的网站重要性评价指标PageRank值进行对比分析,说明了本文所构建的互联网新闻网站影响力排名体系的合理性。本文属于金融智能领域,是一篇将金融理论与信息技术相结合的研究,因此,文中使用了大量的文本处理技术来对互联网新闻进行详细的分析。这些技术可以归纳为两个大类:一类是新闻文本数据的获取技术,包括网络爬虫和布隆过滤器等;另一类是针对互联网新闻的文本挖掘技术,主要包括用于量化新闻文本的FudanNLP以及支持向量机(Support Vector Machine, SVM)技术以及用于构建新闻对股价的预测模型的支持向量回归(Support Vector Regression, SVR)技术。首先,本文使用网络爬虫和布隆过滤器技术来获取所有与股市相关的互联网新闻文本,并将这些文本信息按照规定的方式进行本地存储。接下来,通过FudanNLP自然语言处理技术对新闻文本进行分词以及词性标注,提取出新闻文本中的“关键词语”,即“专有名词+新闻情感词”,通过SVM技术将新闻文本转化为由这些“关键词语”所构成的空间向量,并使用TF*IDF的方式来对向量进行赋值,从而将新闻文本转化为计算机可以读取的结构化数据。最后,本文运用了较为先进的SVR技术来构建新闻文本对股票价格的预测模型,通过参数的调整来探索互联网新闻对股价的最佳预测。在此基础上,本文对新闻文本进行了区分,使用已经构建好的SVR预测模型探讨不同来源的互联网新闻对股票价格的影响,从而对互联网新闻网站进行影响力排名。我在研究中主要涉及了股票交易高频数据、互联网财经新闻以及财经情感词库三类数据。鉴于以往学者对于新闻对股票具有短暂影响力的证实,加之当前信息化社会对资讯及时性的苛刻要求,越精确越细化的信息越有可能获利,因此本文使用了精确到秒的股票交易高频数据,这对于以往的研究来说是一大突破。同时,互联网财经新闻也提供了精确到秒的新闻发布时间,通过这个时间,我们可以将互联网新闻与股票价格进行精确地匹配,从而保障本文研究的准确性。本文所使用的财经情感词库是在Loughran和Mcdonald(2012)的研究基础上经过人工翻译和机器自动学习扩充完成的,是对我国互联网新闻市场具有代表性意义的词库。通过以上研究,本文主要得出以下结论:(1)互联网新闻能够对股票价格产生影响,仅通过新闻的文本信息和当前股价,我们能够对将来的实际股价进行预测。(2)互联网新闻文本对我国股票价格的最佳预测时间为26分钟,利用26分钟的预测结果进行股票投资可以获得一定收益。(3)量化新闻文本的最佳方式为“专有名词+新闻情感词”,其中,“专有名词”用以反映上市公司的基本信息,“新闻情感词”则用来说明一篇新闻的情感导向,只有将两者相结合才能完整地表达新闻文本的含义。(4)不同网站来源的互联网新闻对股票价格具有不同的影响力度,将各网站发布的新闻不加区分地看作一个整体会增大模型的预测误差。(5)代表网站通用影响力的PageRank指标在财经网站影响力排名中并不适用,通过计算各网站新闻对股价的预测准确率来进行财经新闻媒体影响力排名的方法更具有合理性。