基于新闻情感词向量的股价预测建模研究

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:svkisahero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统金融学和现代行为金融学都认为股票市场的波动受到信息发布、传播、公众接受的影响。早期的股价预测研究主要是对股票历史交易数据进行分析处理,从中挖掘对股价走势判断有利的特征,随着人工智能、自然语言处理技术等技术的发展,从新闻媒体中提取能够反映宏观经济、基本面以及影响投资者情绪的信息变为可能,研究者开始将新闻文本数据与股票交易数据结合对股价进行预测。
  利用新闻进行股价预测的关键之一是准确提取新闻中包含的信息。目前,主流的新闻信息表征方式主要包括运用词袋法把新闻表示为一个实值向量和借助词向量把新闻表示成一个文本矩阵等。然而,运用这两种方法表征新闻信息的过程都存在明显不足。一方面,词袋法容易造成信息损失,准确表达信息的能力不足,只能捕捉到文本中有限的信息;另一方面,在利用Word2Vec、GloVe等词向量对新闻信息进行表征的过程中,由于词向量模型本身的局限性,使得其对新闻中的情感信息捕捉不足,因而也无法充分准确地表征新闻内容。受到GloVe启发,为了更准确的表征新闻信息,我们在词向量空间引入了额外的情感信息,提出一种新的词向量模型——Senti-GloVe,该方法兼顾新闻文本中的语义和情感信息,可以帮助更好的表征新闻并提取新闻特征。
  在新闻信息得以正确表征的基础上,如何准确量化市场信息对证券市场波动的影响成为股价预测研究关注的焦点。近年来,深度学习方法在股价预测上得到广泛应用。不同的深度学习模型具备不同的特点,如卷积神经网络善于捕捉数据中的局部特征;长短期记忆神经网络适合处理时间序列数据;自注意力模型可以更好地建立输入序列之间的依赖关系。为充分发挥各类深度学习模型的优势,提升模型性能,本文提出利用集成学习思想,组合各类深度学习模型,构建一个端到端的深度集成股价预测模型;同时,利用迁移的训练方案,提升基础模型与集成模型的股价预测性能。
  本文的主要贡献如下:(1)提出了一种新的考虑新闻情感的词向量模型——Senti-GloVe,借助它我们可以更好地表征新闻,从新闻中提取有利于股价预测的新闻语义、情感特征;此外,Senti-GloVe词向量还可以帮助提升情感分析任务的性能;(2)设计了一个股价预测模型架构,利用特征工程对股票交易数据进行处理,通过不同的深度学习模型对交易数据建模得到交易数据特征,通过不同的词向量表征新闻并得到新闻特征,将二者结合对股价涨跌情况做出预测,验证Senti-GloVe词向量对股价预测的积极作用;(3)构建了一个端到端的深度集成股价预测模型,把不同深度学习模型得到的交易数据特征进行融合,提升模型的泛化能力,并通过迁移的训练方案,在训练过程中让集成模型指导基础模型学习,进一步提升股价预测模型性能。本文在新闻特征提取、股票价格预测两个方面做出了积极的探索,为相关研究领域的研究者提供了一定的参考,具有一定的现实意义。
其他文献
如今,全球的能源需求和发展已逐步向可再生能源转型,并将成为最终目标。因此,风能作为清洁可再生能源的重要代表,风电产业得到了飞速发展,变桨距风机已经成为风电机组中主力机型。变桨系统通过改变风力机叶片的桨距角,提升风能的利用率和输出功率。由于风机变桨系统的执行器故障发生频繁,故而,对变桨系统执行器故障诊断和容错控制的研究对提升风机运行的可靠性和降低发电成本有着重要意义。  本文以风电机组变桨系统为主要
学位
火灾作为破坏性非常大的灾害之一,每年都会对经济和环境造成巨大损失。因此,及早发现火灾并进行预警对火灾防治具有至关重要的作用。目前火灾识别的方法已经从传统传感器探测演变为图像型火灾的研究,但仍存在特征选取盲目和识别率低的问题。针对此问题,本文重点研究基于深度学习的火灾识别方法,主要研究内容与创新点归纳为以下几个方面:  (1)深度神经网络模型的相关研究  对全连接神经网络和卷积神经网络的结构和算法进
学位
脑卒中是一种急性脑血管疾病,是由于脑血管破裂而引起脑组织损伤,目前已成为我国成年人致残的首要原因,近些年来发病率一直在逐年递增。一半以上的脑卒中患者会有上肢偏瘫的后遗症,上肢无法自主活动,严重影响日常生活。现阶段,长期的康复训练是治疗脑卒中患者上肢偏瘫最好的方式,临床上对患者训练的评估主要依靠医师的个人经验。在没有康复治疗师现场指导的情况下,使用轻量、高效、可靠的计算机系统对患者上肢康复训练进行评
学位
文字是人类交流信息的工具,是简单的视觉图案再现口语所表达的形式。随着深度学习技术的不断发展,自然场景文本检测技术已经成为计算机视觉与模型识别等领域的重要研究课题之一。本文针对自然场景下的文本检测问题进行了研究,不同于传统的光学字符识别技术所识别的文本图片,自然场景图像中的文本在外观上,具有字符大小不统一、文本方向不确定、背景复杂等特点,使得检测难度较大,也为后续的识别过程带来不必要的麻烦。针对自然
学位
随着大数据时代的来临,越来越多的应用程序应运而生。为了提升用户的使用体验,增大用户黏性,个性化推荐算法成了各大应用程序寸土必争的领域。目前主流的个性化推荐算法大部分是通过用户以往对于产品的评分来研究用户的喜好,进而向用户提供推荐列表。然而,目前面临的难题是网络上用户评分过于集中,评分可信度不高,导致推荐算法的推荐准确率并不理想。  网络信息越来越丰富,能体现用户情感的信息也越来越多,除了用户的评分
传统金融行业中各类型数据丰富,蕴藏着巨大价值,如何有效地使用这些数据并从中提取有用信息,帮助用户进行决策,是目前金融业内人士面临的一大问题。而构建金融领域的知识图谱可作为该领域语义理解及搜索的关键技术,为以后金融领域的文本分析、数据挖掘、决策推理等提供有力支撑。  知识图谱是2012年Google公司提出的一个新概念,是一种用图模型来描述知识和建模世界万物之间的联系的技术方法。知识图谱由节点和边组
学位
图像超分辨重建是计算机视觉研究一个重要的方向,在现实生活中可以应用在许多领域。在实际工作或者日常生活中因为设备成本、技术限制、网络限制等因素常常不能得到足够清晰的图像。如果单纯的依靠提升硬件设备不仅成本耗费非常大,而且有些情况下会难以实施,比如人体医学成像中会受到人体组织的干扰。因此,对图像的超分辨处理在某些时候就显得尤为重要。图像超分辨重建的技术已经应用在很多领域,如医学成像、遥感成像及监控视频
在大数据时代,“信息过载”是困扰用户快速有效的从互联网获取有价值信息的主要问题。推荐系统作为解决这一问题的有效方法,已经成为学术界和工业界的关注热点并且得到了广泛的应用。然而,由于数据规模以及数据多样性的与日俱增,传统的推荐算法已经达到了性能瓶颈,同时,随着深度学习技术在图像、视频、语音等领域的广泛应用,基于深度学习的推荐算法目前成为研究热点。因此,本文提出了基于图卷积神经网络的推荐算法模型,并利
学位
随着人工智能技术的不断发展,知识图谱(Knowledge Graph)已成为结构化知识驱动智能应用的核心数据支撑。知识图谱本质是一种语义网络(Semantic Web),其节点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的语义关系(Relationship)。知识图谱包含大量结构化知识,形如三元组:,例如:;二元组:,例如:。知识图谱帮助机器理解知识语义信息,广泛应用在
学位
当今世界,任何一个国家都无法独立发展,各种文化之间的相互影响和渗透越来越大,甚至促进了人类社会的进步。因此,不同语言之间的翻译已成为各国经济、政治和文化交流过程中的关键点。随着全球化的不断深入,各类翻译活动更是如火如荼的开展起来。人们现在不仅需要高效快速的翻译,对翻译质量的要求也是越来越高,这就需要对翻译质量进行评价。过去对翻译质量的评价主要靠人工进行,主观性较强,没有确定的译文质量评价标准,并且
学位