使用语境化词嵌入的情感分析和股价预测研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:wxy8508
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用自然语言处理技术进行情感分析和股价预测一直以来是研究者们关注的焦点。这一研究可以帮助投资者有效识别可能对股价造成显著影响的新闻并规避投资中可能出现的风险,同时对于计量经济学和金融学中有关股权相关资产定价的研究有着重要意义[1–3]。本文提出了一个使用语境化词嵌入(Contexualized Embedding)的情感分析和股价预测模型,并通过计算准确率和模拟交易的方法验证了模型的有效性。此模型相比使用静态词嵌入的模型有12.4%的准确率提升,相比BERT模型[4]有2.9%的准确率提升,是目前所有的研究中效果最好的模型。本文的主要研究工作和创新点如下:1.提出了使用调整后回报率对无标记的新闻数据进行标记的方法,最大程度地去除了其它非新闻因素对股价的影响,同时解决了同类研究中经常出现的因经济周期造成的数据分类不均衡的问题。2.使用在大规模数据集上预训练并在有标记的新闻数据上精调的BERT模型生成语境化词嵌入,以此代替Word2Vec和GloVe等模型生成的静态词嵌入。此方法将上下文信息包含到每个词嵌入中,提高了模型理解上下文的能力,使得模型的准确率得到较大提升。3.设计了一个简单但有效的递归神经网络用于情感分析和股价预测,通过对比实验找到模型的最优结构。4.设计了仅基于极端新闻的模型评价方法,降低对投资者没有意义但对准确率有较大影响的中性新闻的权重,使得评价结果更偏重于能对市场产生明显影响的新闻,更加贴合投资者的实际需求。5.使用同一数据集在多个基准模型上进行对比实验,结合准确率、马修斯相关系数、模拟交易中的收益率和夏普比率等多个指标,验证了本文提出的股价预测方法的有效性,并对模型中的重要参数选择进行了详细研究。
其他文献
项目名称:天然彩色桑蚕茧丝关键技术研发及产业化主要完成单位:苏州大学、鑫缘茧丝绸集团股份有限公司、西南大学、中国农业科学院蚕业研究所、浙江大学、四川省农业科学院蚕业
大菱鲆俗称“多宝鱼”,原产于欧洲大西洋沿岸,近10多年来在我国的山东沿海、河北沿海、辽宁的葫芦岛及大连等地大量养殖,但随着养殖规模的快速增长,疾病的流行也随之而来。其中大
日前,由浙江海利得新材料股份有限公司总经理高王伟先生发起的,公司党委、工青妇联合海宁中心血库共同承办的“海利得公司员工无偿献血”大型公益活动在海利得新落成的办公大楼
10月30日,美国国际棉花协会"天然美棉真我生活"系列微电影开机仪式在北京成功举办。借助电影语言感性、生动的优势,美国国际棉花协会将在胶片影像世界里为消费者完美诠释"天然美