论文部分内容阅读
使用自然语言处理技术进行情感分析和股价预测一直以来是研究者们关注的焦点。这一研究可以帮助投资者有效识别可能对股价造成显著影响的新闻并规避投资中可能出现的风险,同时对于计量经济学和金融学中有关股权相关资产定价的研究有着重要意义[1–3]。本文提出了一个使用语境化词嵌入(Contexualized Embedding)的情感分析和股价预测模型,并通过计算准确率和模拟交易的方法验证了模型的有效性。此模型相比使用静态词嵌入的模型有12.4%的准确率提升,相比BERT模型[4]有2.9%的准确率提升,是目前所有的研究中效果最好的模型。本文的主要研究工作和创新点如下:1.提出了使用调整后回报率对无标记的新闻数据进行标记的方法,最大程度地去除了其它非新闻因素对股价的影响,同时解决了同类研究中经常出现的因经济周期造成的数据分类不均衡的问题。2.使用在大规模数据集上预训练并在有标记的新闻数据上精调的BERT模型生成语境化词嵌入,以此代替Word2Vec和GloVe等模型生成的静态词嵌入。此方法将上下文信息包含到每个词嵌入中,提高了模型理解上下文的能力,使得模型的准确率得到较大提升。3.设计了一个简单但有效的递归神经网络用于情感分析和股价预测,通过对比实验找到模型的最优结构。4.设计了仅基于极端新闻的模型评价方法,降低对投资者没有意义但对准确率有较大影响的中性新闻的权重,使得评价结果更偏重于能对市场产生明显影响的新闻,更加贴合投资者的实际需求。5.使用同一数据集在多个基准模型上进行对比实验,结合准确率、马修斯相关系数、模拟交易中的收益率和夏普比率等多个指标,验证了本文提出的股价预测方法的有效性,并对模型中的重要参数选择进行了详细研究。