论文部分内容阅读
随着近年来互联网与社交网络自媒体的不断发展,社交平台转变为信息传播与获取的重要阵地。微博以其反应快速、语言简练、官方认证等特征,成为国内社交的代表性平台。金融市场对金融事件敏感,瞬息万变。由于微博等社交平台信息获取的低成本性,投资者可通过其减小信息不对称所产生的投资影响,企业则可实时获取金融资讯,明确竞争对手策略,辅助企业做出决策。因此追踪微博平台中公司信息,检测其中金融事件,不仅对投资者投资决策与投资行为制定有辅助作用,还为公司战略制定提供竞争情报及商业见解,具有重要的研究意义。目前国内外学者主要是从网络新闻或者公司年报中检测金融事件,由于其数据特征与社交媒体数据不同,因此无法直接将之前的研究方法移植至社交平台进行事件检测。且随着近年来深度学习算法的发展,通过深度学习算法进行文本语义获取及分类,较传统的机器学习算法有较大的提升。为了更准确地进行金融事件检测,本文从微博短文本表示和事件检测方法两方面展开研究,具体包括以下三个部分:1)研究了一种面向金融领域的短文本表示方法;该方法主要是利用Word2vec对金融事件触发词典进行扩充,通过扩充后的金融事件触发词典进行短文本触发词识别,然后利用Word2vec对其进行语义化表示,以此实现短文本的加权向量化表征;2)提出了一种基于集成SVM的数据流分类方法,并将其应用于公司金融事件检测中;该方法主要是基于数据流检测框架,由多个SVM基分类器组成,并通过假设检验检测概念漂移,动态更新基分类器,该模型可有效检测产生概念漂移的新实例,在动态环境下能更准确地检测事件;3)构建了一种基于注意力机制的CNN与LSTM分类算法;该算法是一种由CNN、LSTM和注意力机制所构成的深度学习分类方法,首先通过CNN获取文本局部语义特征,其次利用LSTM获取文本全局特征,最终通过注意力机制集中考虑有用信息。既解决卷积神经网络获取局部特征单一,又有效提升了训练效率,在大规模微博语料上能较为准确地检测出金融事件。实验结果表明,面向金融领域的短文本表示方法较传统文本表示方案,能够进一步获取文本语义特征;基于集成SVM的数据流分类方法适用于动态检测环境,在金融事件检测效果上明显优于常用的集成分类方案;而基于注意力机制的CNN与LSTM分类算法在特征获取及分类精度上优于常用深度学习方法,较基于集成SVM的数据流分类方法更适用于大规模数据集,且准确率较优。