论文部分内容阅读
随着国内金融市场相关制度的不断完善,越来越多的个人和机构投入到股票投资市场。在这个过程中,投资者对尽快了解可能引起资本市场波动的事件表现出了极大的关注度。但是,由于互联网信息的极度膨胀,投资者在从海量信息中获取真正重要的信息反而越来越困难。如何从海量互联网信息中发现重要事件和话题,日益成为相关领域研究和应用的重点。传统的互联网话题或事件发现方法大多基于文本处理技术,但较少结合金融领域特有的时序数据特征进行研究。金融领域有大量的股票交易数据、大盘数据等时序数据,这些数据往往是资本市场在相关事件发生前后的一种具体反映,与事件的发生发展息息相关。因此,本文研究结合文本信息和时序数据信息的金融事件发现。首先,针对缺乏金融领域相关语料库的情况,设计和构建了面向金融事件的中文语料库,对金融文本中的事件及其相关信息进行细粒度标注。建立了包含2500篇文本的金融事件语料库,改善了该领域语料资源缺乏的问题。而后,研究了基于文本信息的金融事件发现方法,提出了一种基于文本特征和事件中心句的金融事件抽取方法,可以有效避免过多原子事件带来的干扰及依存句法分析不准确引起的错误。通过金融学科中的事件研究法实证分析事件对股票价格波动的影响,获得特定事件类型与股价波动之间的关联关系模型。在此基础上,研究结合文本数据和时序数据的金融事件发现方法。通过事件元素规格化、指代消解、时间对齐和事件模板生成,设计实现了一种跨文档金融事件发现和融合方法。通过引入热点事件排序因子和时序特征排序因子,设计实现了结合文本特征和时序特征的金融热点事件发现方法。实验发现,在结合金融领域的时序特征后,金融热点事件发现的F值由77.95%提高到82.45%,金融事件类型分类的F值由71.93%提高到76.85%。显示本文提出的结合文本特征和时序特征的方法可以有效提高金融事件发现和事件类型分类的性能。