论文部分内容阅读
近年来,沪深A股市场上涌现出了许多热点概念,例如2015年上半年期间,“国企改革”、“互联网金融”、“一带一路”、“沪港通”等概念相继成为热点并频繁出现。相关个股在某一概念、热点背景下,往往在短期内有较好的市场表现。如何抓住这种市场上的热点、概念带来的投资机会,是量化研究领域非常关心的问题。本课题围绕A股市场热点发现这一问题,从互联网海量金融数据中挖掘出当前市场的热点个股以及相关板块,追踪市场热点的发展过程,并向投资者提供有价值的市场信息。本课题研究的主要内容如下:互联网金融异构信息获取及预处理:主要分为三大类信息,第一类是A股实时行情数据,主要包括A股市场股票的每日价格涨跌和成交量;第二类是A股财务信息及板块分类;第三类是个股舆情数据,主要包括新闻数据和股吧数据。获取这些数据后,通过进一步去噪,优化,提炼等处理,将原始的非结构化的金融数据处理为结构化数据,为后续系统的构建提供准确的数据保障。基于排名聚合算法的热点发现:本文把市场热点发现问题转化为排名聚合问题,从市场的热度信息中挖掘热度指标,将热度指标转化为热度排名,并采用排名聚合方法将众多的热度排名转化为综合热度排名,从热度排名信息中发现市场热点。本文主要研究了一类基于无监督的排名聚合算法,并从行情、股吧、新闻三个维度进行热度计算,搭建了一套完善且有效的热点发现模块。基于时间序列预测方法的热点追踪:完成热点发现模块后,从热度时间序列信息出发,研究市场上的热点变化规律。根据历史热度序列去预测未来热度序列正是时间序列预测所研究的内容。本文主要研究了时间序列预测方法和排名学习方法在热点追踪问题中的应用。综上所述,本文使用数据挖掘技术从海量金融数据中挖掘当前市场正在炒作的热点个股以及相关板块,追踪市场热点的发展过程,并向投资者提供有价值的市场信息。