论文部分内容阅读
互联网技术迅速发展,互联网中的信息也呈现爆炸式增长,人们生活已和互联网密切相关。目前,网络已成为人们获取信息的主要方式。在海量的互联网信息中,如何从中挖掘有效信息,已经成为目前的研究热点。有效信息的获取既能满足人们对信息获取的需求,同时也具有重要的经济、政治价值。网络事件具有传播迅速,影响广泛的特点,如何对网络事件进行检测和及时掌握网络舆情变得越来越重要。其中对网络中的突发事件的研究更具有重要的现实意义,如火灾、地震、重大交通事故等,能够帮助人们提供决策依据和减少经济损失。同时大数据、人工智能、深度学习等名词已被越来越多人熟知,伴随时代变化和技术进步,这些理论在相关领域取得了重要成果,并为更多的研究和应用提供了理论支持和解决思路。目前研究的内容主要集中在事件的检测上,而对热点事件或者突发事件进行预测的研究还比较少。本文在基于生物成长理论的事件检测方法的基础上进行研究和分析,提出一种改进的事件检测的聚类方法。相比传统的Single-Pass聚类算法,改进的聚类算法在准确率和召回率上实现了进一步优化,在综合评估值F值上取得提升。同时结合目前最先进的深度学习的研究成果,本文引入Doc2Vec模型用于事件检测中的文本表示和事件表示,利用Doc2Vec得到的文本向量进行相似度计算,并进行实验对比和实验分析。在事件检测的基础上,本文对事件模型的变化趋势进行分析,提出一种更加完善的基于增长率预测的方法,实现对突发事件进行预测的目的。基于增长率的预测方法,能够提前发现可能成为热点事件、突发事件的网络事件,进而做到对事件的跟踪与关注。此外本文还在曲线拟合方法上进行探索,提出一种通过曲线拟合的方法进行预测的具体实施方法。实验中,基于增长率预测的方法较好地预测出突发事件,能够提前预知哪些事件能够成为热点事件或突发事件。