网络热点话题趋势分析及预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tangroo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,针对社会媒体信息的自然语言处理相关研究越来越受到广泛关注,特别是对社会突发事件及网络敏感信息的监控与预警,对社会舆论的情感趋势变化的分析与预测,都有非常重要的研究价值。本文面向新浪微博数据,对热点话题的情感趋势进行深入的分析和计算,并根据历史微博数据进行趋势建模,预测热点话题的未来趋势。本文根据微博数据的特点,将热点话题分为长期话题和短期话题,对这两种不同的话题分别进行事件趋势分析与预测,重点对预测趋势发展的各种特征进行深入研究。本文的主要研究工作如下:1.提出了一种基于联合深度学习模型的情感分类方法,对微博数据进行情感分类。该方法使用卷积操作将纯粹的多个词向量序列重新序列化,得到了具有n-gram信息的词向量,实验结果表明,采用该方法与传统的CNN方法和LSTM方法比较情感分类准确率更高,该方法在COAE2016年的情感分类任务中排名第一。2.对微博短期热点话题进行趋势分析和趋势预测,该方法通过对样本范围内数据的计算,获得影响事件趋势的相关指标的数据值,将2个小时划分成1个时间段,使用不同的历史时间段数据进行对比,在4个时间段内达到预测的最佳效果。在事件趋势预测研究上按照特征类别排序,构建回归模型进行话题热度预测。实验对比了自回归方法,GBDT和CNN四种预测方法,实验结果表明在短期话题中预测2个小时内的趋势时,基于GBDT的方法达到最佳效果,当预测误差在5%以内记为预测准确时,准确率达79.1%。3.对于长期话题,本文提出子主题分离预测法,利用在线LDA模型对相同时间片上的微博数据进行训练,得到子主题演化和子主题强度,将话题的发展分为4类,使用SVM建立分类模型,对于不同波峰之间的数据分别进行预测,实验结果表明该方法对于话题热度的分类准确率达到86%,整体趋势预测也取得了较好的结果。
其他文献
进化算法是模仿生物自然进化过程的一种随机搜索方法,最初具有三大分支:遗传算法、进化规划和进化策略。九十年代初美国学者Koza在遗传算法的基础上提出了一种全新的结构描述
随着计算机技术和网络技术在虚拟仪器领域的不断深入,网络化已成为虚拟仪器技术发展的一个重要方向。同时复杂的测试任务对测试系统提出了新的需求,基于网络的、可配置的、分布
近年来,随着拍照设备的不断升级,存储图片所需的内存空间飞速增长,然而硬盘、U盘等存储设备的容量却增长缓慢。不断增长的图片数据量与有限的存储容量之间的矛盾给图像压缩带
句法功能即表示一种语言中所有组成成分之间的关系。所谓功能成分,通常是指主语、谓语、宾语、状语等。除了短语结构分析和依存句法分析之外,功能成分分析是对句子分析的另一
磁共振成像具有无电离辐射、多参数成像、功能成像、可任意方向断层成像等优点。在临床上磁共振已经得到广泛的应用,成为最重要的成像方法之一。具有诸多优点的同时,扫描速度
用户在网络上发表针对某一种产品的评价,无论是对于厂家还是潜在的消费者,都具有十分重要的研究价值。同样,用户对网络教育资源的评价,无论是对教育资源的提供者还是学习者,
人工鱼群算法(Artificial Fish Swarm Algorithm, AFSA)是一种基于鱼群行为模拟的群体智能优化方法,近几年在电力系统、控制器设计、图像与数据聚类等工程领域得到了成功的应
网络断层扫描技术是一种新型网络性能测量技术,它克服了传统测量方法的一些缺点,只需通过边缘测量就可推断出网络内部链路的性能参数。网络断层扫描技术的提出可以更好地解决
周转包装物是一种流动性大、不易标识和难于管理的压力容器。中化蓝天集团有限公司拥有包装物数量众多,在流转过程中,经常发生包装物流失和无法识别超年限包装物等问题,传统
近年来,随着实际生活中的数据量不断呈指数增大,不一致数据的出现也变得越发频繁。传统的方法是通过人工修正来对不一致数据进行修复校正。然而,随着不一致数据的数据量增长