论文部分内容阅读
随着信息技术的不断进步,互联网逐渐走进人们的工作生活,网络舆情越来越能够精确反映当前社会热点、民众的态度需求,因此许多政府相关部门、企业能够对网络舆情信息进行监控管理的需求就变得非常迫切。同时由于互联网信息量大,且分布广泛,这些特点决定了难以依靠人工方式去实现信息的筛选以及舆情的监控。因此通过舆情监测及时发现当前掌握舆情热点信息,为相关部门和媒体应对突发事件提供理论依据,具有重要的社会价值。首先,本文介绍了热点话题舆情分析所涉及的关键技术,通过对当前信息处理系统中网页正文提取方法和网页布局结构的研究,针对当前算法对于不同网页结构网页正文提取准确度低的不足,充分考虑结构差别较大的网页对网页正文提取的影响,提出了基于结构相似网页聚类的正文提取算法,根据组成网页前端模板各“块”对模板的贡献赋以不同的权重,其次计算两个网页中对应块的相似度,将各块的相似度与权重乘积的总和作为两个网页的相似度。利用网页间相似度将网页聚类,使得同一簇中的网页正文提取结果更加准确。其次,通过对比多种文本聚类算法的优缺点,结合本文研究对象网络新闻,针对原Single-Pass算法随机选取聚类中心影响聚类结果和算法运行过程中需要多次与所有对象聚类影响效率的不足,确定初始聚类中心,并在新文本不断加入过程中不断更新聚类中心,进一步提高算法的运行效率。然后计算话题热度值时引入衰减函数,根据其各项特征计算出话题的热度值,进而根据话题热度值得到舆情信息中的舆情热点话题。最后,根据对以上内容的研究,结合平台的设计要求和功能需求,完成了系统的总体架构和各功能模块的设计,实现了社会热点话题网络舆情分析平台。平台测试运行结果表明,平台能够快速及时获取网络信息并经过分析处理挖掘出其中蕴含的热点话题,其热点话题检测功能实现能够基本达到预期设计目标。