基于语义分析和二次聚类的微博热点发现方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zs83315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博已经成为表达用户观点的主要阵地之一,同时也是新闻消息的主要产生和传播途径之一。用户在微博平台发布和传播的内容即可以及时掌握用户的关注点,提高用户满意度,也可以帮助有关信息监督部门及时掌握突发事件。因此对微博热点发现的研究具有较高的社会意义和学术价值。针对传统的微博热点发现方法中存在的语义理解不足和聚类算法局限性的问题,本文从语义分析角度表示文本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出了二次聚类算法,改进的K-means算法及其增量聚类算法实现话题发现与更新,相似强度来选取最优话题,以解决传统的先确定聚类个数再发现话题的不准确性问题;最后构建微博话题热度评估计算模型。本文主要研究的微博热点发现,其过程划分为三方面:(1)数据采集与清洗。经研究分析发现反映微博主题的因素主要有:标题、内容、转发次数、评论内容、作者和发表时间,采集结果中相同微博内容仅保留一个,清除内容中未处理的HTML标签,去除空值、广告等噪声,去停用词。(2)数据处理与文档表示。从语义分析角度表示文本。本文使用信息增益选取特征词,可以较多的保留低频词汇的隐含信息。通过向量空间模型构建的词-文档,该矩阵维度高且存在噪声,使用潜在语义分析可有效解决这些问题。(3)热点发现。本文使用二次聚类算法发现微博话题。通过相关门户网站分析和人工分类微博,确定了微博热点话题的数量区间作为K-means聚类算法的聚类个数区间。对于新加入的数据使用增量聚类算法,快速更新话题。聚类结果不唯一通过相似强度选取最优值,解决了传统的先确定话题个数再发现话题内容的不准确性问题。从实验结果来看,本文提出的话题发现方法具有较高的精确度。提出了微博话题热度评估模型和计算公式。根据以上研究,本文还设计了博热点发现流程,使用JAVA实现了流程中的关键步骤。通过抓取新浪微博中的相关数据及实验,验证了本文提出的方法具有较好的效果。
其他文献
软件企业是产生高附加值产品和服务的典型的知识力密集型企业,也是典型的项目导向型企业。面对客户多样化和个性化的需求,多项目管理越来越成为软件项目管理者面临的最大挑战。多项目因共享人力资源产生的资源冲突是软件多项目调度最突出的问题。此外,知识员工是软件企业的核心竞争力,他们掌握着项目所需的知识、技能和经验,直接关系着软件项目完成的效率和质量。大量项目管理实践表明知识员工的软技能对软件项目管理的成败起着
本文通过对荣华二采区10
期刊
本文阐明了文本解读在高中英语教学中的现实意义,指出了阅读教学文本解读的重要性,探讨了如何在语篇中解读语言知识,发展语言能力,从而提高学生的综合语言运用能力.
内河航运在综合运输体系中是一支不可忽视的力量,具有其他运输方式不可替代的地位和优势.但随着交通行业的发展,中国内河航运业结构已暴露出许多的问题,制约了内河航运总体发
本文以提高英语阅读教学效果为切入点,阐述课前导引、合作探究和成果展示等策略对学生理解感知思维的促进作用.依据学生阅读理解的差异,以问题为导向,以多样化的方法指导阅读
针对中国建设市场所存在的诸多问题,该文试衅通过对中国建设市场运行机制进行剖析,借以寻求造成这些问题的原因.在此基础上,试衅完善中国建设市场运行机制,尤其是完善市场主
本文首先简要分析了初中英语教学中培养学生学习适应性的必要性,然后从创设互动式情境、鼓励学生参与学习活动以及科学设置课程目标结构等几个方面出发,探讨了初中英语教学中
该文研究的主要内容是"基于工作流技术的群体决策支持系统(WGDSS:Workflow-based Group Decision Support System)".论文提出了WGDSS的相关概念框架和结构模型.决策活动是企
本文通过对荣华二采区10
期刊