社交媒体事件属性识别方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yu964230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体平台拥有海量的用户和信息,每当现实世界有重大事件发生时,这些事件的相关信息都会被传播到社交媒体上,因此对社交媒体事件的属性信息进行挖掘就具有重大价值。社交媒体事件属性识别是通过对社交网络文本数据的分析,提取出事件的发生时间、参与的人物、发生的地理位置、事件所属的主题等信息,能够获得事件更丰富的信息。通过识别事件的属性信息,能够实现舆情监测和舆情分析,方便公共决策机构及时获取信息并进行处置。事件属性识别涉及的内容很多,本文主要针对事件主题和事件发生的位置进行识别。在现有研究中,针对主题识别的方法依赖于社交媒体的外部特征,因此在不同社交媒体平台间的可移植性较差,同时这些方法无法应用于在线的主题分类。针对地理位置识别的方法大多依赖单一的地理信息进行提取,导致信息利用不充分,同时现有的方法没有对地理信息中的噪声进行有效处理,导致地理位置提取的准确率不高。本文针对上述问题开展研究,主要贡献与创新概括为如下两方面:(1)提出了基于主题词的事件主题分类方法。本方法在分析社交媒体信息流中事件和词语关于主题分布的时变特性的基础上,在主题词提取流程中,利用滑动窗口实时计算并更新词语的主题分布,利用KL散度计算事件主题分布和词语主题分布的差异值,并利用词的KL散度值提取出事件主题词。在主题分类过程中,提取出待预测事件包含的主题词,利用基于狄利克雷-多项式共轭分布的贝叶斯推理方法实时计算和更新事件主题的概率分布。本方法不使用社交媒体的外部特征,并实时计算事件主题概率分布,因此具有可移植性并可以实现在线主题分类。(2)提出了基于多源信息融合的事件地理位置提取方法。本方法分析了推文文本、推特上下文和用户个人信息的地理属性特点,提出了利用上述三种地理属性信息构建基本概率分配的方法,其中对用户个人信息信源使用K-Means聚类算法进行噪声点剔除,并通过正规化消除人口密度分布对基本概率分配的影响。在地点预测过程中,利用Dempster合成公式对基本概率分配进行融合,并使用信度函数和似然度函数计算出每个地点的概率区间,最后通过该概率区间判决事件的地理位置。通过与现有事件定位方法相比,证明了本方法具有较高的预测准确率。
其他文献
加强非公有制经济组织的党建工作,是中国共产党应对社会主义市场经济条件下所有制结构和社会阶层的新变化、进一步密切联系群众、增强党的阶级基础、提高工人阶级队伍的整体
随着我国企业规模的不断扩张,企业对其内部各组织结构也逐渐进行了细化。因此,为了企业的长远发展,企业所有者必须让出企业经营权和管理权,随着两权分离情况的不断加剧,在当今市场高度信息不对称的前提下,委托代理问题随之出现。委托方和代理方由于目标与利益不一致,不可避免地会形成利益冲突。股权激励是一种有效的使委托方和代理方利益融合的方式。在股权激励的影响下,管理者不需要冒着高风险选择侵害股东利益的方式获取回
本文以塔里木盆地柯坪-巴楚地区肖尔布拉克组碳酸盐岩储层为研究对象,通过岩心观察、岩石薄片观察、地球化学分析、模拟实验等工作,较为系统的研究了储层岩石学特征、储集空
引言人民陪审员制度是社会主义民主政治在司法领域的具体体现,其中的事实审与法律审分离机制是《人民陪审员法》的重大亮点。环境污染防治作为《人民法院第五个五年改革纲要
会议
随着我国经济从高速发展阶段步入高质量发展阶段,人们生活水平不断提高的同时,开始追求更高质量的生活服务,有越来越多的人愿意花高价来追求高质量的服务,特别是对提高公共交通出行的高水平、高质量服务有更迫切的需求。在大城市中,以白领为代表的中等收入以上的消费群体,由于在舒适性、便捷性等方面的不足,传统的公共交通已经已不能满足他们的出行需求。作为中等以上收入的人群,他们更加倾向于定制化、个性化的出行方式,更
21世纪以来,中国从具有开放优势、发展潜力的东部地区入手,给予政策优惠和支持,成功实现了经济的快速起飞,但“先富带动后富”的蓝图并不理想。当下,我国东中西部地区经济发展水平差距较大,中西部地区亟需引入较为成熟的产业,来改善这一严峻的不平衡态势。与此同时,东部地区也需要优化产业结构,推动传统产业向外转移,致力于主导创新产业的发展。区域间产业转移是解决这一需求的重要途经,但其往往受到多种因素的制约,如
Spark是基于内存的分布式数据处理框架,在数据处理与分析、机器学习等方面应用广泛,对Spark平台的优化研究已成为当前的研究重点和热点。使用Spark平台进行数据处理虽然可以提高作业执行效率、减少数据传输时间,但是其计算性能容易受到多种因素影响,例如,底层硬件、结构体系、操作系统、应用程序等,从而造成在Spark内存分配中内存利用率低、Spark MLlib中聚类算法的准确率低等问题。因此,基于
习近平主席在2013年10月召开的周边外交工作座谈会上强调,思考周边问题、开展周边外交要有立体、多元、跨越时空的视角。我国周边地区是世界上战略分量最重的地区之一。这里
会议
随着互联网、信息及通信技术的突破性进步和广泛普及,作为制造业活动中不可忽视的一部分——服务要素投入的作用日益凸显,重要性与日俱增,全球制造业呈现出一种向“服务型制造业”转型的趋势。与此同时,中国制造业“大而不强”,出口产品质量较低,为此中国制造业亟需提质升级,获取动态竞争优势。制造业服务化是否会提升中国制造业竞争力?文章以加成率作为衡量制造业竞争力的指标,采用企业面板数据,考察制造业服务化对中国出
社交媒体是拥有众多用户参与的新型在线媒体,近年来以推特为代表的社交媒体网站吸引了数以亿计的用户,现实社会中所发生的重大突发事件在社交媒体中会得到快速的反应与广泛的传播,因此社交媒体中包含着丰富的突发事件的相关信息。社交媒体中的事件检测方法为利用机器学习与自然语言处理等技术,从海量的社交媒体数据中寻找现实生活中所发生的突发事件的方法,有效的事件检测能让人们及时了解社会中所出现的热门事件信息,并帮助政