网络社交媒体的热门话题挖掘

被引量 : 0次 | 上传用户:hnldlxz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息时代,人们获取信息的途径越来越多样化,获取信息的方式也变的越来越便捷。特别是网络社交媒体的出现,伴随着网络的兴盛,其也受到了广大用户的青睐。因为它不仅提供给用户浏览信息的功用,也提为用户发布消息提供了一个便利的平台。但由于网络上用户群体非常庞大,导致信息量过大,信息质量良莠不齐、信息内容重复等问题,这些问题必然会给用户造成关于信息检索方面的困扰。于是基于信息内容的数据挖掘成为了信息时代的一个重要研究。其中,热门话题挖掘是最为重要的一部分。因为这项研究的意义,对于用户来说,不仅直接向他们提供了了解当前热门信息的渠道,还能节省大量时间,而对于网络社交媒体网站的管理人员来说,也能帮助他们更好的了解用户群体当前的喜好,并对网站的业务决策提供了实际的数据支持和指导。本文正是针对网络社交媒体进行热门话题挖掘的研究工作。由于当前网络上主流的社交媒体是各大论坛和微博,本文分别就这两种数据进行了研究。这两者既共享了网络社交媒体所特有的特点,也有着各不相同的内在特质,本文分别对两种社交媒体数据的特点进行分析后,采用了不同的模型和算法去实现热门话题挖掘的研究任务。首先,针对论坛数据的特点,本文以达到聚类结果具有一定可读性为目标来开展工作,主要从语义性和话题性两个方面,对论坛数据进行了形式化定义;通过利用数据的时序性特点,以及网络社交媒体上热门话题的出现规律,即在话题发起之后的连续时间段内,会有比较集中的针对此话题的讨论,本文采用单遍聚类算法来发掘数据中的热门话题。通过实验说明,本文采取的此种方法是简单可行的,特别是针对社交媒体数据,本文的方法不仅可以获得比较好的话题类别,也能使得话题结果具有可读性。其次,对微博热门话题挖掘任务由于微博数据具有消息短、传播速度快的鲜明特点。本文采用了灵活性高、易扩展的图模型,并在图上把热门话题查找的任务形式化为查找图中的密集子图问题。通过实验验证,密集子图和热门话题确实存在对应关系。文中实验一种基于贪心策略的算法,此算法保证在经过几次迭代后算法会停止,还可以获得和最好结果相比的一个近似度较高的密集子图。在此算法基础上,本文提出了一种能检测Top-k个微博热门话题的算法,并用实验证明了算法的效率。
其他文献
2008年全球金融危机以来,宏观经济条件与商业周期的结构变化给金融市场带来的影响引起了人们的关注。自从Hamilton(1989)将体制转换模型引入金融计量学领域以来,马尔可夫调制
目前,点焊、胶粘和铆接等连接方法已经被广泛用于汽车车身钣金件的连接中,而车身钣金件的连接对车身刚度、强度和碰撞安全性都有至关重要的影响。为此,各种有限元软件都在开发和
本文采用超高效液相色谱-串联四级杆飞行时间质谱技术检测经葛根芩连汤全方及其组方内各单味药葛根、黄连、黄芩、甘草治疗的2型糖尿病大鼠血液和尿液中代谢物的变化,使用主成
随着煤矿开采深度的增加,瓦斯涌出量增大,瓦斯灾害日趋严重;同时地应力增加,煤岩破碎量增大,地温升高,煤自燃灾害也越发凸显。两种灾害共生的复合型灾害已成为煤矿重特大事故
节能、环保、安全是当今汽车工业发展面临的三大主题。高速客车属于形状不规则钝头体,较大的迎风面导致行驶中气动阻力大,降低高速客车气动阻力对节省能耗、提高经济效益具有
长期以来,日本觊觎中国钓鱼岛的战略意图不断强化。2012年日本政府强行推进的钓鱼岛“国有化”是日本窃取钓鱼岛的另一个重要步骤之一。日本在钓鱼岛上的立场对东亚地区安全与
当前,新能源产业是衡量一个国家和地区高新技术发展水平的重要参考指标之一,也是世界新一轮国际竞争的最高战略目标。发展新能源产业不仅可以带来很高的经济效益,对能源的安
背景:湿疹/特应性皮炎(AD)病因十分复杂,是由多种内外因素引起的,皮损呈多形性改变,并伴有严重瘙痒的炎症性皮肤疾病。既往研究发现细菌尤其是金黄色葡萄球菌的定植或感染与湿
惯用语是历代各民族人民经过日积月累而逐渐积淀出来的一种较为固定的语言形式,与民族文化联系非常紧密。文化语义是隐含或附加在概念意义上的意义,是在某一文化背景下,由一
在当前的国际形势与我国社会发展的需要下,传承与弘扬传统文化与地方民族文化日益迫切。而本土美术作为一种地方文化的艺术载体,体现了本土文化或传统文化的精神内涵,将本土