面向微博数据流的实时话题发现与动态推荐算法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:zhongqiou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,特别是Web2.0的到来,用户可以在各种网站上实时分享和提供各类数据。这些网站在给用户提供极大丰富选择的同时,用户不得不花费更高的时间成本在浩如烟海的数据中寻找所需要的信息。另外,随着互联网用户数量的急剧增加,微博、论坛等社交网络成为人们传播新闻、社交活动的信息传播载体,突发新闻、热点话题在微博上的传播速度很快,使得微博往往能够先于传统新闻媒体对热点事件做出反应。本文实现了面向微博数据流的实时话题发现和个性化动态推荐,为了保证其实时性和准确性,对频繁项挖掘、聚类分析和属性约简等数据流挖掘技术进行了研究,并将这些技术进行改进以适应文本数据分析的需求。主要研究工作和创新点如下:1)提出了一种在变密度数据流环境下的任意形状聚类算法VDStream。实现在线维护数据流概要信息,受噪声数据影响小;采用基于密度的聚类方法根据用户需求进行线下宏聚类,可以发现任意形状的簇;对参数不敏感;根据当前数据流的密度自动生成簇的半径,在数据流密度差异较大或密度稀疏的情况下能够精确地发现簇,提高了聚类的质量。2)提出了一种面向数据流的频繁项挖掘算法CC,能够以较高的效率寻找到频繁项;并在此基础上提出了面向微博数据流的频繁项挖掘算法CCK,能够在有限的内存中及时找到近似高频词,并且根据话题的持续时间动态调整窗口大小,实时发现热点话题和新话题。3)使用条件信息熵作为启发函数,结合卡方统计方法,在保证约简结果正确的情况下,降低了属性约简的计算复杂度,通过保存属性间观测频度矩阵作为中间变量的方法,实现了适用于动态变化数据集上的增量式属性约简。4)提出了一种基于聚类的改进协同过滤推荐算法,引入时间衰减因子强化最近被打分项目的重要性,符合用户兴趣可能会随时间而发生漂移的特点。同时,通过保存中间变量的方法,综合考虑相似用户的兴趣、话题热度和被关注用户的兴趣三方面因素,提出了一种基于话题的动态过滤推荐算法。
其他文献
<正>1青少年和成人沙眼衣原体(CT)感染1.1诊断泌尿生殖道CT感染是美国最常见的传染性疾病,在≤24岁人群中发病率最高。泌尿生殖道CT感染在妇女中可通过测试尿液或宫颈管或阴
主要介绍了中国铀矿的类型、产量,详细阐述了岩石中铀的分析、测试的相关方法,最后得出中国核工业发展任重道远的结论。
随着经济水平的提高,城市居民的休闲度假需求日益提升,出现了环绕城市外围,与中心城市交通联系便捷,具有观光、休闲、度假、娱乐、康体、运动、教育等不同功能的带状游憩地域
简要阐明了口语表达能力是 21世纪大学生生存与发展的需要,甚至关系到国家兴衰,企业成败的关键所在,分析了现今大学生口语表达能力的现状及原因,指出了提高大学生口语表达能力的
洪兴祖《楚辞补注》是一部里程碑式的《楚辞》阐释文献。近20年来,这一历史上的楚辞研究专书逐渐成为学术界关注的焦点。许多研究洪兴祖与《楚辞补注》的论文从不同侧面、不
讨论了一种四自由度机器人运动学模型的建立问题,在此基础上给出了该机器人运动学正解和运动学逆解的简化求解方法,简化了求解过程,大大减少了计算量。实验表明:这种简化求解
目的探讨社区2型糖尿病患者自我血糖监测(SMBG)现状及相关影响因素。方法 2014年1月从上海市瑞金二路街道社区卫生服务中心在册管理的糖尿病患者中以随机数字表法抽取符合纳
利用慧鱼教具及创意组合模型来建造四轮驱动电动汽车模型,其动力由安装在车轮上的4个电动机提供。根据转弯半径和设计的S形弯道计算出了内轮和外轮电机的调速比。该四轮驱动
在我国新一轮基础教育课程改革推进的十余年里,语文学科领域出现了各种眼花缭乱的“理念”、花样繁多的“模式”,使得语文教育弥漫着浮躁之风。这种浮躁的风气影响着语文教育质量的提高。怎样搞好语文教育,李镇西提出了语文教育要立足学生,遵循语文教学规律与教育常识,在此基础上引导学生将学习文化与自我发展相融合,进而指导学生更好的生活的朴素语文观点。本论文主要通过研究李镇西老师的教育专著集及课堂实际案例,来探明其
网状内皮组织增生症病毒(Reticuloendotheliosis virus,REV)感染导致的禽网状内皮组织增生症病(Reticuloendotheliosis,RE)是家禽业三大病毒肿瘤疾病之一,我国肉鸡的REV感染