微博个性化信息推荐方法研究

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:QB582
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为社交媒体典型代表,微博在近年得到了迅猛的发展和广泛的应用。作为一个基于用户关系的信息分享、传播以及获取的社交网络平台,它不仅可以扩大人际圈实现社会交往,更是获取最新资讯和各方评论信息的重要媒介。如何在此平台为用户提供个性化的服务筛选出高质量的内容,有效降低用户获取有用信息的成本变得非常重要,而准确的发现用户的兴趣则是实现这种个性化服务的前提,在此前提下,用户兴趣推荐算法应运而生。现有的微博信息推荐算法有基于内容的方法或基于用户关系方法两种。这两类方法有自己的侧重点,但它们并不是完全分离开的,或者说它们也存在共生关系,因为在实际运用中,两个因素都考虑的话可以得到更令人满意的结果。因此如何为用户提供更为准确的推荐结果,一直是相关研究人员关心的问题。论文首先分析了微博中个性化信息推荐算法研究现状,接着探讨推荐算法关键技术,然后编写爬虫脚本获取实验数据,重点阐述了针对于微博用户好友的混合推荐策略以及针对博文的多源信息相似推荐方法,并详细解释了用户偏好建模过程以及目标物品和用户偏好模型之间的关联关系计算方法,结合实验结果进行对比分析,最后对论文研究工作进行总结以及对进一步研究进行探讨和展望。论文的主要工作有:(1)为了获取本文实验所需数据,尝试了使用新浪微博提供的API获取方法和脚本获取方法,发现新浪微博提供的API存在诸多限制。最终选择使用Python语言编写浏览器脚本,并将脚本部署在服务器上,获取最终的实验数据。(2)为了尽可能地去除微博短文本中包含的大量噪声数据,对微博的内容的成分进行分析,去掉文本中大量的无关信息,并通过繁简转换、分词和去停用词方法尽可能地得到无噪声数据。(3)提出一种融合本文内容和用户社交关系的好友推荐方法。该方法首先分析了用户主页内发布和转发的微博文本,将此类短文本合并成一篇文档,通过LDA主题模型对文档进行主题生成,得到的文档主题概率分布来表示用户偏好。用户间内容相似度可以通过概率分布的KL距离计算出来。另外,考虑到用户之间社交关系的重要性,提取两种主要社交关系,并计算用户间社交关系相似度。最后通过线性融合策略综合考虑两种用户属性对推荐结果的影响,并实现对用户的个性化好友推荐。实验表明本文方法能够更加准确的进行好友推荐。(4)提出了多源信息相似的博文推荐方法。微博用户可以定义自己的兴趣标签,对于用户偏好,通过构建标签向量来表示。同时对于无标签或标签较少的用户,通过标签检索策略获取相应标签。对于待推荐的博文,计算标签相似度。通过进一步挖掘博文的作者信息,按照好友推荐阶段的方法,计算博文用户之间的综合相似度。最终的推荐结果综合考虑了多种相似度信息。实验表明该方法相对于一些传统方法能够提供比较准确的博文推荐结果。
其他文献
针对县级国库集中收付改革存在的问题,提出完善建议。希望通过制度创新推进财政国库管理改革,提高财政资金使用效益。
分析关键词标引中存在的若干问题,探讨关键词与文献主题、标题词、专业术语、主题词、自由词的关系,提出提高关键词标引质量的对策.
泌尿生殖系统感染疾患,占泌尿外科门诊病种比例的大多数。近年来发病率不断上升,部分与泌尿生殖道淋球菌、衣原体、支原体等感染有关,我院于2000年以来选用联邦赛诺欣治疗泌尿生
摘要:海洋石油开采安全防护问题是国内外广泛关注的热点话题,海洋石油资源较丰富,对于深海作业,作业难度较大,且要求设备安全性能及其可靠性能较大,海洋石油集输多为管道输送,输送安全以及用电设备的连续满负荷运行是关键,海洋石油设备安全角度出发,全面而系统的分析和阐述海洋石油设备的安全性能。  关键词:  海洋石油;安全防护;深海作业;集输;满负荷;用电设备  中图分类号:TB  文献标识码:A  文章编
人民对美好生活的需要是新时代人们关注的一个焦点和热点问题,实现人民的美好生活需要是新时代的目标指向。新时代社会主要矛盾的转化、我国所处的新的发展阶段、全体人民的