论文部分内容阅读
在如今的信息时代,社交网络在人们的日常生活中扮演着非常重要的角色,不仅丰富了我们的日常生活,还是信息传播快速而有力的途径。人们可以在社交网络上发布自身的动态,也能通过它了解身边以及世界各地正在发生着的事。然而,在满足人们信息需求的同时,社交网络上海量的信息也会带来信息过载的问题,如何在海量信息中高效获取用户需要的信息也因此成为了目前数据挖掘领域的一大热点。个性化推荐能够有效解决上述问题,并且,相比于传统的搜索引擎方式,具有能够主动向用户进行信息推送的优点,且不存在搜索质量不高、搜素竞价排名太过商业化、垃圾广告太多等问题。因此,为了帮助用户高效地获取社交网络中的有用信息,本文以最受欢迎的社交网络之一的推特为研究对象,研究了推特事件的个性化推荐算法。本文主要工作如下:(1)从创新的角度对推特数据进行推荐算法研究,不再简单地以推文作为推荐对象,而是将推文进行聚类,从而检测出推特上正在发生的事件,然后以事件为基本单位进行推荐算法的研究。该算法借鉴PCA算法的思想对推文进行降维,分析了推文组成成分,删除了一些无关语义的冗余信息,保留了主要的有效信息,减轻了后续计算复杂度,也在一定程度上提高了相似度计算准确性。并且在计算相似度时采用了改进的余弦夹角算法,考虑进了向量维度的影响。在进行推荐判决时,分析了固定阈值方法的弊端,提出了一种自适应阈值发现方法,自动为每个用户模型找到最合适的阈值,以期提高推荐准确率和召回率。结合上述改进,本文提出了一种推特事件推荐算,并在真实推特数据集上进行实验验证,结果表明,相对于传统推荐算法,该算法在推荐性能上有较大提高。(2)特别地,针对在线推荐场景,提出了基于二次聚类的推特事件推荐算法。该算法将用户模型与事件进行再次聚类,通过评价聚类结果来决定是否推荐,若用户模型与部分推文聚为子类,则认为该事件为用户感兴趣的,应当进行推荐。该算法用到了K-Means++算法进行聚类分析,在K-Means算法基础上对初始聚类中心做了优化,使之能够得到全局最优解。经实验验证,该算法相比于传统推荐算法在推荐性能上有大幅度的提高。(3)以基于二次聚类的推荐算法为核心,设计并实现了推特事件推荐系统。首先搭建了整个系统的架构,然后具体介绍了每个功能模块的实现方法,最后通过可视化的方式展示了推荐结果。