论文部分内容阅读
数据过载问题已成为制约互联网发展的重要问题。个性化推荐技术有效地缓解了这一问题,但随着互联网系统复杂性增加、数据内容多样化,个性化推荐技术的应用暴露出一些问题,如数据冷启动、用户数据稀疏性、推荐系统扩展性等问题。协同过滤推荐算法通过研究用户的喜好,实现从海量数据资源中为用户推荐其感兴趣的内容,在电子商务中得到了广泛的应用。然而,当此类算法应用到社交网络时,相似度计算方法和评价指标的重点发生了变化,从而出现推荐算法效率偏低,推荐准确度下降,导致社交网络中用户交友推荐满意度偏低。针对上述出现的问题,文中提出并设计了基于用户相似度的协同过滤推荐算法,并在仿真实验环境下对算法有效性进行了验证。论文的主要工作如下:(1)分析现有的相似度计算方法,针对社交网络的特性,重新定义用户相似度及其计算方法。用户相似度由两部分线性拟合而成:①用户属性相似度。用户的基本信息组成,用户属性划分为数值型属性和名称型属性;②用户互动相似度。以用户间的会话信息为依据,找出用户间相似的发件人和相似的收件人,用度来衡量用户互动相似度。③对两部分相似度赋予不同的权重,线性拟合得到用户相似度。(2)以用户相似度为基础,设计基于用户相似度的协同过滤推荐算法,对算法设计的依据进行讨论。通过对相似度的计算,利用Top-N排序算法对候选集进行排序,为用户产生推荐集。对算法复杂度进行分析,并和其他算法的复杂度进行比较。(3)搭建实验环境,仿真实验环境基于ApacheMahout开源平台,使用社交网络中真实的历史数据展开实验,收集并分析实验数据,从准确率、用户回复率、推荐的覆盖率等不同维度度量,对协同过滤推荐算法、基于互动的推荐算法、基于用户相似度的推荐算法三种算法进行评价。在社交网络中离线状态下对真实环境进行仿真模拟,最大化的接近真实情况。实验结果表明:基于用户相似度的协调过滤推荐算法和其他二种算法的复杂度处于同一数量级,在不增加额外开销的情况下,基于用户相似度的协调过滤推荐算法在社交网络得到的推荐结果的质量优于另外两种算法,有着更高的用户满意度。