论文部分内容阅读
随着Web2.0的到来与快速发展,互联网承载的信息呈爆炸式增长,凸显了信息过载问题——面对海量的数据,用户反而很难找到最有用的信息。目前,搜索引擎和推荐系统是进行信息过滤最主要的方法。搜索引擎提供基于关键字的无差别服务,不同用户以相同关键字进行查询只能得到相同的搜索结果,即不能根据用户的偏好进行相应的反馈。而推荐系统能够根据用户的偏好主动为用户提供个性化信息过滤服务,推荐和用户最相关的信息,在社会化网络和电子商务中得到了广泛应用。其中,协同过滤推荐算法是当前最流行和最成功的推荐方法,该算法从历史行为信息中挖掘用户偏好,不需要对具体内容进行分析,推荐流程主要有相似度计算、邻居选择和根据邻居进行推荐三个环节。然而,随着近几年国内外关于协同过滤推荐算法研究的深入,流程的各环节研究中还有以下不足:(1)单一相似性计算不准确,引入社会网络用户之间信任关系能够缓解这一问题,但传统多下一跳信任模型计算复杂,而且没考虑信任弱传递性;(2)邻居选择时以相似度为唯一标准,没有考虑邻居用户的推荐贡献能力;(3)在推荐时采用的k均值加权推荐算法没有深入挖掘项目之间的类别关系,降低了用户的个性化要求,而且关于邻居数k的确定过于主观,影响推荐准确度;(4)协同过滤推荐流程中没有去干扰处理。本文针对协同过滤推荐算法流程中存在的以上问题,依托国家863计划课题“面向三网融合的统一安全管控网络”展开研究,主要工作和创新点如下:1.针对相似性计算环节中引入社会网络多下一跳信任模型存在的复杂路径选择和信任弱传递问题,定义新的信任机制,创新性的提出基于项目的一跳信任模型,一步跳转计算用户之间的直接和间接信任距离,进而计算用户之间的信任度。仿真实验表明,该算法降低了训练误差,同时节省了训练时间(约50%);2.针对邻居选择环节没有考虑到目标用户的邻居在推荐时的贡献大小问题,本文从非共同评价项目集这一角度切入,提出贡献因子,考虑邻居用户的推荐能力,使邻居选择更加合理。实验结果表明,本算法提高了推荐准确度;3.针对推荐时存在的两个问题,提出启发式聚类模型,主观的确定邻居数量k,并引入类别相似度的概念,在推荐时根据项目之间的类别相近程度根本改进传统的k均值加权算法,提高推荐的精度。实验结果表明,该算法能够得到更准确的推荐结果;4.在推荐系统中首次引入低通滤波的概念,定义了推荐系统中的项目噪声和信任度,进而提出了低通滤波推荐模型,依据用户对项目的评分特征的贡献大小,确定其在相似度计算时的权重,避免了贡献小的用户评分在计算时权重过大,相当于一个去干扰处理,使得相似度计算更加可信。仿真实验表明,该算法提高了预测结果。