论文部分内容阅读
随着现代社会互联网的发展,信息资讯大量出现,这给用户在信息的选择上增加了困难。此时,以协同过滤为首的推荐技术逐渐引起了人们的关注。但是,现有的算法不可避免的存在着数据稀疏性以及过度依赖评分矩阵等局限性。在现有算法的基础上,本文利用隐马尔可夫模型里观测值与状态之间的双重随机性模拟用户的评分轨迹,从而对协同过滤的数据稀疏性进行改进,但是由于隐马尔可夫模型无后效性,它无法表示非相邻状态间的依赖关系,从而导致用户偏好中部分有用特征的丢失,该模型继承了一阶隐马尔可夫模型的优点,因此本文提出基于二阶隐马尔可夫模型的改进协同过滤算法,以及针对该算法的运行效率和用户可扩展问题而提出的聚类优化算法。最后应用本文提出的算法设计一套为大学生群体服务的信息资讯推荐原型系统。本文的主要研究工作如下:(1)针对现有的协同过滤算法中的数据稀疏性和过度依赖评分矩阵等问题,提出一种基于二阶隐马尔可夫模型的改进协同过滤算法(CF-2HMM)。该算法利用二阶隐马尔可夫模型中状态之间转移的随机性来模拟用户的兴趣变迁,根据用户的评分轨迹,找到用户下一时刻评分概率最高的项目候选集,缓解了数据稀疏性;并将获得的概率与余弦相似度加权融合,提出一种新的相似度计算方式,削弱了评分矩阵对相似度计算的重要性。MovieLens数据集上的实验结果表明,CF-2HMM算法在准确率上比基于一阶隐马尔可夫模型的改进协同过滤算法(CFHMM)提高了4.7%,比经典的基于矩阵分解的协同过滤算法(SVD)提高了6.2%,比传统的协同过滤算法(CF)提高了8.9%;为了在准确率和召回率之间取得平衡,本文考虑F1指标,CF-2HMM算法在F1指标上比CF-HMM算法提高了5.9%,比SVD算法提高了5.6%,比CF算法提高了9.2%。(2)针对CF-2HMM算法中需要为单个用户训练模型参数而用户又不断累积所面临的可扩展问题,本文提出融合评分轨迹的用户聚类算法(UCST)。该算法通过融合用户的评分轨迹对用户进行聚类,优化了聚类样本的距离度量和初始簇中心选取,然后再使用CF-2HMM算法进行推荐,提升了推荐算法的可扩展性以及计算效率。MovieLens数据集上的实验证明,经过聚类之后的CF-2HMM算法比原有的CF-2HMM算法在运行时间上明显缩短,且综合考虑算法的准确性和运行效率,用户组的最优规模为20。(3)本文设计并实现了一个信息推荐系统。针对目前大学生难以快速而准确获取想要了解的信息资讯的问题,应用本文提出的算法设计并实现了一套专为大学生群体而服务的信息资讯推荐系统,该系统充分迎合大学生的喜好与特性,除了可以为用户量身定造的推荐热点信息资讯之外,分类中还包括许多与大学生息息相关的信息资讯。