基于模糊理论和协同过滤的个性化推荐方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhangjiakou00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展和持续完善,为使用户获得更好的用户体验,诸多个性化推荐系统不断涌现。协同过滤技术是传统个性化推荐系统中发展较为完善、应用较为广泛的一种推荐技术,但随着信息技术、网络技术等的不断发展,该系统自身固有的数据稀疏性、用户/项目冷启动以及系统可扩展性等问题越来越成为制约其发展的瓶颈所在。在实际生活中,两个个体之间往往只在某一方面品味相似。传统的个性化推荐算法往往忽略这一事实,在计算用户相似度时将所有项目都考虑进来;另外,协同过滤算法固有的稀疏性问题也会导致核心步骤中最近邻很难被定位,系统的推荐效果收到了极大的影响。本文针对影音视听领域广泛使用的协同过滤推荐系统的某些缺陷进行改进,旨在深入挖掘用户潜在兴趣,在考虑用户评分偏好和兴趣迁移的基础上,得到更为精确、多样的推荐结果。基于上述考虑,本文提出了一个基于模糊理论和协同过滤的个性化推荐方法。论文首先介绍了近年发展迅速的基于模糊理论的数据挖掘技术,为本文提出的个性化推荐方法提供技术支撑;随后概述了个性化推荐系统中常见的几种推荐技术,并在讨论现有电影推荐系统的基础上,深入分析了协同过滤算法的优缺点,提出了新的数学模型对传统协同过滤技术进行改进;最后在原有工作基础之上给出了基于模糊理论和协同过滤的个性化推荐方法的完整系统架构。本文的主要工作分为以下几个方面:首先,在概念分层的基础上,引入“隶属度”和“可信度”概念,利用模糊支持向量机算法对项目进行模糊聚类,利用模糊C均值分类算法对各项目类的用户进行可信度量,本文提出的个性化推荐方法利用上述方法,从两个角度入手通过简单降维和缩减数据集的方式,既改善了稀疏性问题,又可以降低推荐搜索范围,进而提高算法的可扩展性;其次,通过引入“评分偏好”和“兴趣迁移度”概念,提出新的用户相似性度量方法和预测评分公式,对传统协同过滤技术进行改进,使改进后的协同过滤推荐准确度有一定程度的改善;最终,改进后的协同过滤技术对每一个项目类进行分别推荐后,整合每个项目类中推荐项目的所有相关信息并利用本文定义提出的加权模型对其进行加权排序,完成最终推荐。实验结果证明,本文提出的个性化推荐方法既可以扩展推荐结果的多样性,进一步发掘目标用户的潜在兴趣,又可以使推荐结果更具准确度、时效性和可解释性。本文的不足之处在于未考虑实际生活中部分用户不喜欢给项目评分,直接假设所有用户都会为自己浏览过的项目评分,在之后的研究中会尝试先对用户浏览过的未评分的项目估算评分;本文提出的数学模型没有足够的理论支持,需要进一步优化改进;此外,为保证可扩展性,存在大量离线计算,定期更新数据库会导致实时性问题,这也是未来研究的一个方向。
其他文献
对连续语音语料库进行切分或标注是整个连续语音识别系统的基础和前提,而且也是一项非常重要的工作,因为它对语料库的充分利用有重要作用,对连续语音识别系统的性能有重要影
汉字识别系统是将图像数据中的文字信息提取出来的一种系统。根据图像数据的种类,汉字识别系统有着各种各样广泛的应用。比如银行单据识别,电子图书馆,邮政编码自动分类,手写
传统上,发现药物过程主要包括三个阶段:发现、临床前阶段和临床开发。整个过程费时昂贵,却往往效率低下。药物重定位正是在这种情况下提出来的,其目标是通过识别和使用已知的药物,来治疗目标疾病以外的其他疾病。以往的药物重定位方法主要是基于药物基因疾病的关系,而丢弃了许多重要的信息,为了解决这个问题,本文集成各种数据,从多角度推断药物作用,提出了两种新的方法,来解决药物重定位问题。第一种方法关注表型数据,提
关联挖掘作为数据挖掘的一个重要研究分支,其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律,即关联规则。由于形式简单、易于理解,且是从大型数据库中提取知
当前多媒体已经成为信息传递的主要方式,多媒体广泛地应用于各行各业,如广告、教育、医学、商业、娱乐等方面。同时随着计算机和网络技术的快速发展,信息的传递变得越来越方
随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度增长。当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面
自“信息高速公路”提出以来,网络在全世界以惊人的速度发展着。Internet将全世界联系起来,LAN、WAN等局域网技术使局域网内资源、信息得以传播和共享。视频会议系统正是在这
当今Internet技术的飞速发展和网络主机数量的大量增加给网络带宽和服务器带来巨大的挑战。从网络技术的发展来看,网络带宽的增长远高于处理器速度和内存访问速度的增长,所以
基因拷贝数是指某一种基因或某一段DNA序列在某一生物基因组中的个数。基因拷贝数变异是指和参考基因组相比,DNA片段在1Kb至1Mb范围内的缺失或增加的一种结构变异现象。基因
鱼的年龄知识是鱼类资源评估和管理的一个重要考核指标,传统年龄估计方法就是鱼类科学家根据耳石内钙化形成的结构来判断鱼的年龄,但由于耳石的形成、发育受许多因素的影响,