基于信息熵和推土机距离的协同过滤算法改进研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jili7315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,推荐系统已经成为解决信息过载问题的首选方法,其中又以协同过滤算法的应用最为广泛,而相似度度量方法是协同过滤算法的核心。目前已经有许多衡量用户或项目之间相似度的方法,但是仍然存在许多不足,影响到推荐准确度。这些不足包括:1)用户兴趣偏好的刻画问题:仅根据用户评分值的差异无法很好的刻画用户的兴趣偏好,影响用户之间的相似度计算;2)共同评分项目少:评分数据的稀疏性使得用户之间共同评分的项目较少,导致基于用户共同评分项目的相似度算法的结果准确性降低;3)评分隐含信息的发掘:用户评分中包含有能够反映用户兴趣偏好的信息,大部分相似度算法对这些隐含信息的发掘不充分,上述这些问题都会直接影响推荐系统的准确度。针对以上不足,本文提出了四种改进的相似度算法。(1)基于信息熵(Entropy)和偏度值(Skewness)改进的算法。通过用户评分分布的信息熵和偏度值来区分用户评分行为的不同,从而刻画用户的兴趣偏好差异,并在此基础上构建用户之间的相似度;(2)基于推土机距离(EMD)改进的算法。通过EMD来度量项目评分分布之间的距离,通过非线性映射转换为衡量非共同评分项目之间的相似性,利用用户在非共同项目上的评分来更好的计算用户之间的相似度;(3)基于非对称性拉普拉斯分布(ALD)建模改进的算法。用ALD对项目评分分布建模,发掘出用户评分中隐含的惊异度(Surprisal)信息,根据用户的惊异度向量计算它们之间的相似度;(4)融合多相似度的新混合算法。将接近1的高相似度进行放大,放大后的值被看作相应算法对近邻用户与活动用户相似度的一次投票,最后将多个算法的投票值累加并转换为近邻用户与活动用户之间新的相似度。通过在不同大小的MovieLens数据集上进行对比实验和MAE分析,验证了本文四种相似度算法的有效性,以及与传统算法以及其他相关的改进算法相比较,其所具有的更好的推荐准确度。
其他文献
神经肌肉接头(NMJ)是一种外周胆碱能化学突触,主要由三种细胞组成:运动神经元,肌纤维和雪旺氏胶质细胞。NMJ发育和损伤后修复的过程是一个复杂且精细的多分子参与调控过程。
近年来,关于隐形衣的研究引起了国内外科研工作者的高度关注,首先以变换光学理论为基础的无源隐形得到了快速发展,随后,有源隐形凭借自身独特的优势也很快被提出。在直流情况
冷分子的实验制备与研究是近几年来原子分子和光物理研究领域中的前沿热点之一,同时也是一个包含物理、化学、量子信息、凝聚态物理和天文物理的跨学科交叉研究领域。激光冷
图的内划分问题是图论的划分问题中一个有趣的待解决的问题。图的内划分是指将有限图G =(V,E)的顶点集V划分为两个非空的部分,使得每个部分的顶点在自己所在部分中有至少一半
"二步发酵法"是我国科学家自主研发的维生素C生产工艺,参与发酵的两株菌——伴生菌和产酸菌,在发酵的过程中各自承担重要的角色,二者的相互作用关系一直是研究的热点。本文以
miRNAs是一类内源性非编码转录后调控的小RNA,通过作用于靶基因m RNA的非编码区抑制靶基因翻译或引起其降解,从而参与基因表达调控;在机体的发育、增殖、分化、凋亡等生物学
本文首先在范数是一致Gateaux可微的实Banach空间中研究渐近非扩张型映象的Reich-Takahashi迭代序列的收敛性,在没有任何有界条件下,建立了Reich-Takahashi迭代序列的强收敛
在现有的偏微分方程(PDE)方法中,Bloor-WilsonPDE(BWPDE)方法因其较高的运算效率而被广泛应用于交互几何设计、实体建模、计算机辅助制造、网格重建及医学可视化等领域。然而
金属锂-气体电池具有接近化石燃料的超高理论能量密度(11430wh kg-1),有望替代锂离子电池成为驱动电动汽车的电源,引起人们的广泛关注。由于有机电解液较宽的电化学窗口和高离子传导率,因此基于有机电解液体系的金属锂-气体电池发展前景广阔。然而,锂-气体电池电极动力学过程缓慢引发了严重的极化问题,导致电池的能量转化率低,循环稳定性差。为解决上述问题,大量学者致力于设计高效催化剂以推动锂-气体电池
泛素化调节系统是真核细胞内调节蛋白质功能的最重要的调节系统之一,几乎参与了细胞内所有的生命过程。蛋白质通过泛素化酶与去泛素化酶的催化实现泛素分子(Ub)在蛋白上的修