融合元路径和重叠社区划分的异质网络表示推荐算法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yellow1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网行业的蓬勃发展,一个平台能够始终保持对用户的吸引力并为之提供优质的网络服务质量成为对各个大互联网厂商的首要任务。推荐服务由于其可以帮助用户从大量的数据中挑选满足用户需求的数据信息,因此可以说是能够增强用户体验、并提升平台对用户黏性最重要的工具之一。早期的推荐系统是通过分析评分矩阵,利用用户与项目的隐特征表示进行推荐,由于其考虑因素片面,同时获取的数据信息常常过于稀疏,导致推荐的结果往往无法达到理想的效果。因此后续很多研究考虑在以往经典的模型中增加辅助信息以提高推荐结果。在真实的推荐系统中,用户与项目的交互动作(包括购买、收藏、评分),及用户与项目的属性信息的集合,可以看作是由不同含义的边及节点构成的网络,即异质信息网络。异质信息网络由于其可以表达复杂信息,在推荐系统中可以捕捉更加精准的特征表示,因此在推荐领域中受到越来越多的重视。多数基于异质网络的推荐模型都是先通过预设好的元路径提取节点的特征向量表示,然后对评分矩阵进行拟合实现评分预测。虽然现有的基于异构网络的方法在提升准确度方面已经有了一定的成效取,但大多数方法依然存在以下问题:(1)仅利用单一元路径提取节点信息,面临稀疏数据时无法得到节点的精准表示;(2)融合多条元路径信息时忽视了用户对于不同路径语义的偏好,造成复杂网络中节点表示不够精确;(3)在交互信息量庞大的密集数据集中,融合多条元路径信息容易引入噪声信息,造成节点偏好表示不准确;(4)基于异构网络的推荐容易过多的考虑节点之间偏向结构关联的表示,而忽视对包含具体语义的标签相似度信息。为了达到在海量数据构成的多关系网络中引入全面的结构信息进行精准推荐的目标,针对以上4个问题,本文完成了如下工作:1.针对问题(1)、(2)本文提出了融合元路径网络表示学习的推荐算法(A recommendation algorithm for representation learning based on meta path network),简称ME-Rec。我们发现用户对项目的评分偏好与元路径的隐特征表示有很强的关联,因此先利用随机游走策略获取基于不同元路径的节点序列,针对不同路径利用metapath2vec++算法学习用户与项目在统一维度空间的隐向量表示,然后基于注意力机制利用多层感知机MLP学习节点对于不同元路径的偏好权重,并计算出全局表示向量,最后结合矩阵因子分解的推荐模型,利用路径结构Hetesim相似度对评分矩阵分解出的隐因子向量进行约束,对项目评分进行预测。通过在两个被广泛使用的不同密度真实数据集Movielens和Amazons进行参数分析与对比实验,得到模型在不同密度数据集上性能最优时的参数设置,在对比实验中验证了该模型较传统矩阵分解和基于异质网络的推荐算法都有一定的提升,尤其是可以提高数据稀疏时的是预测精度。2.为了进一步解决在交互密度大的数据集中,融合多条元路径的推荐容易引入过多噪声的问题,也就是针对问题(3)、(4)本文提出了一个在多关系网络中融合网络重叠社区与标签相似度的推荐算法(A recommendation algorithm combining overlapping community partition and label similarity),简称CPLS-Rec。我们通过社团划分领域中的种子扩张与社区标签传递概念,对异质信息网络中的用户、项目节点分别进行聚类,根据网络结构信息划分重叠社区,同时引入标签相似度作为社交正则化约束,结合经典矩阵分解模型进行协同过滤推荐。我们发现该方法可以有效地根据用户的社会关系与拓扑结构挖掘出用户的社团归属,不仅降低了大规模数据集时的计算复杂度,还可以提高当用户项目交互信息稀疏时对用户偏好提取的准确度。通过在两个被广泛应用于融合社交网络的不同密度真实数据集Douban Movies和Yelp上进行了参数分析实验,得到模型在不同比例训练集下使性能达到最优时的参数设置,然后与其他同类型算法进行对比实验,证明该模型较经典基于社交网络的算法和基于异构网络的推荐算法都可以有较为优异的表现,可以提升对项目评分的准确度,尤其是在信息密度大的推荐环境中可以避免噪声数据带来的影响。
其他文献
近几年,由于文献信息或者短篇新闻的数量呈现指数级增长,而且这些文本的信息量无时无刻不在增加。因此,如何从信息中抽取出具有重要意义的关键词,利用信息抽取技术对文本分类,并满足信息检索的需要,已经成为当前时期在自然语言处理领域研究的热点。传统的关键词提取方法主要使用TF-IDF算法,通过对不同领域,设置大小不同的阈值,来提取文本关键词,这种方法虽然速度快,适合搜索引擎的应用,但是受偶然性和领域局限性较
碳纤维复合材料(CFRP)因轻质、高比强度和高比模量等优异性能在许多领域广泛应用。但其抗冲击性能不足,会影响制件或装备的使用稳定性,制约其进一步应用。采用多种纤维混杂的
随着我国建筑行业的不断发展,建筑隔墙的种类和构造手段越来越多样化,建筑构件的空气声隔声性能的评价标准越来越受到重视,围护构件的隔声性能是建筑声学研究和设计中关注的
随着工业的不断发展,环境中的重金属污染越发严重。尽管铜、铁、锰等重金属元素是人类生命活动所必需的微量元素,但一些过量甚至微量的高毒性重金属元素(如铅,汞等),由于不能被
Amadori化合物即1-氨基-1-脱氧-2-酮糖,是一类结构相似且极性极强化合物的总称,是Maillard反应初级阶段由葡萄糖和氨基酸反应生成的N-取代葡萄糖胺经Amadori重排形成的关键中
真空电弧放电所产生的金属等离子体由于含有足够高浓度的金属离子,而且具有定向运动的特性,在离子束表面分析、脉冲等离子体推力器、离子沉积/注入等多个领域被广泛应用。本
为了了解磺胺甲噁唑(SMZ)在吉富罗非鱼(GIFT Oreochromis niloticus)体内的动力学过程及毒理作用,作者采取连续口服和一次性注射药物的方式,分别检测鱼体内部分组织和脏器中药物
生物信息特征识别是身份认证和身份识别领域的热门技术。因为虹膜识别技术具有较高的安全性、稳定性、唯一性和防伪性等优点,在众多生物特征识别技术中脱颖而出,成为了人们关注的焦点。虹膜识别技术包括两个部分,虹膜前期预处理和虹膜特征提取与识别。前期预处理包括,虹膜图像采集、虹膜图像质量评价、虹膜定位、虹膜归一化与增强。后期部分包括,虹膜特征信息提取和虹膜特征识别。本篇论文针对虹膜特征提取与识别问题,提出一种
随着互联网技术的发展,现有业务趋向于线上办公,前端需要处理的业务流程越来越多,而传统的前端框架更多的是将重心放在代码重用、页面渲染效率提升等方面,针对复杂多变的业务流程,往往需要修改大量代码来完善业务逻辑,业务流程可维护性较差。针对这些问题,本文在MVVM前端框架NoDomJS的基础上,借鉴工作流引擎处理业务流程的优势,开发了一款轻量级工作流引擎,实现对前端开发中工作流的管理,提高开发效率。本文首
2019年证监会发布的《关于在上海证券交易所设立科创板并试点注册制的实施意见》明确规定要规范上市公司的信息披露,这表明在注册制改革背景下,信息披露依然重要。企业的信息披露一直以来备受关注,因为企业的信息披露对于资本市场运转至关重要,信息发布者的信息披露质量决定着资本市场的透明度和运转效率。现阶段,信息不对称是制约我国资本市场发展的重要因素,真实、准确、完整、充分的信息披露是缓解信息不对称的有效方法