基于用户模型质量和语义聚类的标签推荐算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:guoyafeigood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,标签分类已经成为一种广泛的网络信息分类方式,标签分类使得用户能够给信息定义具有关键字特性的标签,并通过标签来进行网页导航和信息检索。由于标签在信息资源与用户基于关键字搜索上建立了便捷的桥梁,因此研究如何为信息资源定义标签成为必要,进而研究标签推荐,把用户从手动为信息资源定义标签的费时工作中解放出来成为一个热门话题。   由于资源标签的选择往往基于用户对事物的看法,不同用户对同一资源的描述不同,同一个用户可能使用多义词来定义资源,标签的语义模糊导致了标签与资源描述的不一致性,而且相同含义或意思相近的不同标签造成标签空间的数据冗余,由于标签定义存在诸多问题和瓶颈,因此如何从资源信息和用户使用标签使用习惯中挖掘出用户感兴趣的标签成为标签挖掘的首要问题,标签推荐至今还是一个新兴的领域,目前的标签挖掘工作主要停留在基于资源标签的协同过滤基础上,标签体系随着资源信息量的增大日益陈旧,而且没有把资源语义和用户的标签使用习惯结合起来,标签推荐效果不理想,因此标签推荐技术需要进一步加深研究。   本文介绍了标签推荐的研究内容和标签推荐算法的工作原理,以及实现推荐的主要步骤,接着对传统的协同过滤的标签推荐算法进行分析,发现传统协同过滤标签推荐算法仅仅考虑邻居用户与当前用户的标签兴趣相似性,而忽略了邻居用户的推荐质量,由此引入了用户模型质量判定的思想,将该思想用于对传统的协同过滤算法的优化,实验证明优化后的推荐结果优于传统算法,随后分析协同过滤标签推荐算法中存在的标签空间陈旧和无法解决冷启动的问题,并针对这些问题提出一种新的基于聚类和语义的标签推荐算法,分析标签主要来源,从信息资源内容中挖掘出新的语义标签融入现有标签体系,并结合用户模型对新的体系标签进行层次聚类,然后根据选择条件对聚类结果进行划分并做出推荐,最后采用交叉验证法验证实验结果,实验表明本文算法能根据资源内容和用户模型有效地挖掘出用户感兴趣的标签,具有较高的正确率和覆盖率。
其他文献
近年来,随着面向服务的计算模式和架构的广泛应用,越来越多的Web服务出现在Internet上。许多Web服务具有相同或相似的功能,但是服务质量(Quality of Service,QoS)却参差不齐
现代处理器体系结构的硬件设施已经具有非常优良的性能,特别是向量VLIW处理器同时具有标量和向量处理单元。与超标量、超流水等高性能的体系结构不同,VLIW的指令调度、相关性
数据加密是保证敏感数据保密性的重要手段,如何在加密后的数据上进行高效查询是数据库研究领域的一项难题。为提升加密数据库的查询性能,论文设计了一种新型的B+树密文数据库
数据挖掘技术与日常生活的关系已经越来越密切了,人们对数据挖掘技术在某些领域中应用的兴趣与日俱增。数据挖掘技术已在生物医学、金融业、零售业、电信业等多个行业被广泛
在考试评卷中,控制评分误差,是一个世界性的难题。研究认为,解决评分误差问题必须从实施标准化考试入手,须从命题标准化、考试实施标准化、评分标准化和分数解释标准化四个环
碰撞检测技术是虚拟环境中的一项关键技术,它的速度和准确性影响虚拟环境的真实感和沉浸感。本文以虚拟手术为应用背景,对虚拟手术中的碰撞检测和软体自碰撞检测算法进行了深
随着互联网快速发展,数据呈爆炸式增长,在当前众多互联网应用场景中80%为小文件。相对于大文件,海量小文件的存取给文件系统带来巨大的压力,因此其存储效率成为云存储行业关
在汽车工业领域,嵌入式电子产品在整车中越来越占据重要的地位,而软件又是该类嵌入式电子产品的核心。作为安全关键的领域,如何开发安全,高效,健壮的汽车电子软件已成为汽车
学位
随着信息化进程的不断推进和深入,Web上已累积了海量的信息,企业和组织都在不断努力探寻有效的技术,能够在Web上挖掘有价值的信息并进行数据融合。由于Web的巨大和复杂,使得W
语音是人类信息交流最直接、最方便的方式。语音信号在携带大量语音信息的同时,还存在大量的冗余;语音在产生、传输过程中难免被噪声污染,从语音中有效信息的角度看,背景噪声