论文部分内容阅读
随着Internet的发展,标签分类已经成为一种广泛的网络信息分类方式,标签分类使得用户能够给信息定义具有关键字特性的标签,并通过标签来进行网页导航和信息检索。由于标签在信息资源与用户基于关键字搜索上建立了便捷的桥梁,因此研究如何为信息资源定义标签成为必要,进而研究标签推荐,把用户从手动为信息资源定义标签的费时工作中解放出来成为一个热门话题。
由于资源标签的选择往往基于用户对事物的看法,不同用户对同一资源的描述不同,同一个用户可能使用多义词来定义资源,标签的语义模糊导致了标签与资源描述的不一致性,而且相同含义或意思相近的不同标签造成标签空间的数据冗余,由于标签定义存在诸多问题和瓶颈,因此如何从资源信息和用户使用标签使用习惯中挖掘出用户感兴趣的标签成为标签挖掘的首要问题,标签推荐至今还是一个新兴的领域,目前的标签挖掘工作主要停留在基于资源标签的协同过滤基础上,标签体系随着资源信息量的增大日益陈旧,而且没有把资源语义和用户的标签使用习惯结合起来,标签推荐效果不理想,因此标签推荐技术需要进一步加深研究。
本文介绍了标签推荐的研究内容和标签推荐算法的工作原理,以及实现推荐的主要步骤,接着对传统的协同过滤的标签推荐算法进行分析,发现传统协同过滤标签推荐算法仅仅考虑邻居用户与当前用户的标签兴趣相似性,而忽略了邻居用户的推荐质量,由此引入了用户模型质量判定的思想,将该思想用于对传统的协同过滤算法的优化,实验证明优化后的推荐结果优于传统算法,随后分析协同过滤标签推荐算法中存在的标签空间陈旧和无法解决冷启动的问题,并针对这些问题提出一种新的基于聚类和语义的标签推荐算法,分析标签主要来源,从信息资源内容中挖掘出新的语义标签融入现有标签体系,并结合用户模型对新的体系标签进行层次聚类,然后根据选择条件对聚类结果进行划分并做出推荐,最后采用交叉验证法验证实验结果,实验表明本文算法能根据资源内容和用户模型有效地挖掘出用户感兴趣的标签,具有较高的正确率和覆盖率。