论文部分内容阅读
进入web 2.0时代,互联网产品的内容可由用户主导而生成,用户协作的应用场景越来越普及,大众分类便是用户协作应用中的杀手级应用。在大众分类系统中,用户可以自由、简单地用标签标记其感兴趣的资源。此过程中,用户、标签和资源三者之间存在三种关系:标签与资源之间的标记作用力,即标签是对资源内容的描述;标签与用户之间的标记反作用力,即标签是对用户喜好的描述;以及用户和资源之间的互为因果关系,即用户的某一爱好与其所标记的资源的内容是一致的。现有工作中,用户-资源间的互为因果关系尚未被使用,本文第一次发掘了这一关系,并进行了实验检验。本文首先利用大众分类中的用户-标签、资源-标签关系为互联网对象(用户和资源)生成概要,并根据用户-资源关系对用户概要进行扩充;然后,将大众分类标签空间中的全部标签根据语义关系进行结构化;接着,以梳理出的标签结构为工具,以对象概要为输入,输出对象之间的相似度;最后,根据相似度排序,为互联网用户进行资源推荐。为对标签进行结构化,本文提出了一种提出的基于统计学理论进行语义包含关系提取算法(Confidence and Support Based Semantic Relation Extraction,CSSRE)。为对互联网用户进行资源推荐,本文提出了基于标签结构的推荐算法(Tag Semantic Hierarchy Based Recommendation,TASHR)。实验部分对本文所提出的标签结构化算法CSSRE、资源推荐算法TASHR进行了验证,并对本文所提出的用户-资源间存在互为因果关系的假设进行了检验。对于标签结构化,本文实现了一个现有算法,将此算法与CSSRE进行对比。对于资源推荐,本文实现了两种算法作为对照,一是将问题形式化为文本处理后使用的浅层语义分析算法,二是工程上较为广泛使用的协同过滤算法,实验对比了使用三种算法进行资源推荐的F1值。对于用户-资源间互为因果关系的假设检验,本文首先对数据集进行了用户概要扩充,之后再次使用三种推荐算法为用户进行资源推荐并计算推荐指标F1值,最后分别对三种算法在扩充前和扩充后的F1值进行对比。实验结果表明:关于标签的结构化,CSSRE较现有的算法可以更清晰地界定标签之间的语义包含关系;对于推荐算法,TASHR在所讨论的场景下具有最为优秀的表现;对于用户-资源间互为因果关系的假设检验,TASHR算法在扩充后较扩充前将F1提高了约10%。