论文部分内容阅读
W.eb2.0环境下,社会化标注在产业界得到了广泛应用,并出现了Delicious、Flickr、Youtube、LibraryThing、Last. fin、Connotea、 CiteUlike、Technorati等众多新的应用与体验。社会化标注允许用户在共享的网络环境中对网络资源进行无限制的标注,这种标注过程成为用户的一种资源组织方式。社会化标注因为其易用、低认知障碍、不受任何特定词表限制等特点,已经受到越来越多普通用户和领域专家用户的关注。同样的,这种特性也带来了很多问题,因为不受传统分类方法的约束,依然存在很多没有被标注却非常有价值的优质资源。此外,还有很多资源被标注上了完全无关的标签,这种垃圾标签造成了社会化标注系统的噪声。针对这些问题,本文提出了一种基于网络拓扑的社会化标注领域专家与优质资源发现模型。本文的主要研究内容有以下三点:(1)根据挖掘领域专家和优质资源的特征,用数学方法定义本研究中认定的领域专家与优质资源,并基于二者的本身特征细阐述了领域专家和优质资源之间的相互强化关系。(2)使用Delicious网站数据,并且为了减少其中其它无关因素的干扰,提出了在DEARL算法的第一阶段隔离出一个较小的数据子集,即“候选专家”,用户的标注行为显示了其专业知识和分类技术。第二个阶段,使用基于HITS算法的图形分析来分析候选专家的数据排列和优质资源所属的主题。本研究提出使用一个分布式的方法来找出标签集合中的幂集,从而识别在候选专家标注内容中频繁出现的标签子集,这样来确定Delicious网站中的兴趣主题。(3)通过候选专家的挖掘和兴趣主题的提取结果,基于网络拓扑的用户-资源有向图,建立用户-资源邻接表。基于书签权重特征,对候选专家用户书签进行赋值,最后按照权重排序结果根据识别领域专家和优质资源。经实验证明,候选专家过滤过程可以有效地减少Delicious数据图中其它无关因素的干扰。本文提出的DEARL算法与HITS算法和SPEAR算法相比,能够更准确的提取相关的兴趣主题,并能更准确寻找到领域专家和与优质资源。