论文部分内容阅读
社会化标注是用户在Web上自由组织、管理、分享资源的一种方式,它不要求用户有专业知识背景,能适应网络环境的动态变化。本体作为规范的结构化知识库能表现语义概念的层次划分,是一种知识的组织方式,被广泛用于各种语义处理场合。以社会化标签为数据源进行语义挖掘,得到类似本体的知识库是目前Web语义挖掘的研究热点。社会化标签作为大众智慧的结晶能体现网络资源中的语义知识,但用户认知水平的差异会造成标签的歧义性,模糊了标签语义关系,以至将标签作为数据源进行语义挖掘和本体学习很难达到理想效果。 基于社会化标签的本体学习主要存在以下两个问题:一方面,社会化标注方法采用的是自底向上的浮出语义模式,而本体的语义析取方法则是从顶层往下的,所以现有的本体学习方法在标签数据上难以取得理想的效果;另一方面,传统分类法在处理社会化标注系统中庞大的用户与标签数据时会出现性能瓶颈。 基于概率模型与共现图的标签学习方法,针对以上两个难点,能挖掘出隐藏在大量标注数据中的语义信息。首先研究标注系统中用户、资源、标签三者之间的关联,对标注行为建立概率模型,参照本体中领域的概念,将标签映射到不同的语义范围;然后对划分领域后的各个语义范围内的标签建立标签共现图,根据共现图中节点连接的紧密程度计算标签的核度,得到标签的核度层次划分;最后根据相邻层次间标签簇的相似度,对标签簇进行自顶向下的层次聚类,得到类似本体的概念层次结构。 在社会化标注系统的标签数据上进行实验,实验结果表明经过语义空间映射后的标签作为概念词,能代表不同领域的语义信息。先将标签划分领域后再进行聚类分析能有效解决聚类算法在数据量较大时的性能瓶颈。与传统的聚类方法相比,通过核度划分与自顶向下层次间聚类方法学习到的本体结构能体现较精准的概念层次关系。