论文部分内容阅读
随着信息技术的高速发展,信息资源的规模愈发庞人,导致管理难度大大增加,因此需要采用有效的知识管理方法来处理海量信息。由于本体提供了对领域知识的共同理解,确定了该领域内共同认可的术语,并定义了术语之间的关系,所以,可以利用这些特点把本体运用到知识管理中。
采用本体技术进行知识管理存在着知识获取瓶颈的问题,因此需要采用自动或半自动的方法(本体学习)来构建本体。本文构建的语料库以Web页面为主且和时间相关,所以称为动态语料库,可用于动态本体学习。本文主要取得了以下一些研究成累。
1)设计了候选语料的获取与增量式更新方法。该方法应用于本文实现的小型爬虫系统。增量式网页更新方法解决了语料库初次构建而后续更新效率低的问题,该爬虫系统能以较高的效率获取新增网页。
2)提出了一种领域主题向量的生成方法,为语料库特征向量的生成提供支持。该方法基于少量和领域高度相关的网页,利用词的代表度从网页集合中选择一部分词构建领域特征向量。相比于已有的特征选择方法,本文的方法在基于网络的开放环境、无法提供足够数量的分类学习数据时仍可取得较好的结果,为在无分类信息的训练集合中进行特征选择提供了一条新的途径。
3)提山了ReleRank算法,它综合利用了网页标题、止文内容、结构信息、超链接关系和锚文本等网页基本信息,来计算每个网页与领域相关的概率,以这个概率值作为该网页与领域相关程度的刻划。
4)构建了一个小型的人工智能领域的动态语料库。通过运行本文设计的系统,并利用本文提出的Web页面分类方法,从实验数据集合中选择出部分网页,提取这些Web页面的标题、正文内容、锚文本以及链接信息,组成动态语料库。
实验结果显示,利用ReleRank算法进行Web页面分类准确率达剑83.6%,对分类出的网页进行人工检查后发现这些网页和领域相关度较高。这表明本文研究工作基本达到了预定的目标。