论文部分内容阅读
当前本体已广泛应用于语义网、电子政务、数据挖掘等传统领域,且正逐渐扩展至云计算、物联网等新兴学科中。本体的构建工作是其应用研究的基础工作,但目前尚无统一标准,而人工构建方式存在周期过长的问题。本文以社会养老保险领域为背景,首先重点研究了该领域的本体构建和可视化方法,并给出一种领域本体半自动构建方法。该方法基于手工构建的养老保险领域基础核心本体,辅以领域专家的指导,利用统计和规则相结合的方法从领域词库中抽取现有本体概念的层次和非层次概念,并进行扩充。再借助本体可视化研究成果循环多次扩充,不断丰富本体。接着本文在已构建本体的基础上,设计基于领域本体的文本聚类分析基本流程,并提出概念词组向量模型和高频特征词组向量模型的概念,在将文本转化为传统的VSM向量空间后,进行降维,转化为概念词组向量和高频特征词组向量。本文还给出适用于社保领域的待聚类文本预处理算法和基于概念词组向量模型和高频特征词组向量模型的文本相似度计算算法,来提高文本聚类的效果。本文实验首先以社保领域词库和文本集为测试数据,实验结果表明给出的领域本体构建方法及本体可视化方法充分结合了领域专家指导本体构建的准确性和机器自动化抽取及扩充新概念的高效性;接着以社保审计领域审计方法为实验数据,验证了给出的文本聚类分析方法的有效性。本文给出的方法在实际应用均取得了良好的效果,对其它领域的本体研究也具有一定的借鉴作用。