论文部分内容阅读
目前互联网成为人们获取信息的主要渠道,然而,互联网的海量信息大多是非结构化、异构的,且存在语义多重不确定及概念之间关系匮乏或不统一。这种情况在信息管理层面,给信息表示、搜索、抽取、维护等造成了极大不便;在系统构建层面,给信息共享、软件复用、知识表示、规则构建带来了困难。因此,借助计算机实现对知识的获取、理解并最终提取出人们感兴趣的领域的知识,形成完整的知识管理体系,并在此基础上实现推理及预测,是当前面临的重要课题。领域本体的目标就是从语义及知识工程层面对领域内的术语进行描述,并将术语之间的关系模型通过可视化手段呈现出来。领域本体通过自身严密的逻辑性、高度的抽象性实现概念描述,并通过与搜索引擎和语义网络紧密结合,挖掘出隐藏在概念中的内涵或没有明确表示出来的知识,以及概念之间潜在的关系,可以帮助人们全面地、多维度、动态地了解知识和组织信息资源,促进目标领域的知识构建及分析。本文在总结分析国内外本体研究的基础上,以核安全领域中的情报分析为研究对象,具体研究了本体概念的文本获取方法、本体的构建与组织、本体的描述逻辑表示与推理以及“核安全”本体的构建。具体工作如下:(1)研究了非结构化文本的数据爬取技术,主要运用了基于Python语言的爬虫技术,通过制定适当的正则表达式,在互联网上爬取了核领域内的大量文本资料;(2)本文通过研究和对比了几种常见的中文分词算法,对基于统计的分词算法中的未登录词的识别提出了基于非结构化文本的目标领域的未登录词的识别策略和基于商业语料库融合的分词词典构建策略两种改进策略。前一种策略是利用短语句子结构稳定具有统计学意义的特点,并根据新词的长度及重复短语的串频制定了重复短语的选定规则,通过基于后缀数组的文本重复短语的识别和提取算法从大量的非结构化文本数据中提取词典中不存在的短语,通过结合领域术语的特征来设计短语选定的规则以提高选定短语的准确性,在此策略中本文还采用了词向量的概念来比较两个词语直接的语义相似性;后一种策略主要是利用商业输入法的丰富的语料库来提取和领域相关的词语集合。经过实验和对实验结果的分析,证明这两种策略在识别目标领域未登录词中的可行性。(3)采用OWL-DL语言和描述逻辑对核领域的本体进行了表示和形式化刻画;同时,使用了本体描述工具实现了核领域的本体可视化及相应的查询功能。本文探索了本体技术在“核安全”这一领域的应用,对于该领域的情报收集和分析工作提供了有实用价值的方法,可丰富该领域的研究手段。