面向非结构化中文文本的本体构建

来源 :武汉工程大学 | 被引量 : 0次 | 上传用户:mxl19860326
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网成为人们获取信息的主要渠道,然而,互联网的海量信息大多是非结构化、异构的,且存在语义多重不确定及概念之间关系匮乏或不统一。这种情况在信息管理层面,给信息表示、搜索、抽取、维护等造成了极大不便;在系统构建层面,给信息共享、软件复用、知识表示、规则构建带来了困难。因此,借助计算机实现对知识的获取、理解并最终提取出人们感兴趣的领域的知识,形成完整的知识管理体系,并在此基础上实现推理及预测,是当前面临的重要课题。领域本体的目标就是从语义及知识工程层面对领域内的术语进行描述,并将术语之间的关系模型通过可视化手段呈现出来。领域本体通过自身严密的逻辑性、高度的抽象性实现概念描述,并通过与搜索引擎和语义网络紧密结合,挖掘出隐藏在概念中的内涵或没有明确表示出来的知识,以及概念之间潜在的关系,可以帮助人们全面地、多维度、动态地了解知识和组织信息资源,促进目标领域的知识构建及分析。本文在总结分析国内外本体研究的基础上,以核安全领域中的情报分析为研究对象,具体研究了本体概念的文本获取方法、本体的构建与组织、本体的描述逻辑表示与推理以及“核安全”本体的构建。具体工作如下:(1)研究了非结构化文本的数据爬取技术,主要运用了基于Python语言的爬虫技术,通过制定适当的正则表达式,在互联网上爬取了核领域内的大量文本资料;(2)本文通过研究和对比了几种常见的中文分词算法,对基于统计的分词算法中的未登录词的识别提出了基于非结构化文本的目标领域的未登录词的识别策略和基于商业语料库融合的分词词典构建策略两种改进策略。前一种策略是利用短语句子结构稳定具有统计学意义的特点,并根据新词的长度及重复短语的串频制定了重复短语的选定规则,通过基于后缀数组的文本重复短语的识别和提取算法从大量的非结构化文本数据中提取词典中不存在的短语,通过结合领域术语的特征来设计短语选定的规则以提高选定短语的准确性,在此策略中本文还采用了词向量的概念来比较两个词语直接的语义相似性;后一种策略主要是利用商业输入法的丰富的语料库来提取和领域相关的词语集合。经过实验和对实验结果的分析,证明这两种策略在识别目标领域未登录词中的可行性。(3)采用OWL-DL语言和描述逻辑对核领域的本体进行了表示和形式化刻画;同时,使用了本体描述工具实现了核领域的本体可视化及相应的查询功能。本文探索了本体技术在“核安全”这一领域的应用,对于该领域的情报收集和分析工作提供了有实用价值的方法,可丰富该领域的研究手段。
其他文献
<正>专车,一个让出租车司机憎恶,让民众喜欢的新事物,而今遭遇了生死劫。那么,能否给这个新事物一条生路,几个利益方能否找到利益的融合点呢?专车冲突舆情汹涌进入5月以来,天
节能建筑设计对于我国社会经济的未来可持续发展、人民生活质量的提升具有重要意义。本文首先对节能建筑设计背景作出阐述,然后结合实际情况,提出几点建筑设计中节能建筑设计
随着科学技术的不断发展壮大,各领域对各自领域的技术水平提出了更高的要求,医疗领域作为当今世界人们生活密不可分的一部分,引起了人们更加广泛的关注。针对海量的医疗数据,
我国现行商业标识立法的混乱和庞杂带来了诸多弊端,商业标识立法的体系化已显得极为迫切和必要。各类商业标识本身所固有的相同特性和功能则奠定了商业标识立法体系化的可行
陈与义,字去非,号简斋,洛阳人,历官太学博士、中书舍人、礼部侍郎、翰林学士、参知政事.早期推重苏轼、黄庭坚和陈师道.后期经历了靖康之变,体验到杜甫安史之乱后的遭遇,转学
语法在高中英语教学中扮演着重要的角色,一直备受教育工作者的关注。然而,目前的语法教学令许多英语教师困惑茫然,虽然花费了大量的精力,但收效甚微。学生也对枯燥的语法教学
目的探讨全身炎症反应综合征(SIRS)病人连续性肾脏替代治疗(CRRT)后免疫和炎性相关指标的变化及其意义。方法 16例SIRS病人分别于CRRT治疗1、3d和治疗结束后采血,监测其C反应
<正>《幼儿园教育指导纲要(试行)》明确地把早期阅读纳入语言领域的目标体系,并提出要引导幼儿接触优秀的儿童文学作品,培养幼儿对书籍、阅读的兴趣。绘本以图画的美感抓住幼