基于领域知识模型的突发事件智能信息检索系统研究

来源 :北京邮电大学 | 被引量 : 17次 | 上传用户:sonic0824
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,突发事件频繁发生,已经引起社会的广泛关注。网上关于突发事件的信息迅速增多,人们对突发事件信息的检索需求越来越高。将本体引入信息检索系统中,一方面为改进信息检索系统的性能提供了组织形式和语义上的保证;另一方面提供了对推理的支持,能够通过概念之间存在的逻辑关系和设计的推理规则实现推理,因此研究基于本体知识模型的智能信息检索系统具有重要的理论意义和应用价值。本文面向突发事件领域,对基于本体知识模型的智能信息检索系统涉及的一些关键理论和技术进行了深入的研究,包括如何对检索系统需要的突发事件知识进行组织和表示,如何自动地获取领域概念和概念间的关系以扩展本体,如何从语义上理解和处理用户的查询请求实现语义检索等。论文的主要贡献和创新点如下:(1)目前国内外针对突发事件领域知识建模进行的研究较少,尚没有针对突发事件领域知识进行组织和表示的方法。本文对突发事件领域知识进行了分析,确定了突发事件领域概念和概念之间的关系,在此基础上建立了突发事件本体模型。提出了基于OWL的突发事件领域知识表示方法,用于对突发事件知识进行组织和表示,使得突发事件知识能被共享。通过OntoQA方法对突发事件本体进行了定量评价,评价结果表明本文所建立的突发事件本体能够表达较多的知识,并且包含较多的突发事件实例。(2)已有的领域概念自动抽取方法无法获取到复合的中文领域概念,没有考虑到语义因素。本文提出了一种基于Bootstrapping的领域概念自动抽取算法(BCAE算法)。给出了考虑互信息和信息熵的复合词语判定条件,用于进行复合词语的提取;给出了考虑“共现句频”和支持度的候选概念判定条件,可以避免出现频率低的复合领域概念被过滤掉;引入了语义因素,根据上下文信息的概率分布与重要领域概念进行语义相似度的计算,使出现频率低但是语义相似的领域概念也能被提取出来。对比实验结果表明本文提出的BCAE算法的概念抽取召回率和准确率比基于领域相关度和一致度的领域概念自动抽取算法(FCRC算法)最多提高了17%和20%,比基于Bootstrapping的领域词汇自动获取算法(FWB算法)最多提高了11%和17%。(3)已有的领域概念间关系抽取方法能够获取的关系类型较少,有的无法确定关系类型。本文提出了一种混合的领域概念间关系自动抽取算法(HRAE算法),将领域概念间的关系分成关系类型未知和已知两种情况,并分别进行处理。对于类型未知的关系,提出了基于关联规则和不同句型的方法进行抽取,以避免一些未出现在概念对之间,但能表示概念间关系的动词被遗漏;对于类型已知的关系,提出了关系抽取规则的构造和扩展方法,采用概念间关系抽取规则进行抽取。与基于关联规则的关系抽取方法(ARRE算法)、关系学习方法(NTRL算法)以及基于图的关系抽取方法(GRAONTO算法)进行的对比实验结果表明本文提出的HRAE算法能够获取领域的核心语义关系,并且性能较好,准确率-召回率、F1和Fo.5评估值比ARRE算法、NTRL算法和GRAONTO算法中的最优值分别提高了6%、6%、4%。(4)目前已有的相似度计算方法未能全面考虑影响概念间相似度的因素,没有充分利用本体语义知识。本文首先分析了语义距离、层次因素和上下位概念重合度对概念间相似度的影响,在此基础上建立了基于本体的语义相似度计算模型(OSSC模型)。其中上下位概念重合度的计算利用了概念间的语义知识,在语义距离和概念层次两个因素间建立了关联,减少了用于调节影响因素贡献率的参数个数,因而不需要占用更多的时间来确定合适的参数取值。与D.Sanchez, Petrakis, Rodriguez&Egenhofer, Leacock&Chodorow, Li, Wu&Palmer, Hist&St-Onge, Resnik, Lin, Jiang&Conrath近年来分别提出的10种方法进行了对比实验,实验中采用相关系数评估方法,相关系数值越大,表明模型的准确度越高。实验结果表明采用本文建立的OSSC模型在Miller-Charles和Rubenstein-Goodenough两个标准数据集上进行概念间相似度计算,得到的结果与基准值间的相关系数平均值达到了0.85,超出了以上研究者提出的10种方法中的最优值0.83,说明了本文建立的OSSC模型准确度较高。(5)实现了基于突发事件本体的突发事件智能信息检索原型系统(EIIRS)。EIIRS采用突发事件主题爬虫实现了突发事件文本信息的采集。建立了突发事件本体扩展框架,通过本文所提出的领域概念自动抽取算法(BCAE算法)和概念间关系自动抽取算法(HRAE算法)来对突发事件本体不断进行扩展,目前已扩展至51个类,75个属性和4234个实例。根据突发事件本体的语义关系设计了33条推理规则,采用Jena推理引擎实现了简单的突发事件本体推理。为了实现对突发事件的语义检索,建立了基于突发事件本体的语义检索模型(EOBSR模型)。在EOBSR模型中,为了避免扩展结果同质化和检索结果主题偏移,提出了根据本体中存在的多种语义关系和语义相似度计算模型进行语义查询扩展和排序的方法。突发事件语义检索实验结果表明,采用本文所建立的EOBSR模型不仅能扩展出和查询词有特定语义关系的概念,而且能够使更多相关的检索结果排在前面,重新定义的查准率比Lucene检索的查准率平均提高了33.9%。
其他文献
珊瑚姜精油是一种对常见真菌有较强抑制作用的天然活性成分 ,通过珊瑚姜精油对痤疮杆菌抑制作用的实验研究 ,开发了一种治疗寻常痤疮的天然功能性护肤品—珊瑚姜精油乳剂 ,进
目的探讨咳嗽变异性哮喘的临床护理措施。方法回顾分析210例患者的临床资料。结果本组210例经治疗及精心护理,125例患者与1周后症状消失,85例症状缓解,治疗和护理1个月后症状
科技兴国已经成为我国未来发展的基础,作为经济发展的新型基础支柱行业,电子产业正在高速地向前发展。随着逐渐从初始的混乱阶段过渡到高速良性发展阶段,市场环境也变得日益
●一个教师事业有成,离不开10个字:热爱,环境,毅力,智慧,学问。●研究教材8个字:上下求索,左右勾联;教学设计8个字:化静为动,尺水兴波。●课堂教学的高层次境界是学生活动充
移动通信技术的飞速发展和普及,给人们的日常生活带来了巨大的变化,但随之而来的网络安全性问题也日趋严重。无线传播环境的开放性、终端的移动性、网络拓扑结构的多样性及无
传统能源对环境的污染日益严重,而且其储量不断减少,因此开发利用新能源已经成为当前亟需研究的重要课题。光伏逆变技术正是将太阳能转化为我们日常所需要的正弦交流电能的一种
物联网技术的发展加深了网络与实体的融合,实现了线上与线下服务的连接,从而极大地拓展了互联网在现实经济社会中的应用领域,对企业生产经营的各个方面都产生了重要影响,为会
日本和韩国经历了明治维新和日韩合并后,都各自通过不同渠道、不同方式,从他国吸收和引进了新思想和新文化。本论文主要通过分析日韩两国近代意识觉醒期--20世纪20-30年代的
电力电缆在配电网中应用越来越广泛,其运行的可靠性对电力系统至关重要,研究电缆运行状态的评估方法具有重要意义和实用价值。针对10kV配网电缆实际运行存在的问题,本文在分析影