论文部分内容阅读
近年来,突发事件频繁发生,已经引起社会的广泛关注。网上关于突发事件的信息迅速增多,人们对突发事件信息的检索需求越来越高。将本体引入信息检索系统中,一方面为改进信息检索系统的性能提供了组织形式和语义上的保证;另一方面提供了对推理的支持,能够通过概念之间存在的逻辑关系和设计的推理规则实现推理,因此研究基于本体知识模型的智能信息检索系统具有重要的理论意义和应用价值。本文面向突发事件领域,对基于本体知识模型的智能信息检索系统涉及的一些关键理论和技术进行了深入的研究,包括如何对检索系统需要的突发事件知识进行组织和表示,如何自动地获取领域概念和概念间的关系以扩展本体,如何从语义上理解和处理用户的查询请求实现语义检索等。论文的主要贡献和创新点如下:(1)目前国内外针对突发事件领域知识建模进行的研究较少,尚没有针对突发事件领域知识进行组织和表示的方法。本文对突发事件领域知识进行了分析,确定了突发事件领域概念和概念之间的关系,在此基础上建立了突发事件本体模型。提出了基于OWL的突发事件领域知识表示方法,用于对突发事件知识进行组织和表示,使得突发事件知识能被共享。通过OntoQA方法对突发事件本体进行了定量评价,评价结果表明本文所建立的突发事件本体能够表达较多的知识,并且包含较多的突发事件实例。(2)已有的领域概念自动抽取方法无法获取到复合的中文领域概念,没有考虑到语义因素。本文提出了一种基于Bootstrapping的领域概念自动抽取算法(BCAE算法)。给出了考虑互信息和信息熵的复合词语判定条件,用于进行复合词语的提取;给出了考虑“共现句频”和支持度的候选概念判定条件,可以避免出现频率低的复合领域概念被过滤掉;引入了语义因素,根据上下文信息的概率分布与重要领域概念进行语义相似度的计算,使出现频率低但是语义相似的领域概念也能被提取出来。对比实验结果表明本文提出的BCAE算法的概念抽取召回率和准确率比基于领域相关度和一致度的领域概念自动抽取算法(FCRC算法)最多提高了17%和20%,比基于Bootstrapping的领域词汇自动获取算法(FWB算法)最多提高了11%和17%。(3)已有的领域概念间关系抽取方法能够获取的关系类型较少,有的无法确定关系类型。本文提出了一种混合的领域概念间关系自动抽取算法(HRAE算法),将领域概念间的关系分成关系类型未知和已知两种情况,并分别进行处理。对于类型未知的关系,提出了基于关联规则和不同句型的方法进行抽取,以避免一些未出现在概念对之间,但能表示概念间关系的动词被遗漏;对于类型已知的关系,提出了关系抽取规则的构造和扩展方法,采用概念间关系抽取规则进行抽取。与基于关联规则的关系抽取方法(ARRE算法)、关系学习方法(NTRL算法)以及基于图的关系抽取方法(GRAONTO算法)进行的对比实验结果表明本文提出的HRAE算法能够获取领域的核心语义关系,并且性能较好,准确率-召回率、F1和Fo.5评估值比ARRE算法、NTRL算法和GRAONTO算法中的最优值分别提高了6%、6%、4%。(4)目前已有的相似度计算方法未能全面考虑影响概念间相似度的因素,没有充分利用本体语义知识。本文首先分析了语义距离、层次因素和上下位概念重合度对概念间相似度的影响,在此基础上建立了基于本体的语义相似度计算模型(OSSC模型)。其中上下位概念重合度的计算利用了概念间的语义知识,在语义距离和概念层次两个因素间建立了关联,减少了用于调节影响因素贡献率的参数个数,因而不需要占用更多的时间来确定合适的参数取值。与D.Sanchez, Petrakis, Rodriguez&Egenhofer, Leacock&Chodorow, Li, Wu&Palmer, Hist&St-Onge, Resnik, Lin, Jiang&Conrath近年来分别提出的10种方法进行了对比实验,实验中采用相关系数评估方法,相关系数值越大,表明模型的准确度越高。实验结果表明采用本文建立的OSSC模型在Miller-Charles和Rubenstein-Goodenough两个标准数据集上进行概念间相似度计算,得到的结果与基准值间的相关系数平均值达到了0.85,超出了以上研究者提出的10种方法中的最优值0.83,说明了本文建立的OSSC模型准确度较高。(5)实现了基于突发事件本体的突发事件智能信息检索原型系统(EIIRS)。EIIRS采用突发事件主题爬虫实现了突发事件文本信息的采集。建立了突发事件本体扩展框架,通过本文所提出的领域概念自动抽取算法(BCAE算法)和概念间关系自动抽取算法(HRAE算法)来对突发事件本体不断进行扩展,目前已扩展至51个类,75个属性和4234个实例。根据突发事件本体的语义关系设计了33条推理规则,采用Jena推理引擎实现了简单的突发事件本体推理。为了实现对突发事件的语义检索,建立了基于突发事件本体的语义检索模型(EOBSR模型)。在EOBSR模型中,为了避免扩展结果同质化和检索结果主题偏移,提出了根据本体中存在的多种语义关系和语义相似度计算模型进行语义查询扩展和排序的方法。突发事件语义检索实验结果表明,采用本文所建立的EOBSR模型不仅能扩展出和查询词有特定语义关系的概念,而且能够使更多相关的检索结果排在前面,重新定义的查准率比Lucene检索的查准率平均提高了33.9%。