论文部分内容阅读
互联网中存在着许多不同类型的政府政策信息,其中有部分政策包含了各类型的申请项目供企业或个人申请。但是,由于政策文件数量的逐渐增多,通过人工寻找合适的申请项目变得低效且困难。对这类型文本进行自动化的信息提取并且构建相应的知识库,能使个人或企业更准确高效地找到合适的申请项目。目前虽然信息提取技术在许多领域中已获得较好的应用成果,但是在这类条件型文本中,信息提取的研究以及应用较为罕见,尚未成熟。因此,对该文本类型进行的研究是非常有价值的。本文提出的内容理解算法指的是:在条件型文本中抽取有价值的信息并将它们存储在图形数据库中作为推荐系统、问答系统等的决策依据。本文的研究主要在文本的建模及文本内容的信息提取中,体现在以下三个方面:(1)条件型文本有向无环图模型:本文结合条件型文本结构特点提出了条件型文本有向无环图模型。基于该模型,可存储条件型的文本内容以及表示条件型文本中项目与条件间、条件与条件间的关系语义。(2)条件项实体识别的研究:条件项的实体识别,是对条件关系进行抽取的基础。政策文本领域中存在着大量的实体,且存在着许多领域特有的实体,这些实体可分为四类:地名、机构、专有名词以及数字类。本文提出了基于同现度的触发词特征,并且使用了词性、句法依存关系、依存距离共四类特征作为条件随机场模型的训练特征。实验结果表明在政策文本领域中,基于上述四个特征训练的条件随机场模型在对四类条件项实体的识别中皆有较高的准确率、召回率以及F1值,验证了基于人工构建特征训练模型的可行性以及特征选取的有效性。(3)条件项实体关系抽取的研究:条件项实体关系的抽取是内容理解的重点。目前,政策领域的信息提取技术研究尚未成熟,缺乏高质量的标注语料库支持关系抽取的监督训练。针对以上问题,本文基于Bootstrapping方法改进提出了 TD_Bootstrapping算法。TD_Bootstrapping算法基于半自动化方法构建初始种子集并引入了三元组语义距离进行种子筛选。实验结果表明,TD_Bootstrapping算法与主流的关系抽取方法相比,准确率、召回率、F1值皆有提升,验证了 TD_Bootstrapping算法的有效性。最终,本文基于以上的研究与方法提出了一种条件型半结构化文本的内容理解算法,将其应用在内容理解系统中,并展示了基于内容理解系统建设的政策推荐平台。最后通过内容理解系统的系统测试验证了内容理解算法的有效性。