论文部分内容阅读
实体之间的关系抽取是信息抽取中倍受关注的一个重要的研究方向,也是自然语言领域的热点问题之一。在传统的中文关系抽取中,研究的往往是通用领域实体之间的关系,而在实际应用中,受限域(即特定领域)的实体间关系则更具实用意义。特定领域的实体关系研究与通用领域的实体关系研究的侧重点有明显不同,主要研究对象为具体概念。在旅游领域,有限的导游知识已不能满足客户对旅游知识的了解,旅游领域问答系统的出现,抽取出旅游领域概念、实例、属性和属性值之间的关系就显得尤为重要。本文以旅游领域概念、实例、属性及属性值为研究对象,围绕领域概念-实例、实例-属性值语义关系抽取做了以下几个方面的工作:1.实现了基于CRFs(条件随机场)的概念、实例、属性及属性值四类实体的识别。这是实体语义关系抽取的前提与基础。通过分析四类实体本身的特点以及实体出现在句子结构中的上下文特征,以旅游领域概念、实例、属性和属性值为对象进行实验。2.针对旅游领域概念-实例、实例-属性值语义关系抽取难的问题,采用SVM(支持向量机)模型实现概念-实例、实例-属性值的语义关系抽取。把关系抽取问题看作为分类问题(存在关系或不存在关系),结合SVM在解决小样本分类问题上的优势进行实体语义关系的抽取。3.针对基于SVM的关系抽取方法不能解决复杂句式的语义关系抽取问题,提出了基于Markov逻辑网的实体语义关系抽取。综合利用概念-实例、实例-属性值语义关系的词特征和句子结构特征,通过定义一阶逻辑公式来表示概念-实例、实例-属性值语义关系,借助Markov逻辑网将所有特征融合到Markov网中进行概念-实例、实例-属性值语义关系抽取。实验表明,融入复杂句子结构特征后的实体语义关系抽取较基于SVM的关系抽取效果要好。4.结合以上工作实现了实体语义关系抽取的原型系统。