论文部分内容阅读
计算机和网络的出现方便了人们对信息的获取,随着互联网的飞速发展和计算机的迅猛更新,如何从互联网上更快地获取到更准确的有用信息成了人们的关注热点。现有的搜索引擎返回给用户的都只是一些与搜索内容信息相关的网页,这就需要用户自己再从这些网页中进一步寻求所需信息。显然这给人们查询信息带来了许多不便,而且无形中降低了查询效率。而问答系统(Question Answering System, QA)只需用户给出简单的问句,便可以返回给用户简洁、准确的信息,快速而有效地满足了用户对信息的检索需求。因此,问答系统的研究逐渐受到国内外众多学者的广泛关注,并已经取得了一定的研究成果。问句分类即确定问句所属的类型,是问答系统中必不可少的一部分,分类的准确性直接影响问答系统的性能。本文基于汉语框架网(Chinese FrameNet, CFN)提出了一种用于中文问句分类的新方法,该方法通过构建一系列CFN语义特征来表达每个问句的语义信息。首先选择五种汉语框架网特征作为候选特征,根据每一类别的分类精度对单个特征的分类能力进行排序,然后通过特征组合进行实验,选出具有最好分类效果的组合特征。本文的主要工作包括:(1)通过调查问卷的形式收集并整理了山西旅游的相关问句2155条,并参照哈工大信息检索研究室的问句分类标准,结合山西旅游问句的特点,给出适合山西旅游的问句分类体系,分为7大类,73小类,进一步丰富了原有的中文问题分类体系。(2)对CFN标注的问句集进行分析和整理,选出五种CFN语义特征,使用最大熵分类模型进行实验。首先对单个特征的分类能力进行排序,然后分别对这些特征的组合进行实验;通过实验,得到了其中三种特征的组合可以达到最好的分类效果;进一步从理论上分析了这三种特征对问句分类的重要性。最后本文还给出了每类问题的准确率、召回率以及F值。(3)采用SVM分类器进行对比实验,实验结果表明,相比较于SVM分类器,最大熵分类模型比较适合于处理问句的分类。问句分类是问答系统对问句进行处理的重要步骤,对后续模块起着很好的指导作用,提高问句分类的准确率可提高整个问答系统的性能。本文针对问句分类方法的尝试与探索进一步丰富和发展了中文问题分类的研究,并为设计高效的问答系统提供了一定的基础。