论文部分内容阅读
自动问答目前是一个比较热的研究领域,它的目标是回答用户用自然语言提出的简单问题。目前面临的难点有算法效率、准确率、可扩展性等方面。本文集中研究的范围是自动问答系统中的问句分析与相关研究。通过对现有的自然语言处理方面的研究,本文作者利用已有的成熟的或者提出新的有效的模型和算法,部分解决了自动问答系统中的问句分析当中遇到的问题,并证明了如下命题:较之纯粹的正则匹配的分析方法,采用了词法与句法分析的方法能有效提高问句分析的准确率。本文涵盖的具体内容包括中文分词,词性标注,中文句法分析,中文问句模式分类。
中文问句词法分析方面,文章分析了一些有效的分词方法,在通过词表分词的基础上引用一定统计信息,提出“基于前瞻”的最大概率快速中文分词算法。并予以实现,通过一定的测试发现分词准确率可以达到97%。词性标注方面本文介绍了利用统计信息的Viterbi词性标注算法。
中文问句句法分析方面,文章介绍了确定型上下文无关文法的chart句法分析算法和概率上下文无关文法的chart句法分析算法,并提出一种修改方案使得新算法能以更少的存储空间和更快的速度进行句法分析,最后实现了该算法,通过一定的实验发现准确率可以达到75%,而采用改进方案可以减少近26%活动边数,提高效率约10%左右。
中文问句模式分类方面,基于前面的工作,针对自动答疑系统中的问题,文章介绍了几种不同的问句模式分类思想,然后提出问句VP+QW+NP假设,并针对这种假设,结合问句中的词法分析和句法分析的方法,设计出一种新的相对较高效合准确的基于疑问词边界识别的问句模式分类算法,并实现了该算法,通过一定的试验得出这种算法可以满足大多数答疑系统的应用需求。