论文部分内容阅读
毋庸置疑,信息检索技术已经成为人们使用互联网的重要技术,并蕴含着巨大商机。问答系统作为信息检索技术日后发展的方向,也是国内外学者研究的热点。在国外,已经有许多对问答技术的研究,甚至出现了实用化的面向开放域的英文问答系统。相对而言,由于中文处理的难点,国内这方面的研究仍处于初级阶段,还没有实用性的问答系统出现。因此,本文专门针对面向开放域的中文问答系统进行了研究和实现,开发出基于语义角色分析技术的中文问答系统,并通过实验对该方法的可行性和性能进行了分析验证。
本文所研究的问答系统包括三大部分:问题理解、信息检索、答案获取。问题理解模块负责对问题进行分类和提取关键词;然后信息检索模块将检索提交到网络上的搜索引擎,并获取包含答案的相关文档;之后答案获取模块从这些文档中提取出问题的答案。文中对这三大部分的功能、结构、工作流程分别进行了介绍和分析,其中重点研究了对常见的简单问题和两种复杂问题的答案获取技术。本文的主要研究点有:
应用语义角色分析的方法进行对简单问题的答案抽取,建造了针对简单问题的答案获取模型,最后在实验中检验了该模型的性能。
应用修辞关系分析的方法进行对因果问题的答案获取,通过分析分句之间、句子之间的修辞关系,识别出问题的答案。然后,在小范围的实验中验证了该方法的可行性。
利用时态标签对复杂时态问题进行分解,然后用从问句的答案对主问句的答案进行筛选,从而综合分解之后的答案。实验证明,该方法对复杂时态问题的回答起到了改善作用。
使用知网进行相似度、相关度的计算,摆脱了原始的基于词频的计算方法,使得答案的排序得到改善。