论文部分内容阅读
随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。虽然传统的搜索引擎(如Google等)已经取得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句,事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。问答系统集知识表示、信息检索、自然语言处理于一体,能更好的满足用户的检索需求,正成为国际上研究的一个新热点。本文主要工作是基于自由文本的问答系统的相关技术研究,主要工作及创新包含以下几个方面内容:
(1)本文对近千个汉语问句的句型进行统计研究,提出“问题标准型”方法,即先“缩检”(将提问化为标准形式)再“扩展”(针对标准形式给出多种可能回答形式)的处理方式,使句法分析能够更有效的处理自然语言问句,较准确的识别用户意图。
(2)通过实验对比了问答系统框架下多种布尔检索策略的性能,为构建问答系统选择适当的检索策略提供了实验数据和重要依据;在闭域问答系统环境下,提出特征词集的方法,并通过实验验证该方法对系统性能有很好的改善和提高。
(3) 以问题和答案中关键词的词频统计特性为基础,进一步考虑问题和侯选答案句子中关键词位置分布信息,提出一种结合向量空间模型(VSM)和关键词最小匹配距离的问题和句子相似度的计算方法,答案提取的MRR值达到了 0.48。