论文部分内容阅读
随着Internet的快速发展和网络应用范围的不断扩大,WEB信息量呈指数增长,而传统的搜索引擎仅能从词的层面上来进行搜索,造成人们从WEB信息海洋中及时、全面、准确获取信息越来越困难。本文以特定领域为范围,针对传统的检索技术以及搜索引擎的弊端,对一种新型的信息检索系统——自动问答系统进行了研究。这是当前自然语言处理领域一个热门的方向,它同时也代表了将来搜索引擎的发展方向。自动问答系统综合运用了知识表示、信息检索、自然语言处理等技术,它能够使用户以自然语言输入问题,而不是关键词的组合。而返回给用户的是简洁、准确的答案,而不是一些相关的网页。和传统的搜索引擎相比,自动问答系统更加方便、准确。本文首先研究了需要在问答系统中使用的现有汉语自然语言理解关键技术(中文自动分词、句法结构分析、语义相似度计算、答案匹配算法、答案抽取),其中给出了一种改进的基于语义词典的句子语义相似度层次线性计算算法。在这些技术的基础之上,设计并实现了一个基于汉语语言理解的问答式系统。通过实验和测试验证了系统的有效性。该系统分为问题答案库、问题分析、答案查询、答案抽取四个部分。问题答案库中存取了领域知识、常见问题和原始文本库等数据;问题分析是对用户输入的问句从词法、句法上进行分解和分析,以掌握用户问题的真正意图;答案查询是使用问题分析中获取的关键词对问题答案库进行布尔查询,获得相关度高的答案列表;答案抽取是对这些答案进一步加工,抽取成句子或段落展现给用户。本文的主要贡献是基本实现了基于受限领域知识的中文自动问答系统原型,并通过一系列测试来验证系统的查全率和查准率,具有工程实用价值。所做的研究工作及其结果对相关理论研究及实际系统的分析设计和实现也具有一定的参考价值和指导意义。