论文部分内容阅读
现今,网络的快速发展为人们提供了大量的信息资源,人们希望在大量的信息中能够快速准确地找到自己需要的信息,在这样的背景下自动问答系统应运而生。自动问答技术(Question Answering,QA)是综合运用自然语言处理、信息检索、语义分析、人工智能等技术的一种新型信息服务技术。与传统的搜索引擎不同,自动问答系统通过自然语言句子提问,系统对问题进行分析并理解用户的问题,最终返回用户需要的答案。自动问答系统在国内外有着广泛的研究,已经出现了比较成熟的自动问答系统。但是由于中文语言的复杂性和处理技术的局限性,让计算机理解中文非常困难,中文问答系统已成为极具挑战力的研究领域,目前,中文自动问答系统的研究与应用仍以限定领域为主,并且还没有较成熟的系统出现,针对现有研究状况,本文提出并实现了基于中文带权关键词树算法的受限领域问答系统,研究的主要内容有:关键词抽取与加权得分;关键词树的构建与推理等。本文主要创新点如下:(1)本文对关键词的属性进行了详细的分析,将关键词属性分为词本体属性与词句中属性两类。抽取其中七种主要属性进行统计分析并作为评测关键词重要程度的加权依据。然后通过主成分分析来为各种指标的权重系数进行重组,计算权重指标系数并得出关键词的最终得分,此得分即为评价关键词重要性的依据。(2)本文通过创建自己的语义树,即关键词树,对领域知识进行管理。本文将类与树的概念相结合,提出了关键词树的知识存储概念,并结合领域知识的特性,对关键词树的构建、存储、更新等一系列操作进行了详细描述。(3)本文以关键词树为中心设计知识库并进行问句相似度计算,通过计算关键词权重与等级来设计问句相似度算法,缩小知识搜索范围,并对候选问题进行排序。总之,本文结合语义分析与统计分析的理论方法,在限定领域内,提出了一套基于关键词树的自动问答系统。通过实验证明,本文方法有效地提高了问答系统的检索效率和准确性。研究结果在信息咨询、电子政务以及科普文化传播等领域具有较高的理论意义和实用价值。