论文部分内容阅读
本文针对目前基于标引的检索系统和全文检索系统存在的问题,分析了词性标注对检索性能的影响、基于重要句群检索的可行性以及自然提问语句模式等方面内容,并以此为基础,提出一种改进的信息检索系统模型:基于内容的汉语文献信息检索系统的模型。先把文章的句子按权重排序,然后根据用户选择阈值的范围,把阈值范围内的重要句子群作为待检段落,在待检段落中进行检索;同时在预处理的时候,对文献的语词进行词性标注,达到部分消歧的效果;当用户需要对文献进行扩检的时候,可以通过扩大阈值以及放松对词性匹配的限制而扩大待检段落的范围,最终实现全文检索的目的;此外,文章还对网站上的用户提问语句做了分析,提出常见用户提问模式,支持用户用自然语句进行提问检索。本实验系统是针对中文计算机领域文献的检索系统,以《软件学报》发表的部分文献以及其他一些计算机文献作为系统开发和测试时候的测试集。在测试中,系统和中国期刊网全文数据库检索性能做了比较,其中大部分检索结果优于中国期刊网的检索效果。 本实验系统的设计与传统的中文信息检索系统比较起来,具有以下五点主要成果:1、实现了词性匹配检索。实验通过具体数据来说明汉语词性标注和汉语信息检索性能之间的关系。2、实现了基于重要句群的检索。系统直接从原文中抽取最能代表文章主题的句子作为待检段落进行检索,这样可以提高文献的检准率。3、具有扩检功能。用户通过扩大阈值范围以及放松对词性匹配的限制最终可以实现全文检索功能。4、具有部分数据挖掘功能。能把与高权值词在一起的有检索意义的非高权值词检索出来。5、支持自然语句提问检索。系统通过对用户使用的自然提问语句进行过滤,只对提问中的关键词进行检索。 本文第1章介绍了计算机检索的发展现状和研究动态。第2章研究了词性标注和基于文摘检索的必要性和可行性以及自然语言提问句的常用模式。第3章详细介绍了本实验系统的实现原理。第4章介绍实验系统的设计与实现。第5章介绍了实验系统的测评。第6章归纳了系统的主要成果,系统存在的问题以及后续的研究工作。