基于内容的汉语文献信息检索系统的设计与实现

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:ldbeight
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对目前基于标引的检索系统和全文检索系统存在的问题,分析了词性标注对检索性能的影响、基于重要句群检索的可行性以及自然提问语句模式等方面内容,并以此为基础,提出一种改进的信息检索系统模型:基于内容的汉语文献信息检索系统的模型。先把文章的句子按权重排序,然后根据用户选择阈值的范围,把阈值范围内的重要句子群作为待检段落,在待检段落中进行检索;同时在预处理的时候,对文献的语词进行词性标注,达到部分消歧的效果;当用户需要对文献进行扩检的时候,可以通过扩大阈值以及放松对词性匹配的限制而扩大待检段落的范围,最终实现全文检索的目的;此外,文章还对网站上的用户提问语句做了分析,提出常见用户提问模式,支持用户用自然语句进行提问检索。本实验系统是针对中文计算机领域文献的检索系统,以《软件学报》发表的部分文献以及其他一些计算机文献作为系统开发和测试时候的测试集。在测试中,系统和中国期刊网全文数据库检索性能做了比较,其中大部分检索结果优于中国期刊网的检索效果。 本实验系统的设计与传统的中文信息检索系统比较起来,具有以下五点主要成果:1、实现了词性匹配检索。实验通过具体数据来说明汉语词性标注和汉语信息检索性能之间的关系。2、实现了基于重要句群的检索。系统直接从原文中抽取最能代表文章主题的句子作为待检段落进行检索,这样可以提高文献的检准率。3、具有扩检功能。用户通过扩大阈值范围以及放松对词性匹配的限制最终可以实现全文检索功能。4、具有部分数据挖掘功能。能把与高权值词在一起的有检索意义的非高权值词检索出来。5、支持自然语句提问检索。系统通过对用户使用的自然提问语句进行过滤,只对提问中的关键词进行检索。 本文第1章介绍了计算机检索的发展现状和研究动态。第2章研究了词性标注和基于文摘检索的必要性和可行性以及自然语言提问句的常用模式。第3章详细介绍了本实验系统的实现原理。第4章介绍实验系统的设计与实现。第5章介绍了实验系统的测评。第6章归纳了系统的主要成果,系统存在的问题以及后续的研究工作。
其他文献
对60头大约克夏从70~190日龄,每隔15d测定体重和背膘厚,分析其生长发育规律。结果表明:①大约克夏生长肥育期的各阶段日龄与体重间的相关系数r≥0.67(P<0.0001)。②Logistic模
生态环境综合评价是确定环境承载力和区域规划的前提和基础。对生态环境综合评价中指标体系的建立及评价方法进行论述 ,分析比较特尔菲法 (专家咨询法 )、层次分析法、灰色关
<正>加强道路安全生命防护工程建设,是树立"以人为本"理念,落实"安全发展、和谐发展"要求的重要前提和基础,开展道路交通安全生命防护工程建设,应致力于深入了解经济、社会发
我国采油地常常分布在人烟稀少的偏僻地区,交通通讯不便,分布地域广泛、大部分地区处于无人或少人值守状态,偷盗、人为破坏设施现象时有发生。因此,用于油田的远程视频监控系
葛根与人参相配,是临床上常用的一个药对。本文通过研究历代文献,归纳出葛根与人参配伍可用于脾胃气虚、外感、热病、消渴、痘疹、中风偏瘫、痹证、痿证等多种病证的治疗,并
信息技术在中小企业会计工作中的应用越来越受到重视,实施会计电算化能够为中小企业带来可观的经济效益,然而如何有效实施会计电算化是中小企业需要解决的紧迫问题。本文为中
随着ERP在企业中的广泛应用,会计电算化人才越来越受到青睐,中职学校会计专业也把会计电算化作为一门必修课,或作为一个分专业。但由于种种原因,会计电算化的教学效果远达不
电子商务的迅速发展为人类提供了一个全新的商业交易方法,它突破了时间和空间的限制,因快捷、方便、高效、成本低、可进行"全球性"和"全天候"交易等巨大优势而赢得众多企业和
网络信息的自由性与科学性、网络信息的巨大规模与人们有限的精力之间存在着矛盾,这种矛盾随着互联网规模的扩大、网络信息的急剧增长愈演愈烈,需要我们对网络信息分析、评价,建
模糊控制规则的正确选择是模糊控制器设计的关键,它决定了模糊控制系统的动态、静态性能和控制效果,其优化在本质上就是要解决控制规则的质量和数量问题。本文概述了模糊控制